Задать вопрос

Евгений @eugeneledenev

sitemap

Как получить список URL сайта(более 2млн страниц)?

Есть сайт, нужно на блок фильтра сделать карту. Там однозначно более 1-2млн страниц.
Нужен по сути просто список ссылок в текстовом файле.
Из данных есть:
1.Первоначальный url https://www.site.com/category/
2. Куски которые должны быть в нужных мне УРЛ *tip-*, *vid-*, *shema-* и т.п.
3. Куски которых не должно быть в моих URL *page=*
п.2 и 3 относится как к списку url на которых ищутся ссылки, так и для списка итогового url.
4. Есть VPS на котором можно поставить копию сайта и запустить сканер.
Как решить задачу? Вроде можно через wget, помогите нарисовать wget запрос.
Первоначально делал через contentdownloader, но там после 1млн ссылок может вывалиться out of memory.

Есть еще вариант php+БД который будет с нужной периодичностью проверять актуальность ссылок, добавлять новые, удалять старые и при необходимости в нужный момент выгружать актуальные урл на текущий день. Но это тоже трудозатратно, если только на основе готового на 95% кода переписать под себя.

Вопрос задан более трёх лет назад
797 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

dimonchik2013

Dimonchik @dimonchik2013

non progredi est regredi

проще всего - Scrapy
дешевле всего - Wget, после Wget все равно обрабатывать + однопоточность + хз какой алгоритм краулинга

Ответ написан более трёх лет назад

Комментировать

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Поисковая оптимизация

+2 ещё

Простой
Можно ли поменять sitemap сайта на Tilda?
- 1 подписчик
- 14 мар.
- 88 просмотров
1

ответ
WordPress

+1 ещё

Простой
Ошибка XML sitemap на Wordpress?
- 1 подписчик
- 07 янв.
- 55 просмотров
0

ответов
Поисковая оптимизация

+1 ещё

Простой
Страницы с GET-параметрами в sitemap.xml, плохо?
- 1 подписчик
- 20 дек. 2023
- 66 просмотров
1

ответ
Яндекс.Карты

+2 ещё

Простой
Как делать маршрут внутри здания?
- 1 подписчик
- 08 дек. 2023
- 63 просмотра
1

ответ
Поисковая оптимизация

+1 ещё

Простой
Как настроить обновление карты сайта?
- 1 подписчик
- 07 дек. 2023
- 46 просмотров
2

ответа
Crawling

Средний
Почему браузеры и curl дают разные результаты?
- 4 подписчика
- 28 окт. 2023
- 578 просмотров
2

ответа
Google

+1 ещё

Простой
Как исправить ошибку индексации карты сайта?
- 1 подписчик
- 27 окт. 2023
- 43 просмотра
2

ответа
1С-Битрикс

+4 ещё

Сложный
Почему гугл серч не видит sitemap.xml?
- 1 подписчик
- 16 окт. 2023
- 108 просмотров
4

ответа
WordPress

+2 ещё

Простой
Что делать когда GSC не хочет индексиировать Sitemap?
- 1 подписчик
- 14 окт. 2023
- 74 просмотра
1

ответ
Wget

Средний
Как совместить в опциях wget -nc и -k?
- 1 подписчик
- 17 сент. 2023
- 39 просмотров
0

ответов
Показать ещё Загружается…

Data Scientist (Финтех)

Intelinvest

от 60 000 ₽

SMM-менеджер (Инвестиции)

Intelinvest

от 30 000 ₽

Специалист технической поддержки информационных систем

Интер РАО – Управление сервисами • Саратов

от 41 000 до 46 000 ₽

Обработать массив фотографий

19 апр. 2024, в 08:46

5000 руб./за проект

Скрыть / убрать лишние поля в форме заказа

19 апр. 2024, в 07:30

1500 руб./в час

Взлом автомобильной программы

19 апр. 2024, в 05:01

999999 руб./за проект