@hesy

Как эффективно парсить страницы?

Есть база ссылок около 100к одного сайта, задача: по каждой ссылке спарсить текст между определенными тегами.

Вопрос, как это лучше реализовать?
Подойдет для этой задачи php или лучше использовать python?
  • Вопрос задан
  • 161 просмотр
Решения вопроса 3
@Verz1Lka
Web scraping expert
Рекомендую использовать фреймворк для парсинга scrapy на python
Ответ написан
@maksam07
Могу посоветовать 2 библиотеки:
rmccue/requests - для парсинга самой страницы
paquettg/php-html-parser - для разбора html кода

На счет производительности не знаю, но этот вариант лично мне удобен и я им пользуюсь на данный момент\

Совет: если будете парсить страницы в цикле, то всегда вконце цикла очищайте переменную, которой присваиваете запрос, типа:
while(1){
    $request = Requests::get( $url, $headers, $options );
    ...
    unset( $request );
}
Ответ написан
@hesy Автор вопроса
Эффективным оказался способ на Python в простой связке requests+bs4.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
LazyTalent
@LazyTalent
Data Engineer, Freelancer
Да хоть BrainFuck, что лучше знаешь на том и пиши
Ответ написан
Комментировать
@max3wq
Из готовых могу посоветовать Content Downloader
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы