r4khic
@r4khic
Начинающий кодер на python

Как лучше реализовать проверку последних новостей парсеру?

У меня есть парсер который парсит 10 ресурсов. Он работает от БД. То есть берет правила выдергивания контента из таблицы. После чтобы мне спарсить ссылку на новость, заголовок, дату, контент. Я создал для ссылок на новости, заголовков, дат, контента отдельные функции. И вот после полученные ссылки на новости, заголовки, даты, контент. Заносятся в уже в другую таблицу для новостей. Как мне сделать проверку новостей. То есть чтобы парсер не парсил повторяющиеся новости,и не заносил их в БД.
  • Вопрос задан
  • 57 просмотров
Решения вопроса 2
FeNUMe
@FeNUMe
Один из простых вариантов: в начале парсинга получаете дату последней добавленной новости в бд и потом просто не добавляете спарсеные новости старее этой даты.
Чуть посложнее: запоминать для каждого сайта на каком URL закончился парсинг при прошлом запуске и останавливать цикл при повторном возвращении к этому адресу.
Ответ написан
kshnkvn
@kshnkvn
t.me/kshnkvn
Перед записью в БД проверяете есть-ли такая запись, если есть - прерываете цикл парсинга, ставите задержку, допустим 5 минут и после начинаете сначала.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы