@Maxwi

Как спарсить новости с любого новостного сайта?

Некоторые сайты предоставляют api(RSS) типа https://lenta.ru/info/posts/export/ для доступа к их новостям, но что, если RSS не указан на сайте, а любая попытка парсинга приводит к ошибкам?
  • Вопрос задан
  • 288 просмотров
Пригласить эксперта
Ответы на вопрос 3
mykmykpet
@mykmykpet
Как гуглить ошибки: https://youtu.be/Y8rtcVzFB-c
Но что, если RSS не указан на сайте, а любая попытка парсинга приводит к ошибкам?

Смириться. Это значит, что сайт не хочет тебе просто так отдавать новости. Это его право. Пора бы уже привыкнуть, что в интернете нет ничего дармового. И то, что сайт дает РСС, еще не значит, что можно публиковать его контент на своем ресурсе.
Или можешь нанять бригаду индусов, которые вручную будут копипастить. Но тогда тебе придется жить в постоянном ожидании иска или претензии от первоисточника.

Апдейт по поводу РСС.
Даже Лента, несмотря на наличие РСС, не разрешает без письменного разрешения публиковать их материалы у себя:
1.3. Использование материалов, размещенных на Сайте и в Специальных проектах, допускается только с письменного согласия Издания. Бесплатное использование материалов возможно только в случаях, прямо предусмотренных в пп. 2.2.1.-2.2.3. настоящих правил.

2.2. Использование на безвозмездной основе:

2.2.1. Любые материалы Издания могут быть использованы без письменного согласия Издания и на безвозмездной основе при условии, что пользователь является физическим лицом, и такое использование осуществляется исключительно в личных целях.

2.2.2. Использование информационных текстовых материалов Издания религиозными и благотворительными организациями, а также любыми образовательными учреждениями на безвозмездной основе возможно только после получения письменного разрешения (согласия) Издания.

2.2.3. Новостные материалы Издания, расположенные по адресу lenta.ru/news/..., могут быть использованы любыми Пользователями без получения письменного разрешения Редакции и на безвозмездной основе при условии, что эти материалы не являются основным содержимым продукта, в котором используются. При этом Пользователи обязаны в каждом случае использования новостных материалов дать ссылку на источник и гиперссылку на сайт, с которого заимствованы указанные материалы.


https://lenta.ru/info/
Ответ написан
profesor08
@profesor08
Ручками парсишь хтмл любым удобным способом. Либо платишь тому, кто это сделает за тебя.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
Spice IT Recruitment Москва
До 200 000 руб.
TeamJet Москва
До 100 000 руб.
Fundraise Up Санкт-Петербург
от 140 000 до 200 000 руб.