r4khic
@r4khic
Начинающий кодер на python

С чего начать реализации идеи для универсального парсера?

Добрый день ! Поставлена задача продумать реализацию (веб-приложения) универсального парсера для новостных порталов который парсит заголовок,дату,новость .То есть (в идеале конечно) допустим вводишь ссылку на новость и парсер работает.Понимаю пример очень экстремальный.
По такому типу:
Тык№1
Тык№2

Хотелось бы услышать мнение на счет реализации.Как бы именно вы реализовали такого рода задачу? И какие методы парсинга чтобы он подходил для большинства новостных ресурсов бы вы посоветовали ?
Основной акцент вопроса это методы парсинга для большинства новостных ресурсов.Чтобы было подобие универсального парсера

Из инструментов для backend думаю использовать python и такие библиотеки и фреймы к ним:
Для отправки http-запросов библиотека requests
Для получения данных с веб-страниц фреймворк Scrapy
Для сохранения спарщенных результатов буду использовать библиотеку Pymysql

Из инструментов для frontend пока не определился.

P.S: Да,понимаю задача сложная.Но как говорится за сложной задачей кроется и огромный опыт и знания.Всем мира и добра :)
  • Вопрос задан
  • 124 просмотра
Пригласить эксперта
Ответы на вопрос 2
daemonhk
@daemonhk
ПсиХоПат
Универсального ничего нет, не было и не будет, иначе это все превращается в комбайн, у которого потом отвалятся колеса...

Что вы хотите парсить? Магазины, сайты, видеохостинги, файлы XML для обмена с 1С? Во-первых, нужно определиться с тем, что вы хотите/готовы предложить рынку, во-вторых, разбить ваш супер-пупер-мега парсер на модули, отвечающие каждый за свой участок.

Ну и завтра АлиЭкспресс, АлиБаба и прочие поменяют структуру данных, дизайн, и все те, кто купил платные парсеры, останутся с носом.
Ответ написан
@Verz1Lka
Web scraping expert
Посмотрите в эту сторону: https://scrapinghub.com/autoextract
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы