Возможно ли написать универсальный парсер сайтов?

Question

Дмитрий @slo_nik

Возможно ли написать универсальный парсер сайтов?

Добрый день.
Возникла необходимость написать парсер сайтов, универсальный.
Задача в следующем.
Пользователь вводит адрес сайта в поле формы, через cURL получают содержимое сайта, выделить из выдачи только текст(из div, p, table, span и т.д.).
Но вот вопрос. Каждый сайт, это индивидуальная структура. Как в этом случае, настроив парсер только раз, получать данные с любого сайта, не меняя настройки парсера под каждый сайт? Возможно ли это?
Сейчас использую php, cUrl, htmlpurifier для получения текста с сайта.

p.s. Что необходимо получить?
Необходимо получить только текст, сохранив орфографию и пунктуацию. Никаких тегов быть не должно. Js/Jquery тоже не надо получать, единственное, что надо получить из данных, подгружаемых js/jquery - содержание слайдеров, если там есть текст.
В идеале надо получить весь текст от <body> до </body> и только текст. Если текст, например, находится в таблице, то надо выбрать текст из td, записать в одну строку и сохранить в файл(базу). Следующая строка в таблице tr > все td - сформировать строку и добавить в файл(базу). В итоге должно получится, что всё содержимое одной таблицы является одним абзацем в файле. Так же и с остальными тегами.
Вот как-то так)

p.s.s попытка реализации задачи

Вопрос задан более трёх лет назад
2108 просмотров

2 комментария

Подписаться 4 Оценить 2 комментария

Пригласить эксперта

Ответы на вопрос 5

10 комментариев

Дмитрий @slo_nik Автор вопроса, куратор тега Yii

К вопросу прикрепил ссылку на попытку реализации... Но не всегда работает как надо. На некоторых сайтах не расставляет пробелы(в некоторых местах), на некоторых не до конца забирает текст, но есть и такие, которые отлично парсятся. В моём случает можно найти "золотую середину"?

Написано более трёх лет назад
Алексей Уколов @alexey-m-ukolov Куратор тега JavaScript

Для начала забудьте про регулярные выражения. Написать универсальный парсер на регулярных выражениях невозможно.

Написано более трёх лет назад
Дмитрий @slo_nik Автор вопроса, куратор тега Yii

Алексей Уколов: Так как же мне поступить, с какого бока подойти к решению?

Написано более трёх лет назад
Дмитрий @slo_nik Автор вопроса, куратор тега Yii

Если надо получить только текст([-a-zа-яё0-9]+) и знаки препинания, то почему не подходят регулярные выражения?

Написано более трёх лет назад
Алексей Уколов @alexey-m-ukolov Куратор тега JavaScript

Потому что вы же решаете задачу не "получить только текст", а "убрать все теги". И эту задачу регулярными выражениями не решить, нужно работать с обработанным деревом документа. Я не нашёл на сайте HTMLPurifier описание технологии его работы, но вряд ли там регулярки.

Я так и не добился от вас конкретного описания вашей задачи. Вам нужен вообще весь контент страницы без тегов или какие-то дополнительные эвристики?

Написано более трёх лет назад
Дмитрий @slo_nik Автор вопроса, куратор тега Yii

Алексей Уколов: Мне нужен весь контент, начиная от шапки сайта и заканчивая подвалом. Заголовки разного уровня, списки, меню, таблицы, статьи, всё, что можно получить, Смысл этой затеи в том, что владелец сайта, вводит адрес сайта, отправляет форму, в ответ получает весь текст со своего сайта, который сохраняется в файл и базу. Далее этот текст должен проверяться корректорами на наличие ошибок.

Написано более трёх лет назад
Алексей Уколов @alexey-m-ukolov Куратор тега JavaScript

Я бы для решения этой задачи построил дерево документа, а потом рекурсивно его обрабатывал depth-first, выгребая контент и расставляя переносы строк там, где это требуется (тут логика относительно простая). Как только вы будете работать с абстрактным деревом и конечным набором стандартных текстов, вы и получите ту самую универсальность. И пьюрифаить ничего не понадобится - вы будете просто игнорировать все эти стили и левые атрибуты. Я бы ещё добавил к этому функционалу скриншот всей страницы 1к1, чтобы корректор мог понять контекст, это часто важно.

Написано более трёх лет назад
Дмитрий @slo_nik Автор вопроса, куратор тега Yii

Алексей Уколов: За идею со скриншотом спасибо, интересно.
>>> Я бы для решения этой задачи построил дерево документа
DomDocument или что Вы посоветуете?
>>>И пьюрифаить ничего не понадобится...
Htmlpurifier уже встроен в framework, поэтому решил его использовать.

Написано более трёх лет назад
Дмитрий @slo_nik Автор вопроса, куратор тега Yii

Алексей Уколов: Если делать такой скриншот, то что Вы посоветуете, как подойти к этой проблеме?
Знаю о таком ресурсе www.thumbshots.ru, но может что-то есть проще?

Написано более трёх лет назад
Алексей Уколов @alexey-m-ukolov Куратор тега JavaScript

Давайте перенесём дальнейшие ваши вопросы в формат именно вопросов. Так всем будет легче.

Написано более трёх лет назад

5 комментариев

Дмитрий @slo_nik Автор вопроса, куратор тега Yii

Мне как раз надо получить только текст, сохранив орфографию и пунктуацию. Никаких тегов быть не должно. Js/Jquery тоже не надо получать, единственное, что надо получить из данных, подгружаемых js/jquery - содержание слайдеров, если там есть текст.

Написано более трёх лет назад
Omich @omichkun

slo_nik: вот curl вам и не сможет подгрузить эти слайдеры. Плюс, некоторые сайты защищаются от парсинга, загружая контент при помощи javascript, тем самым немного усложняя задачу парсеролюбам.

Написано более трёх лет назад
Сергей delphinpro @delphinpro Куратор тега JavaScript

А данные которые подгружаются на сайте разве не http-запросом дергаются? Повторяешь запрос курлом, получаешь искомое.

Написано более трёх лет назад
Omich @omichkun

Сергей: Нет, курл совсем не умеет в жаваскрипт. Абсолютно.
Те данные, которые подгружаются жаваскриптом, курлом вообще не подгрузятся, хоть повторите вы запрос через 5 секунд, хоть через час.

Написано более трёх лет назад
Сергей delphinpro @delphinpro Куратор тега JavaScript

Omich: повторяешь запрос - это значит нужно не еще раз тот же запрос послать (ну и фантазии у вас :) ).
Я имел ввиду, и думал это очевидно, что нужно курлом сделать точно такой же запрос, который делает джаваскрипт. Еще раз: весь интернет построен на http запросах. Курл прекрасно работает с http запросами. Он для этого и написан. Отсюда следует, что курлом можно получить любой контент.

Написано более трёх лет назад

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+2 ещё

Средний
Как отсортировать в ХТМЛ по дате рождения от младшего к старшему, а так же, нумерацию их 1,2,3,4. Чтобы можно было потом добавить еще людей?
- 1 подписчик
- 7 часов назад
- 45 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Почему шрифт в JS prompt() белого цвета?
- 1 подписчик
- 10 часов назад
- 45 просмотров
2

ответа
HTML

+1 ещё

Простой
При загрузке картинки этот блок не имеет размера, как исправить?
- 1 подписчик
- 11 часов назад
- 46 просмотров
0

ответов
JavaScript

Простой
Выдает ошибку, сам файл не нулл(а ошибка выдается там где подключается жс), как исправить?
- 1 подписчик
- 12 часов назад
- 45 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Пустая страница, ошибок нет. JS. В чем проблема?
- 1 подписчик
- 12 часов назад
- 159 просмотров
1

ответ
JavaScript

Простой
Какой фреймворк использовать для форм JS?
- 1 подписчик
- 12 часов назад
- 53 просмотра
0

ответов
JavaScript

Простой
Почему change срабатывает раньше чем click?
- 1 подписчик
- 12 часов назад
- 64 просмотра
1

ответ
HTML

+1 ещё

Простой
Как кодировать кириллицу в поле data?
- 1 подписчик
- 17 часов назад
- 42 просмотра
1

ответ
JavaScript

Простой
Как получить metadata аудио на IOS?
- 1 подписчик
- 18 часов назад
- 21 просмотр
0

ответов
HTML

+1 ещё

Простой
Как в теге select один символ сделать другого цвета?
- 1 подписчик
- 23 часа назад
- 87 просмотров
1

ответ
Показать ещё Загружается…

Junior JavaScript Developer

КРАФТТЕК • Санкт-Петербург

от 60 000 до 80 000 ₽

JavaScript разработчик

summer • Ярославль

от 100 000 до 140 000 ₽

JavaScript разработчик

вАйТи

от 5 000 до 25 000 ₽

Доработать бота

20 апр. 2024, в 08:24

1500 руб./за проект

Разработать интранет сайт (корпоративный портал)

20 апр. 2024, в 07:24

100000 руб./за проект

Исправить адаптивную верстку на Tilda Zero Block

20 апр. 2024, в 06:39

4000 руб./за проект

Мне как раз надо получить только текст,
Весь текст или только значимый текст? Первое сделать очень легко (curl + strip_tags), второе где-то между сложно и невозможно (см. мой ответ).
Вам нужно нормальное ТЗ. Ваше описание - мечты идиота.
Поисковики давно делают похожее, но сколько это будет стоить?
Как бюджетный вариант - Сохраняйте в PDF страницы, отрендеренные соответствующим инструментом и тащите оттуда текст Fine Reader подобным инструментом.

Answer 1 · 2016-07-13 11:34:57

И да, и нет: у вас очень расплывчатая формулировка. Непонятно, насколько осмысленным и обработанным должен быть итоговый результат, насколько допустим мусор.

Скачать страницу, построить дерево документа и какими-то элементарными эвристиками вырезать ненужное (меню, сайдбары, подвалы, рекламу и т.п.) относительно просто, но результат будет довольно грубый с неудовлетворительным соотношением сигнал/шум.

Для повышения универсальности инструмента, потребуется увеличивать количество и сложность этих эвристик. А ещё можно подключить туда машинное обучение, чтобы они сами себя улучшали.
И вот вы уже хотите написать что-то вроде поискового паука. Представьте, сколько сил вложено в разработку паука Яндекса или Гугла. У вас есть такие возможности? А ведь мало его просто написать, надо поддерживать, следить за новыми стандартами...

Парсинг сайтов - это задача, которая легко решается людьми, но плохо даётся роботам. Если смотреть с точки зрения бизнеса, то гораздо дешевле и эффективнее будет посадить джуниора, который будет писать отдельные правила парсинга под каждый сайт, чем пытаться конкурировать с Гуглом.

Answer 2 · 2016-07-13 11:33:11

Очень сомневаюсь, что это возможно.
Вам же нужны структурированные данные, а не просто сплошной текст того, что есть на сайте/странице. А чтобы получить структурированные данные, необходимо знать и настроить структуру для парсера, чтобы он знал, что брать, а что пропускать.
Ну и curl - не панацея от всех проблем. Например, он не сможет получить данные, которые подгружаются на сайте, используя JavaScript (подсказка: в этом случае поможет только PhantomJS).

Answer 3 · 2016-07-13 11:43:05

fetis26 @fetis26

Ну, за фронтенд!

Этим поисковые системы уже второе десятилетие занимаются. Вроде получается, но оцените трудозатраты.

Ответ написан более трёх лет назад

1 комментарий

Answer 4 · 2016-07-13 13:06:06

Rou1997 @Rou1997

Конечно, возможно, стандарт DOM предусматривает document.body.textContent как и у других DOM-элементов.

Ответ написан более трёх лет назад

1 комментарий

Answer 5 · 2017-04-21 11:36:22

Как вариант - можно уйти в сторону специализированных сервисов, наподобие https://lateral.io/docs/article-extractor

Возможно ли написать универсальный парсер сайтов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт