Joannes
@Joannes
html, css, js, angular, bootstrap

Как и чем можно сделать парсинг объявлений?

Всем привет. Гуглил софт, есть некоторые программы для парсинга, но никак не могу добиться нужного результата. Может не то использую.

Подскажите те кто имел с этим опыт. Есть сайт объявлений. Вот например категория легковых автомобилей. https://999.md/list/transport/cars Как вытащить оттуда объвлений и что бы настроить результат в виде базы данных что бы можно было легко импортировать на свой сайт. Спасибо всем кто откликнулся -)
  • Вопрос задан
  • 7503 просмотра
Пригласить эксперта
Ответы на вопрос 4
В гугле пишите: {язык программирования который используете} parse html
Вот второй результат по запросу "php parse html", habrahabr.ru/post/176635
Смысл такой, получить html страницы, разобрать и вытащить данные нужные из нужных нод (в этом как раз и поможет то, что по ссылке на хабр), а потом уже записать в базу данных все это дело (или разбера между делом записывать в БД, это ваше дело)
Ответ написан
Комментировать
Jump
@Jump
Системный администратор со стажем.
Я предпочитаю использовать для этого связку Python + Grab.
Но это предполагает знание языка программирования, и понимания принципов работы веб сервисов.

Насчет универсальных программ для парсинга - они есть, но толку от них мало.
Во первых нет гибкости.
Во вторых перенастроить ее для нужного сайта это довольно сложны процесс, и так же требует понимания работы веба.
К тому же большинство подобных ресурсов не одобряет парсинг, и всячески с ним борется. Поэтому вам нужно будет еще и обходить возможные баны, использовать множество прокси, подготавливать инфраструктуру для запуска парсеров.
В общем это достаточно сложный процесс.

Если умеете программировать и знаете основы веб, то лучше написать самому.
Если нет, то лучше обратится к профессионалам, которые либо напишут для вас парсер для нужного ресурса, либо просто вытащат необходимую информацию.
Ответ написан
Комментировать
AnnTHony
@AnnTHony
Интроверт
Недавно для собеседования писал аналогичное тестовое задание.
Парсил сайт с помощью C# + HtmlAgilityPack.dll.
Как писалось выше, нужно получить html-страницу с интересующими данными и вытащить оттуда информацию, а уж куда ее писать (в базу, в файл) - выбор за вами.
Для этого нужно знать язык программирования (не обязательно C#), понимать работу веб-серверов, понимать сам HTML, чтобы суметь найти теги, между которыми содержится информация.
На собственном опыте скажу, что парсить регулярками не вариант. :)
Ответ написан
Комментировать
Joannes
@Joannes Автор вопроса
html, css, js, angular, bootstrap
А может быть такое что сайт защищен от парсинга? И как это можно проверить? Например у меян не получается взять html с сайта 999.md
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы