Как наиболее просто собрать кучу ссылок с сайта?

Question

Сергей Марков @srb-site

WEB-программист

Как наиболее просто собрать кучу ссылок с сайта?

Подскажите, пожалуйста, дико нетребовательный к ресурсам парсер сайта на php. Задача примитивная донельзя, нужно собрать с интернет-магазина ссылки на товары и описания к ним. Делаю это не для воровства контента, а для создания XML-файла для Regmarkets.

Вообще, успешно делал такое с помощью simple_html_dom но на другом компе. Сейчас в распоряжении только мега-слабая и старая машина, в результате чего библиотека пытается что-нибудь сделать в течение минут пяти и безрезультатно. "Затык" происходит на этапе разбора кода и поиска в нем нужных тегов. Пробовал на Денвер и OpenServer, от сервера не зависит.

Возможно стоит написать с нуля, но, парсеры никогда не делал и, наверное, быстрее использовать готовое решение, но оно должно быть каким-то очень простейшим. Надо: получить из каталога ссылки на товары, сходить по каждой ссылке и взять там описание из нужного div-а, сохранить это все в excel.

Вопрос задан более трёх лет назад
110 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

Антон @Eridani

Что Вам мешает не брать локальный компьютер, а взять для сих дел хостинг?

Написано более трёх лет назад
Сергей Марков @srb-site Автор вопроса

Ну, в принципе, выход ) Только такие задачи у меня большая редкость, специально для этого покупать хостинг не выгодно. Хотя можно использовать тестовый период где-нибудь... Если ничего не найду, попробую

Написано более трёх лет назад
Сергей Марков @srb-site Автор вопроса

Спасибо всем огромное! Написал свою, весьма извращенную, но легкую штуку ) Вроде работает.

Написано более трёх лет назад
Пычев Анатолий @pton

А поделиться? Не надо кодом, хотя-бы идеей или алгоритмом

Написано более трёх лет назад
Сергей Марков @srb-site Автор вопроса

Пожалуй, что таким решением стыдно делиться :) Сделать проект надо быстро, я уже пообещал и даже деньги взял, а потом оказался затык с производительностью компа. В результате не стал заморачиваться и получился многоходовой алгоритм, в котором приходится и ручками работать.

Его смысл:
1. Вручную открываешь нужную страницу
2. Копируешь адрес в поле наскоро созданной формочки
3. Нажимаешь на кнопку, адрес ajax-ом отправляется на сервер
4. При помощи file_get_contents скачивается страница
5. Регуляркой из нее достается нужный div
6. Содержимое этого div-а сохраняется в html-файл, прямо в виде разметки, а перед этим туда добавляется подключение js
7. Регулярка несовершенна и какого-то фига остается лишний код за пределами нужного div-а, убираем его вручную через текстовый редактор :)
8. Дальше открываем этот файл в браузере, срабатывает js и (вот тут-то вся "фишка и начинается) при помощи jquery обходит каждый нужный блок внутри большого родительского и собирает из каждого блока нужные данные, составляя все это в строку с разделителями вида '[%]', в конце данных, относящихся с одному товару ставится '[%%%]'. Символы "от балды", лишь бы среди нужной информации о товарах не попались.
9. После того, как все блоки обработаны, доходит дело до аякса. С его помощью собранная строка оказывается на сервере и там разбивается explode по указанным выше символам. Вместе с разбитием работает phpExcel и пишет инфу в нужные ячейки заранее созданного xls-файла.

Мне кажется, извращение дикое :) Зато как летает! Если приспособиться, можно получать готовый excel по отдельной странице секунд за 20-30. А дальше у меня уже готовый скрипт есть, который потом объединенный excel-файл в xml перегонит.

В общем я сам парсинг из php передал js.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+2 ещё

Средний
Запросы soap в инфоклинику на php?
- 1 подписчик
- 18 минут назад
- 13 просмотров
0

ответов
PHP

Простой
Не работает часть скрипта PHP при смены PHP 7 на 8?
- 1 подписчик
- 14 часов назад
- 154 просмотра
2

ответа
PHP

Средний
Как найти в массиве ответа API нужное значение, при том что значение может быть написано в разном регистре?
- 1 подписчик
- 20 часов назад
- 131 просмотр
3

ответа
PHP

+1 ещё

Простой
Как отправить сообщение в определенную тему в группе Telegram боту на PHP?
- 1 подписчик
- 21 час назад
- 59 просмотров
0

ответов
PHP

+1 ещё

Простой
Почему не работает JWT поверка?
- 1 подписчик
- 21 час назад
- 64 просмотра
0

ответов
PHP

+1 ещё

Средний
Как отладить плавающий баг проверки капчи?
- 1 подписчик
- 22 часа назад
- 56 просмотров
1

ответ
PHP

Простой
Как вывести переменную php которая выводит путь к файлу в строке $data = File('assets/files/uslugi-i-ceny/558.csv');?
- 1 подписчик
- вчера
- 97 просмотров
0

ответов
PHP

+1 ещё

Простой
Как сделать авторизацию по двум таблицам в Symfony?
- 1 подписчик
- вчера
- 83 просмотра
2

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- вчера
- 85 просмотров
0

ответов
PHP

+1 ещё

Простой
Как исправить ошибку Uncaught Error: Call to undefined function mysql_real_escape_string?
- 1 подписчик
- 21 апр.
- 98 просмотров
3

ответа
Показать ещё Загружается…

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

Midlle PHP developer (backend)

ИТЦ Аусферр • Магнитогорск

от 100 000 до 160 000 ₽

Сделать ТГ бот

23 апр. 2024, в 13:02

3000 руб./за проект

Разработать дизайн для тгвебапп

23 апр. 2024, в 12:52

15000 руб./за проект

В wordpress подключить модуль по рассрочке (документацию дам)

23 апр. 2024, в 12:39

4000 руб./за проект

Что Вам мешает не брать локальный компьютер, а взять для сих дел хостинг?
Ну, в принципе, выход ) Только такие задачи у меня большая редкость, специально для этого покупать хостинг не выгодно. Хотя можно использовать тестовый период где-нибудь... Если ничего не найду, попробую
Спасибо всем огромное! Написал свою, весьма извращенную, но легкую штуку ) Вроде работает.
А поделиться? Не надо кодом, хотя-бы идеей или алгоритмом

Answer 1 · 2018-04-18 09:07:19

Не знаю. Я наоборот ни разу не использовал simple_html_dom. А пишу все на регулярках. Мне очень удобно и быстро работает.

Answer 2 · 2018-04-18 10:11:49

Евгений @Eugeny1987

Работаю с HostCMS

Content Downloader хорошо парсит
Ссылки получаете из карты сайта

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2018-04-18 10:25:13

Если надо сохранить это все в excel и на локальной машине, то я бы делал это прямо инструментами excel
С помощью инструмента WinHttp.WinHttpRequest.5.1 получаем данные страницы

spoiler

'---------------------------------------------------------------------------------------
' Purpose   : Стучимся в сервер за результатами
'---------------------------------------------------------------------------------------
' sQuery - строка запроса
' sResponse - ответ, передается по ссылке
Function Runhttp(sQuery As String, ByRef sResponse As String) As Boolean
   On Error GoTo ErrorHandler
   Dim oHttp As Object
   Dim s$, h$, FileName As String
   Dim v As Variant
   Set oHttp = CreateObject("WinHttp.WinHttpRequest.5.1")
   
   
   With oHttp
      .Open "GET",  sQuery, False
      .SetRequestHeader "User-Agent", "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.137 YaBrowser/17.4.1.955 Yowser/2.5 Safari/537.36"
      .SetRequestHeader "Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
      .SetRequestHeader "Accept-Language", "uk,ru;q=0.8,en;q=0.6"
      .SetRequestHeader "Connection", "keep-alive"
      
      .Send ("")
      
   End With
   
   If oHttp.Status = 200 Then
      sResponse = oHttp.responseText
      Runhttp = True
   Else
      sResponse = oHttp.Status
      Runhttp = False
   End If
   
   
ErrorExit:
   Set oHttp = Nothing
   On Error GoTo 0: Exit Function
ErrorHandler:
   If Err.Number = -2147012889 Then    ' Ошибка нет соединения
   End If
End Function

в результате в sResponse имеем полностью html запрошенной страницы
Далее проводим разбор. Я бы порекомендовал код отсюда Работа с HTML

Ну и дальше пишите себе ссылки или что вы там распарсите прямо в лист Excel

Это возможно будет медленнее чем на php, но Вы сказали, что такая задача бывает не часто. А значит запустил и пошел обедать. Можно сначала насобирать ссылок со страниц, а вторым этапом уже вытаскивать данные по ссылкам (алгоритм такой-же).

Есть одно предостережение, если ОС Windows XP и ниже, то не все https читаются. Http читается легко, https - только версии 1.1 . Это проблема ОС.

С Ув. Анатолий

Как наиболее просто собрать кучу ссылок с сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт