Как спарсить динамический контент?

Question

qbr-code @qbr-code

Как спарсить динамический контент?

Добрый день!

Пишу на NodeJs веб скраппер для страницы https://zachtronics.bandcamp.com/album/shenzhen-i-...
Из подключенных модулей использую request и cheerio.
Моя задача получить ссылку, которая находится в одном из нескольких тегов скрипт (так выглядит сама ссылка: https://t4.bcbits.com/stream/b60bed46407ad20cf804c...
Проблема:
request вовзращает только html, а мне нужно то, что лежит в теге скрипт, то есть динамический контент. Я так понимаю, что единственным выходом будет использование webdriver, puppeteer, или headless chrome? Но это ресурсоемко, запускать целый браузер, чтобы только добраться до тега скрипт и взять оттуда ссылку. Нет других способов?

Вопрос задан более трёх лет назад
473 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

4 комментария

qbr-code @qbr-code Автор вопроса

Спасибо, я думал что без скриптов данные приходят, оказалось с ними

Написано более трёх лет назад
qbr-code @qbr-code Автор вопроса

Только одно не совсем понятно, зачем здесь используется JSON.parse? Если написать просто const foo = body.match(/trackinfo:.*(\[.*?\])/)[1];
то тоже можно получить эту ссылку

Написано более трёх лет назад
DanKud @DanKud

body.match(/trackinfo:.*(\[.*?\])/)[1] мы парсим JSON-строку из полученного контента. Соответственно затем с помощью JSON.parse преобразовываем этот JSON в объект и получаем нужную нам ссылку. А как вы получите саму ссылку просто получив JSON-строку? :)

Написано более трёх лет назад
qbr-code @qbr-code Автор вопроса

DanKud, понял)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+2 ещё

Средний
Проблемы с telegram bot, а именно с сообщениями, как исправить?
- 1 подписчик
- вчера
- 63 просмотра
1

ответ
Node.js

+1 ещё

Простой
Error during build: RollupError: Could not resolve. Как исправить ошибку?
- 1 подписчик
- 15 апр.
- 33 просмотра
1

ответ
JavaScript

+4 ещё

Простой
Что делать, если после залива приложения на VPS страница остается недоступной?
- 1 подписчик
- 15 апр.
- 82 просмотра
1

ответ
JavaScript

+2 ещё

Простой
Как на стороне сервера узнать что клиент закрыл браузер?
- 1 подписчик
- 13 апр.
- 167 просмотров
2

ответа
Node.js

Простой
Почему coverage в vitest не видит нужную версию node и падает?
- 1 подписчик
- 13 апр.
- 42 просмотра
0

ответов
Node.js

+1 ещё

Средний
Как подключиться к trust wallet при помощи node js?
- 1 подписчик
- 11 апр.
- 55 просмотров
1

ответ
Node.js

+1 ещё

Простой
Как загрузить в бакет Yandex Cloud файл, используя axios nodejs?
- 1 подписчик
- 11 апр.
- 35 просмотров
1

ответ
Node.js

+1 ещё

Простой
Почему prisma не делает миграцию?
- 1 подписчик
- 05 апр.
- 91 просмотр
0

ответов
JavaScript

+3 ещё

Средний
Обработчик события в меню выбора дискорд бота, как получить фидбэк?
- 1 подписчик
- 04 апр.
- 48 просмотров
0

ответов
Node.js

+1 ещё

Простой
Как сформировать запрос для фильтра на sql?
- 1 подписчик
- 02 апр.
- 137 просмотров
0

ответов
Показать ещё Загружается…

Node.js разработчик

ДАЛЕЕ • Москва

от 200 000 ₽

Senior Backend Developer Node.js

Radium Finance • Москва

от 300 000 до 400 000 ₽

Node.js Developer (middle)

ROBOTMIA • Новосибирск

от 130 000 ₽

Скрипт по работе с API и записи в MySQL данных (задача на сегодня)

18 апр. 2024, в 12:20

4000 руб./за проект

Настроить корпоративные ящики

18 апр. 2024, в 12:04

2000 руб./за проект

Сверстать сайт на Nextjs или Reactjs

18 апр. 2024, в 12:01

15000 руб./за проект

Answer 1 · 2019-06-17 20:34:32

Ничего там динамически не подключается. Весь контент страницы, в том числе нужные вам скрипты, вы получаете сразу же при загрузке. cheerio вам тут не нужен даже, да и не поможет.

Вот пример как можно получить нужное вам значение:

request('https://zachtronics.bandcamp.com/album/shenzhen-i-o-ost', (error, response, body) => {
	const json = JSON.parse(body.match(/trackinfo:.*(\[.*?\])/)[1]);
	const mp3 = json[0]['file']['mp3-128'];
	console.log(mp3);
});

Answer 2 · 2019-06-17 20:10:14

а request точно не вернет весь html файл страницы со скриптами?

если я правильно понимаю, то интересует массив trackinfo: [...] из главной страницы, может выйдет его без cheerio выцепить регулярным выражением из request.get('bandcamp.com/...'), ну и потом просто распарсить как обычную строку через JSON.parse

UPD
ну и кстати получается, ща регулярку доковыряю и тоже напишу свой граббер бандкампа

request('https://zachtronics.bandcamp.com/album/shenzhen-i-o-ost', function (error, response, body) {
  res.send(body.match(/(?<=trackinfo:)(.*)(?=,)/gi))
  // кривая регулярка, выцепляет не всё что надо
});

Как спарсить динамический контент?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт