Как парсить HTML строку?

Question

Антон @hummingbird

Как парсить HTML строку?

Есть такой HTML код:

<span class="title">Название:</span> Rising Water - James Vincent McMorrow<!-- После слитно еще несколько span -->

Пытаюсь ее парсануть:

puts /<span class="title">Название:<\/span>(.*)-(.*)/.match(line)

Но не выходит. Получаю название и последующие за ним span'ы.

Помогите, пожалуйста.

Вопрос задан более трёх лет назад
373 просмотра

11 комментариев

Подписаться 1 Оценить 11 комментариев

Crash @Bandicoot

не пробовали специальные гемы использовать, например Nokogiri?

Написано более трёх лет назад
Антон @hummingbird Автор вопроса

Crash: и как с помощью Nokogiri получить название? Название ведь ни во что не обернуто.

Написано более трёх лет назад

OVK2015 @OVK2015

var testStr = '<span class="title">Название:</span> Rising Water - James Vincent McMorrow<span>'
testStr.match(/<\/span>(.*?)<span/i)

Написано более трёх лет назад

Антон @hummingbird Автор вопроса

OVK2015: неа, не вышло:
puts /<\/span>(.*?)<span/i.match(line)

Написано более трёх лет назад
OVK2015 @OVK2015

Антон: Это для js. С синтаксисом руби не знаком. Хотя не думаю, что сама регулярка как-то отличается.
У меня 1-ая группа из этой строки "Rising Water - James Vincent McMorrow". Уберите из регулярки "i"(/<\/span>(.*?)

Написано более трёх лет назад
Антон @hummingbird Автор вопроса

OVK2015: тут дело вот в чем:
puts /<\/span>(.*?)<span/i.match(line)[1]
Выводит:


А это:
puts /<\/span>(.*?)<span/i.match(line)[2]
Выводит пустоту.

Написано более трёх лет назад
Антон @hummingbird Автор вопроса

OVK2015: с "i" или без "i" - одинаковая ситуация.

Написано более трёх лет назад
Антон @hummingbird Автор вопроса

OVK2015: без указания индекса выводит:
<span

Написано более трёх лет назад
OVK2015 @OVK2015

Антон:
Как сама исходная строка полностью выглядит?
Мой код легко проверить,- в той же консоле браузера.

Написано более трёх лет назад
Антон @hummingbird Автор вопроса

OVK2015: исходный код, это куча похожих строк (как в примере), только у них меняется класс в span, текст в span, и само название песни меняется на описание, год и прочее подобное.

Написано более трёх лет назад
OVK2015 @OVK2015

Антон: Попробуйте ключ "s" добавить
/<\/span>(.*?)<span/is
Видать он по умолчанию точку точкой считает, а не любым символом

Написано более трёх лет назад

Решения вопроса 1

4 комментария

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Регулярные выражения

Средний
Как выделить в группу повторяющееся выражение?
- 1 подписчик
- 17 апр.
- 134 просмотра
1

ответ
PHP

+1 ещё

Простой
Регулярное выражение поиск по группам или нет?
- 1 подписчик
- 15 апр.
- 208 просмотров
1

ответ
Python

+1 ещё

Простой
Как составить регулярку для выборки данных между символов?
- 1 подписчик
- 13 апр.
- 83 просмотра
1

ответ
PHP

+1 ещё

Простой
Как вытащить строку из текста?
- 1 подписчик
- 24 мар.
- 202 просмотра
2

ответа
Python

+2 ещё

Простой
Какова верная реализация множественного выбора в SQLite через LIKE и REGEXP (Python)?
- 1 подписчик
- 14 мар.
- 111 просмотров
2

ответа
Регулярные выражения

Простой
Как проверить отсутствие атрибута alt у тега img ругуляркой на php?
- 1 подписчик
- 11 мар.
- 63 просмотра
1

ответ
JavaScript

+1 ещё

Простой
Как заменить всё между строк?
- 1 подписчик
- 08 мар.
- 128 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Как сформировать регулярное выражение из 5 символов для вывода?
- 1 подписчик
- 07 мар.
- 152 просмотра
2

ответа
Nginx

+1 ещё

Простой
Как захватить все запросы с trailing slash на конце?
- 1 подписчик
- 26 февр.
- 70 просмотров
2

ответа
JavaScript

+1 ещё

Простой
Как разбить многостроковый текст на массив с помощью регулярного выражения?
- 1 подписчик
- 26 февр.
- 105 просмотров
2

ответа
Показать ещё Загружается…

Fullstack тестировщик (QA / Automation QA / SDET)

ЮMoney • Санкт-Петербург

от 150 000 до 350 000 ₽

Senior коммуникационный дизайнер

Точка • Москва

от 170 000 ₽

DevOps-инженер (стажер)

Renue

До 40 000 ₽

Настроить перехват https-трафика для android-приложения

25 апр. 2024, в 01:02

7000 руб./за проект

Программа (скрипт) для автоматизации торговли Solana

25 апр. 2024, в 00:45

100 руб./в час

Телеграм-Бот для выдачи конфигов VPN (VLESS/Reality)

25 апр. 2024, в 00:32

10000 руб./за проект

не пробовали специальные гемы использовать, например Nokogiri?
Crash: и как с помощью Nokogiri получить название? Название ведь ни во что не обернуто.
var testStr = 'Название: Rising Water - James Vincent McMorrow' testStr.match(/<\/span>(.*?)<span/i)
OVK2015: неа, не вышло:
puts /<\/span>(.*?)<span/i.match(line)
Антон: Это для js. С синтаксисом руби не знаком. Хотя не думаю, что сама регулярка как-то отличается.
У меня 1-ая группа из этой строки "Rising Water - James Vincent McMorrow". Уберите из регулярки "i"(/<\/span>(.*?)
OVK2015: тут дело вот в чем:
puts /<\/span>(.*?)<span/i.match(line)[1]
Выводит:


А это:
puts /<\/span>(.*?)<span/i.match(line)[2]
Выводит пустоту.
OVK2015: с "i" или без "i" - одинаковая ситуация.
OVK2015: без указания индекса выводит:
<span
Антон:
Как сама исходная строка полностью выглядит?
Мой код легко проверить,- в той же консоле браузера.
OVK2015: исходный код, это куча похожих строк (как в примере), только у них меняется класс в span, текст в span, и само название песни меняется на описание, год и прочее подобное.
Антон: Попробуйте ключ "s" добавить
/<\/span>(.*?)<span/is
Видать он по умолчанию точку точкой считает, а не любым символом

Answer 1 · 2016-08-19 16:08:47

Парсить регуляркой не стоит, выше упомянутое вполне подойдет, еще рубисты часто используют библиотеку nokogiri для парсинга сайтов.
Она вполне удобна, например тем, что можно добираться до элементов по ccs селекторам.
https://habrahabr.ru/post/52680/
Пример:

doc = Nokogiri::HTML('<body><span class="title">Название:</span> Rising Water - James Vincent McMorrow<span></span><body>')

name = doc.xpath('//span/following-sibling::text()[1]').text

p name # => " Rising Water - James Vincent McMorrow"

Answer 2 · 2016-08-19 15:42:30

HTML НЕ ПАРСЯТ РЕГУЛЯРКАМИ. REGEXP - ИНСТРУМЕНТ НЕДОСТАТОЧНО СЛОЖНЫЙ ДЛЯ ПАРСИНГА HTML.
d͓̀o̰̭̳̭̠̠͢n̠̞̠͉ț̱̤̝ ̣̣̼̫̥̯e̷̥̝v̦e̵̻n̰͕͟ ̵̗̻̪̯t̗̪̯̬͕̺́r͉̰̮̣̬͖y̶͕͍ ̝̩̟̬̟ţ̮o̶̰̭ ̵̣̥̬̯̜̟͓p̴͎̼̜a̝̖̦̫͈̱͖r̝͇̖̟͖̬s̭̭̯͉͎̙͘e҉̠̺̻̻̝ͅ ̣̺̤̱̣i͈̲̭̤͍̼͘t̞͉̺̲̘͚ ̺̞̰̳͔̭o̠̗͙̖̬͇u͠ț͉̘̦̝̪

Как парсить HTML строку?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт