С помощью чего можно вытащить из сотни html документов содержимое определенных тегов и поместить в один текстовый документ?

Question

darzet @darzet

С помощью чего можно вытащить из сотни html документов содержимое определенных тегов и поместить в один текстовый документ?

Доброго, Хабражители.
Прошу совета у знающих людей.
У меня следующая проблема.
Есть сотенка однотипных html документов.
Мне надо вытащить из них все содержимое тега
Говоря языком XPAth html/body/text()
и поместить в один текстовый файлик.
Затем в этом файлике сделать десяток автозамен, чтобы
привести форматирование к нужному виду.
к примеру s/<вr>/<вr>\n/

Советуют разное. Изучать Perl или php.
Учить shell.
Подскажите какими средствами подобное делать лучше всего.
Просто не хочется забивать гвозди микроскопом.

Вопрос задан более трёх лет назад
3683 просмотра

2 комментария

Подписаться 5 Оценить 2 комментария

Пригласить эксперта

Ответы на вопрос 13

Комментировать

5 комментариев

Комментировать

3 комментария

5 комментариев

darzet @darzet Автор вопроса

Да да именно regexpы здесь и нужны. Жаль я perl не особо знаю. Вот если бы был мануальчик по такой же проблемке было бы здорово. Насколько я знаю перл и предназначен для капитальной работы с текстами.

Написано более трёх лет назад
leron @leron

Регулярные выражения не предназначены для разбора html. Для этого существует дофигища разнобразных парсеров.

Ещё раз: html нельзя парсить регулярками.

Написано более трёх лет назад
antivir @antivir

Не надо так категорично. Все эти парсеры сделаны на регулярках :)
Парсеры или регулярки — решать нужно в каждом конкретном случае.

Написано более трёх лет назад
gribozavr @gribozavr

Нормальные парсеры основаны на автоматах с памятью, а не на регулярках.

Написано более трёх лет назад
antivir @antivir

Уважаемый, по-вашему начальный разбор текста происходит… по мановению свыше? :)))))

Написано более трёх лет назад

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+2 ещё

Средний
Как отсортировать в ХТМЛ по дате рождения от младшего к старшему, а так же, нумерацию их 1,2,3,4. Чтобы можно было потом добавить еще людей?
- 1 подписчик
- 48 минут назад
- 16 просмотров
1

ответ
Linux

+4 ещё

Простой
Как исправить ошибку при установке pam_sqlite?
- 1 подписчик
- час назад
- 2 просмотра
0

ответов
Windows

+2 ещё

Простой
Как открывать новые окна терминала и проводника на вкладках а не в новых окнах?
- 1 подписчик
- 3 часа назад
- 22 просмотра
1

ответ
HTML

+1 ещё

Простой
При загрузке картинки этот блок не имеет размера, как исправить?
- 1 подписчик
- 4 часа назад
- 36 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Пустая страница, ошибок нет. JS. В чем проблема?
- 1 подписчик
- 5 часов назад
- 142 просмотра
1

ответ
HTML

+1 ещё

Простой
Как кодировать кириллицу в поле data?
- 1 подписчик
- 10 часов назад
- 39 просмотров
1

ответ
HTML

+1 ещё

Простой
Как в теге select один символ сделать другого цвета?
- 1 подписчик
- 16 часов назад
- 84 просмотра
1

ответ
HTML

+1 ещё

Простой
Как поставить элементы в одну строку и выровнять их?
- 1 подписчик
- вчера
- 79 просмотров
1

ответ
HTML

+1 ещё

Простой
Почему не работает pattern на input?
- 1 подписчик
- вчера
- 86 просмотров
2

ответа
HTML

+2 ещё

Простой
Как подкрасить 2 блока в разные цвета по всей ширине в дочернем Blade-шаблоне?
- 1 подписчик
- вчера
- 57 просмотров
2

ответа
Показать ещё Загружается…

Frontend-разработчик (React)

ДАЛЕЕ

от 130 000 ₽

Тестировщик-стажёр

ITooLabs • Тула

от 35 000 до 40 000 ₽

Fullstack PHP Developer

Smapse Education

от 40 000 до 65 000 ₽

Доработать клиентское приложение для GTA 5 на C#

20 апр. 2024, в 00:51

1000 руб./за проект

Верстка и логика формы выбора билетов в зале для покупки

20 апр. 2024, в 00:43

10000 руб./за проект

Разработать формирование УПД на Java

20 апр. 2024, в 00:28

20000 руб./за проект

все текстовое содержимое или вместе с разметкой нужно вытащить?
Вместе с разметкой вытаскиваю.
А затем делаю автозамены так чтобы получилось новое нужное мне форматирование.

Answer 1 · 2011-07-22 20:25:47

m08pvv @m08pvv

Зависит от сложности страничек — может можно и простым grep'ом обойтись.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2011-07-22 20:40:41

ComodoHacker @ComodoHacker

Примерчик бы.
Я в таких случаях использую awk или sed.

Ответ написан более трёх лет назад

5 комментариев

Answer 3 · 2011-07-23 06:51:22

Регэкспы, XML… не ибите мозги. BeautifulSoup решает это проблему на ура. Парсит любой, даже самый битый HTML.

Answer 4 · 2011-07-22 20:23:24

Rafael Osipov @Rafael

С помощью HTML-парсеров на java.

Вот, к примеру, пара из них:

HTMLParser
Jericho HTML Parser

Ответ написан более трёх лет назад

3 комментария

Answer 5 · 2011-07-22 21:34:58

Если без парсеров и страницы не очень сложные, то можно это реализовать на каком-нибудь языке, поддерживающим регулярные выражения. Это Perl, Python, PHP и прочие… Я лично люблю Perl… Правда пользуюсь больше PHP)))

Answer 6 · 2011-07-22 21:43:39

ComputerPers @ComputerPers

Мне кажется DOM дерево самое то. Проще всего его на джаве реализовать.

Ответ написан более трёх лет назад

Комментировать

Answer 7 · 2011-07-23 00:56:01

хм… lxml.de/lxmlhtml.html

from lxml import html
import os

with open("../results.txt", "w") as f:
    for fname in os.listdir('./'):
        tree=html.parse(fname)
        body_content=tree.xpath("//body")[0] 
        all_body_text=body_content.text_content() #только текст из всех descendant-or-self
        body_content_with_markup=body_content.tostring(body_content) #текст и разметка descendant-or-self
        result=some_processing("какой-либо из предыдущих результатов") # какие-то доп. замены и манипуляции
        f.write(result) # запихиваем все в один файл

Но если более конкретно скажете что нужно извлечь и какие трансформации нужно проделать — напишу более подробно. Может и на XSLT будет проще, если автозамены касаются в основном тегов.

Если на баше — то есть xmllint, который позволяет в том числе и xpath запросы выполнять
xmllint --html --xpath //body

Регулярки ни в коем случае не используйте ибо stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454

Answer 8 · 2011-07-23 10:51:50

Sed поучите или perl. По крайней мере не приобретете бесполезных знаний, которые будут не нужны после решения конкретно этой задачи.

Answer 9 · 2011-07-23 11:23:06

Setti @Setti

querypath

Ответ написан более трёх лет назад

Комментировать

Answer 10 · 2011-07-23 12:28:07

Зачем для такой задачи чего-то учить. Закажите на фрилансе, там вам накатают прогу за 10 баксов.

Answer 11 · 2011-07-23 16:11:13

Мне кажется, что базовым знанием для работы с массивами текста являются регулярные выражения (см. книги Дж.Фридла). А дальше идут инструменты, которые позволяют более или менее удобно работать с рекэкспами. Под Win мой герой — это мегакомбайн PowerGrep!

А если учить ничего не хочется, можно объединить все файлы в один «copy *.html alltext.txt» и далее мучить его в текстовых редакторах и сортировать в Excel.

Answer 12 · 2011-07-24 12:57:59

python s
scrapy.org

Там даже есть возможность посмотреть, как работают демон, через веб морду :)

Answer 13 · 2011-07-24 13:46:34

Ваша задача называется веб харвестинг.
Есть специальное, очень хорошее средство для этого: web-harvest.sourceforge.net/
На сайте есть примеры для решения типовых ( похожих на Вашу ) задач.

С помощью чего можно вытащить из сотни html документов содержимое определенных тегов и поместить в один текстовый документ?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт