Как найти html тэги в txt файле?

Question

Артем @Malodar

Начинающий питонист

Как найти html тэги в txt файле?

Добрый день! Помогите с такой проблемой. Есть txt файл, в котором есть как простой текст, так и несколько таблиц в виде <table> ... </table>. В качестве примера:

"
ACCESSION NUMBER:		0000796343-18-000015
CONFORMED SUBMISSION TYPE:	10-K
PUBLIC DOCUMENT COUNT:		109
CONFORMED PERIOD OF REPORT:	20171201
FILED AS OF DATE:		20180122
DATE AS OF CHANGE:		20180122

<table id=1>
    <tr>
        <td>Some Text</td>
    </tr>
</table>

<table id=2>
    <tr>
        <td>Some Text</td>
    </tr>
</table>
"

Как мне извлечь эти таблицы из текста (т.е. сами тэги table с содержимым)? Полагаю, что с помощью regexp и re.findall, но не могу составить правильное выражение... Помогите, пожалуйста.

Вопрос задан более трёх лет назад
211 просмотров

4 комментария

Подписаться 2 Простой 4 комментария

Артем @Malodar Автор вопроса
Нашел-таки решение:
f = open('temp.txt', 'r').read() tables = re.findall(r'<table .*</table>', f)
Написано более трёх лет назад
DDDsa @DDDsa

Артем, это сработает только если между <table и </table> нет переносов строк

Написано более трёх лет назад
Артем @Malodar Автор вопроса

DDDsa,
а если есть - как поступить?

Написано более трёх лет назад
DDDsa @DDDsa

Артем, как раз ответ пишу )

Написано более трёх лет назад

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 10 часов назад
- 85 просмотров
2

ответа
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- 14 часов назад
- 83 просмотра
3

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- 16 часов назад
- 116 просмотров
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 1 подписчик
- 16 часов назад
- 18 просмотров
0

ответов
Python

+2 ещё

Простой
Почему Планировщик задач Windows 10 не выполняет скрипт Python?
- 2 подписчика
- 22 часа назад
- 590 просмотров
2

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- вчера
- 84 просмотра
0

ответов
Python

+2 ещё

Простой
OK.RU, API приложений, не могу загрузить видео: User must grant an access to permission 'VIDEO_CONTENT'". Как получить этиправа для приложения?
- 1 подписчик
- вчера
- 50 просмотров
1

ответ
Python

+1 ещё

Средний
Сервер C# не принимает сообщения от клиента. Почему так?
- 1 подписчик
- 21 апр.
- 112 просмотров
0

ответов
Python

Простой
Что я делаю не так Python?
- 1 подписчик
- 21 апр.
- 164 просмотра
3

ответа
Python

+1 ещё

Простой
Как запустить два параллельных процесса бота: бесконечную функцию, проверяющую имеются ли обновления, и обработчики событий и сообщений?
- 1 подписчик
- 20 апр.
- 130 просмотров
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

SMM для HR

23 апр. 2024, в 08:58

15000 руб./за проект

[python] протестировать function calling у gpt-4 и у claude 3 opus

23 апр. 2024, в 08:50

200 руб./за проект

Разработка кроссплатформенного приложения

23 апр. 2024, в 08:42

60 руб./за проект

Нашел-таки решение:
f = open('temp.txt', 'r').read() tables = re.findall(r'<table .*</table>', f)
Артем, это сработает только если между <table и </table> нет переносов строк

Answer 1 · 2018-05-22 11:55:18

Если любой тег, то вот так:
r'<(\w+)([\s\S]+?)<\/\1>'
При этом вернётся два значения, тег и его содержимое:

>>> tables = re.findall(r'<(\w+)([\s\S]+?)<\/\1>', s)
>>> tables
[('table', ' id=1>\n    <tr>\n        <td>Some Text</td>\n    </tr>\n'), ('table', ' id=2>\n    <tr>\n        <td>Some Text</td>\n    </tr>\n')]

Если нужно вытаскивать только тег table (или других точно не будет), тогда вот так:
r'<table([\s\S]+?)<\/table>'

Пример:

>>> tables = re.findall(r'<table([\s\S]+?)<\/table>', s)
>>> tables
[' id=1>\n    <tr>\n        <td>Some Text</td>\n    </tr>\n', ' id=2>\n    <tr>\n        <td>Some Text</td>\n    </tr>\n']

Answer 2 · 2018-05-20 23:57:21

Александр Таратин @Taraflex

Ищу работу. Контакты в профиле.

Оберните весь текст в <body>
Дальше https://stackoverflow.com/questions/3051295/jquery...

Ответ написан более трёх лет назад

Комментировать

Как найти html тэги в txt файле?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт