@kennnies

Как спарсить таблицу регулярками python?

Есть следующая таблица:
Таблица HTML
<tr>
					<td>99</td>
					<td>Name</td>
					<td>ЕГЭ</td>
					<td>268</td><td>90</td><td>91</td><td>87</td>
					<td></td>
					<td>Копия</td>
					<td>Нет</td>
				</tr>

Использую следующую регулярку для парса чисел:
re.findall(r'\d{3,3}\d{1,3}\d{1,3}\d{1,3}
Нужно еще спарсить поле "Копия", переход на новую строку не позволяет этого, пробовал через
\s \n \t \r и \s
Не особо получилось, как это можно реализовать?
  • Вопрос задан
  • 337 просмотров
Пригласить эксперта
Ответы на вопрос 2
fox_12
@fox_12 Куратор тега Python
Расставляю биты, управляю заряженными частицами
Ну как бы регулярки для такого далеко не самый подходящий инструмент
>>> import lxml.html
>>> str1 = """
... <tr>
...           <td>99</td>
...           <td>Name</td>
...           <td>ЕГЭ</td>
...           <td>268</td><td>90</td><td>91</td><td>87</td>
...           <td></td>
...           <td>Копия</td>
...           <td>Нет</td>
...         </tr>"""
>>> root = lxml.html.fromstring(str1)
>>> [x.text for x in root.xpath('.//td')]
['99', 'Name', 'ЕГЭ', '268', '90', '91', '87', None, 'Копия', 'Нет']
Ответ написан
Комментировать
dimonchik2013
@dimonchik2013
non progredi est regredi
pytablereader
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы