Ответы пользователя Владимир Куц по тегу «Регулярные выражения»

Возможно ли из html файлов сделать такие txt файлы?

Владимир Куц @fox_12

Расставляю биты, управляю заряженными частицами

import lxml.html

data = '''<HTML>
<TiTLE>Книга пророка Авдия</TiTLE>
...
</BODY>
</HTML>
'''

html = lxml.html.fromstring(data)
print(html.xpath('//title')[0].text)
for line in html.xpath('//p'):
    print(line.text)

Книга пророка Авдия



1 Видение Авдия. Так говорит Господь Бог об Едоме: весть услышали мы от Господа, и посол послан 
2 Вот, Я сделал тебя малым между народами, и ты в большом презрении.

3 Гордость сердца твоего обольстила тебя; ты живешь в расселинах скал, на возвышенном месте, и говоришь в сердце твоем: "кто низринет меня на землю?"

4 Но хотя бы ты, как орел, поднялся высоко и среди звезд устроил гнездо твое, то и оттуда Я низрину тебя, говорит Господь.

5 Не воры ли приходили к тебе? не ночные ли грабители, что ты так разорен? Но они украли бы столько, сколько надобно им. Если бы проникли к тебе обиратели винограда, то и они разве не оставили бы несколько ягод?

6 Как обобрано все у Исава и обысканы тайники его!

7 До границы выпроводят тебя все союзники твои, обманут тебя, одолеют тебя живущие с тобою в мире, ядущие хлеб твой нанесут тебе удар. Нет в нем смысла!

...

Ответ написан более года назад

15 комментариев

Как убрать буквы из значений в столбце?

Владимир Куц @fox_12 Куратор тега Python

Расставляю биты, управляю заряженными частицами

надо в ячейках оставить только цифры и точку. Как это сделать?

В такой постановке задачи регулярки не нужны:

text = 'tt^%9v764.56vcgA_dh42nbcg3'
''.join(filter(lambda x:x.isdigit() or x=='.', text))
# '9764.56423'

Ответ написан более двух лет назад

Комментировать

Какое регулярное выражение надо использовать?

Владимир Куц @fox_12 Куратор тега Python

Расставляю биты, управляю заряженными частицами

знаю только его айпи, в данном случае 1.1.1.1

Вариант без регулярки:

data = '''
Сервер: test3.com
Address: 3.3.3.3

Сервер: test.test2.com
Address: 2.2.2.2

Имя: test2.test.ru
Address: 1.1.1.1
'''
parsed = [x.split(':') for x in filter(lambda x:any([
    x.startswith('Сервер:'),
    x.startswith('Имя:'),
    x.startswith('Address:')
]), data.split('\n'))]
servers =  dict([(x[1][1].strip(), x[0][1].strip()) for x in zip(parsed[::2], parsed[1::2])])
servers['1.1.1.1']
# 'test2.test.ru'

Ответ написан более двух лет назад

Комментировать

Можно ли сделать такое регулярное выражение?

Владимир Куц @fox_12

Расставляю биты, управляю заряженными частицами

Это не с помощью регулярок делается, и уж тег "распознавание образов" - вообще не при чем

Задача просто решается даже в командной строке (регулярка используется только для того чтобы исключить одиночные вхождения):

cat data.txt | awk '{ print $1; }' | sort | uniq -c | grep -v  -E "^\s+1\s+"

результат:

3 +375291045612
2 +375299990999

если число вхождений не требуется - то:

cat 1.txt | awk '{ print $1; }' | sort | uniq -c | grep -v  -E "^\s+1\s+" |  awk '{ print $2; }'

где data.txt - файл с вашими данными

Войдите на сайт