Как правильно найти подстроку в строке?

Question

henrick @henrick

Python

Как правильно найти подстроку в строке?

Очень слабоват в Питоне, и не могу разобраться - почему код не работает ?
Суть такова - скачивается html-страничка, сохраняется на жесткий диск как текстовый файл, и потом уже в нем происходит поиск подстроки. Вся завтыка в том, что несмотря на то, что это слово есть в тексте, оно не находится.

Сначала я сделал так (ищется словосочетание Remote Temperature):

import urllib.request 
urlibp = 'qqq.www.eee.rrr/index.htm'   здесь указан ip-адрес - для вопроса он не важен
		
def get_data(url):
	remtemp = 0
	urllib.request.urlretrieve(url, filename = 'ibp.txt')   # 
	infile = open('ibp.txt', 'r') 
	lines = infile.readlines()
	for i in range(len(lines)): 
		line = lines[i]
		if 'Remote Temperature' in line:
			without_space = line[i+1].strip()
			remtemp = float(without_space[21:-27])     
		else:
			break
		infile.close()
	print (("Remote Temperature: ") + str(remtemp))
	
get_data(urlibp)

При запуске текстовый файл создается, но функция возвращает Remote Temperature: 0 - значение не поменялось.

Тогда решил попробовать метод find(), подправил код, чтобы найти индекс слова Remote:

import urllib.request 
urlibp = 'qqq.www.eee.rrr/index.htm'
urllib.request.urlretrieve(urlibp, filename = 'ibp.txt')   
infile = open('ibp.txt', 'r')  
lines = infile.readlines()
str1 = ' '.join(lines)
ind = str1.find('Remote')
print (str(ind))

В этом случае возвращается значение "-1", т. е. find не нашел "Remote". После этого меня и посетила мысль - правильно ли я действую ? Подскажите пожалуйста - где ошибка ?

ОС - Windows 7, Python 3.2

Вопрос задан более трёх лет назад
553 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- 2 часа назад
- 37 просмотров
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- 5 часов назад
- 43 просмотра
0

ответов
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- 7 часов назад
- 54 просмотра
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- 11 часов назад
- 85 просмотров
2

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- 14 часов назад
- 59 просмотров
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- 16 часов назад
- 46 просмотров
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- 23 часа назад
- 65 просмотров
2

ответа
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- вчера
- 167 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- вчера
- 30 просмотров
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- вчера
- 39 просмотров
0

ответов
Показать ещё Загружается…

Python developer

Bell Integrator

До 350 000 ₽

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

TeamLead Python

AGIMA • Москва

До 350 000 ₽

Повысить оригинальность работы с 14% до 70%

25 апр. 2024, в 23:14

1600 руб./за проект

Доработать приложение - интегрировать виджет TODOs

25 апр. 2024, в 22:44

5000 руб./за проект

Доделать проект - расширение для Whatsapp (Chrome)

25 апр. 2024, в 22:33

15000 руб./за проект

Answer 1 · 2015-04-26 20:15:35

Зачем сохранять в файл и потом с него читать? Вот простой пример с регуляркой:

import urllib, re

html = urllib.urlopen('http://www.mail.ru/').read()
pattern = '<span class="weather__temperature">([-+\d]+)</span>',
temperature = re.search(pattern, html).group(1)

print temperature

Answer 2 · 2015-04-26 19:12:24

1) Парсить HTML нужно, как верно заметил Yuri Shikanov, BeautifulSoup'ом
2)

for i in range(len(lines)):
    line = lines[i]

- это не по-пайтоновски.
Разберись с итераторами и генераторами и замени на:

for line in lines:
    # line уже определена

3) Ошибка кроется, возможно, в том, что ты пытаешься найти строку в байтах. Опять же, используй BeautifulSoup.

Answer 3 · 2015-04-27 11:34:24

Проверьте входные данные, а именно - что конкретно содержит переменная line.
Проблема может быть в том, что сервер отдает этот файл в сжатом с помощью gzip виде.
Если так, то urlretrieve не распаковывает gzip самостоятельно и Вам придется это делать вручную.
Ну и возможно что-то с кодировкой.

И для парсинга HTML я бы посоветовал lxml, а не BeautifulSoup, т.к. конкретно с Вашей задачей прекрасно можно справиться используя XPath, который в BeautifulSoup не поддерживается.

С XPath Ваша задача решается в несколько строк (XPath примерный, поэтому подгоните его под свой вариант):

import lxml.html

urlibp = 'qqq.www.eee.rrr/index.htm'

doc = lxml.html.parse(urlibp)
print doc.find("//td/b[.='Remote Temperature']/../following-sibling::td[1]/table/tr[1]/td[1]/b").text

Answer 4 · 2015-05-01 13:14:31

Александр @Survtur

Может проблема с кодировкой? Проверьте, что выводит
print(str1)

Ответ написан более трёх лет назад

Комментировать

Как правильно найти подстроку в строке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт