Проблема с кодировкой при парсинге русского сайта?

Question

Fantinum @Fantinum

Проблема с кодировкой при парсинге русского сайта?

Возникает проблема с кодировкой при парсинге сайта https://beton24.ru/sochi/beton/

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('https://beton24.ru/sochi/beton/')
bs = BeautifulSoup(html.read())
result = bs.findAll("span", "catalog-index__link-text")[1]
parse = str(result)

Чтобы вытащить цену бетона, конвертирую result в str, и он превращается в 'от\xa03\u2009836\xa0₽'
Кто сталкивался, как решить? Спасибо!

Вопрос задан более трёх лет назад
5456 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium(python)?
- 1 подписчик
- 3 часа назад
- 18 просмотров
1

ответ
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- 12 часов назад
- 119 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- 13 часов назад
- 21 просмотр
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 14 часов назад
- 22 просмотра
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 121 просмотр
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 91 просмотр
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 22 апр.
- 202 просмотра
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- 22 апр.
- 150 просмотров
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- 22 апр.
- 171 просмотр
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 2 подписчика
- 22 апр.
- 33 просмотра
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Приложение или модуль для Wordpress для учета поездок по QR

25 апр. 2024, в 03:58

10000 руб./за проект

Ошибка в 1с при выгрузке товаров на сайт на Битриксе

25 апр. 2024, в 03:08

3000 руб./за проект

Создание и публикация короткого (reels) UGC-видео на YouTube-канале

25 апр. 2024, в 01:46

500 руб./за проект

Answer 1 · 2018-08-14 22:07:26

Смотрим HTML через, например, Chrome DevTools:

Читаем в документации к BeautifulSoup 4 (раздел "Entities" ):

An incoming HTML or XML entity is always converted into the corresponding Unicode character.

>>> from urllib.request import urlopen
>>> from bs4 import BeautifulSoup
>>> html = urlopen('https://beton24.ru/sochi/beton/')
>>> bs = BeautifulSoup(html.read(), 'lxml')
>>> result = bs.findAll("span", "catalog-index__link-text")[1]
>>> result.text.replace(u'\xa0',' ').replace(u'\u2009', '')
'от 3836 ₽'

Проблема с кодировкой при парсинге русского сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт