xne71247
@xne71247

Какое регулярное выражение искользовать для поиска блока русского текста?

Имеется HTML страница, нужно из нее вытащить блок русского текста. Блок текста на русском всего один. Посоветуйте регулярное выражение или как лучше это сделать?
  • Вопрос задан
  • 542 просмотра
Пригласить эксперта
Ответы на вопрос 4
SagePtr
@SagePtr
Еда - это святое
Смотря что понимается под блоком. Если внутри него нет никаких тэгов, то можно как-то так вырезать:
>([^<]*[А-Яа-я][^<]*)<
В итоге попадёт всё, что между >< и содержит минимум одну русскую букву. Это навскидку, так-то обязательно убедитесь, чтобы регулярник работал именно с той же кодировкой.
Ответ написан
Комментировать
programmerjava
@programmerjava
юзай jsoup .
Jsoup.parse(htmlText).select(":matches(REGEX)").first().text();

за REGEX задай регулярное выражение, включающее русские символы, знаки препинания.
Ответ написан
Комментировать
@ShamblerR
вы бы хоть дали приммер страницы
Ответ написан
Комментировать
@asd111
Проверь на этом сайте
https://regex101.com/
([А-Яа-я]+)

text text текст text Текст теКСТ
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы