Как воспользоваться методом re.split?

Question

Timebird @Timebird

Как воспользоваться методом re.split?

Допустим, я хочу выделить из текста наиболее частовстречающиеся слова, разделяю текст по символам с помощью re.split:
words = re.split("[ \n.,?!:;']", corpus)
А я хочу еще добавить символ ", но если добавлю - то произойдет синтаксически преждевременное закрытие кавычек. Как его добавить?
Еще мелкий вопрос: а куда копать, чтоб разделение шло по всем символам, кроме заглавных-строчных букв? Помню, что вроде синтаксис вроде: re.split("[^[a-z][A-Z]"), как эта конструкция называется?

Вопрос задан более трёх лет назад
182 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- час назад
- 20 просмотров
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- 8 часов назад
- 31 просмотр
2

ответа
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- 17 часов назад
- 134 просмотра
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- 17 часов назад
- 22 просмотра
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 19 часов назад
- 33 просмотра
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 133 просмотра
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 93 просмотра
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 22 апр.
- 202 просмотра
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- 22 апр.
- 150 просмотров
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- 22 апр.
- 172 просмотра
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Разработать HLTV HUD для стрима CS 1.6

25 апр. 2024, в 08:02

2500 руб./за проект

Вычислить размер объекта по карте глубин

25 апр. 2024, в 07:37

5000 руб./за проект

Спарсить TON PLACE: скрейпинг фото и текста с анкет по списку URL

25 апр. 2024, в 05:57

3000 руб./за проект

Answer 1 · 2017-12-30 16:20:12

tema_sun @tema_sun

Экранируйте re.split("[ \n.,?!:;'\"]", corpus)

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2017-12-30 16:23:09

Во-первых, вы можете экранировать символ двойных кавычек так же, как экранируете символ перевода строки - "[ \n.,?!:;'\"]". Во-вторых, можно проще и быстрее сделать:

from collections import defaultdict, Counter
import string

punctuation_map = dict((ord(char), None) for char in string.punctuation)
prepositions = ['и', 'в', 'без', 'до', 'из', 'к', 'на', 'по', 'о', 'от', 'перед', 'при', 'через', 'с', 'у', 'за', 'над', 'об', 'под', 'про', 'для']

with open('WarAndPeace.txt', encoding='utf-8') as fh:
    text = fh.read()
    clean_data = text.translate(punctuation_map)
    words = Counter(word.strip().lower() for word in clean_data.split() if word not in prepositions)

print(words.most_common(1))

Как воспользоваться методом re.split?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт