Как очистить текст от шума по смыслу? Или разбить текст на смысловые блоки?

Question

Meshutko @Meshutko

Как очистить текст от шума по смыслу? Или разбить текст на смысловые блоки?

Добрый день!
Решал ли кто-то подобную задачу (на Python или вообще), можете поделиться опытом?

Есть массив текстов разговоров с клиентами по телефону. (Аудио, переведенное в текст. Для работы сейчас есть только текст).
Текст получился зашумлённым неинформативной частью.

То, что промаркировано, как речь клиента, на самом деле относится к одной из 3-х категорий:
1) Собственно речь клиента
2) Песня из мелодии при ожидании ответа абонента (Дима Билан, Григорий Лепс и другие исполнители)
3) Автоответчики ("абонент недоступен", "вне зоны действия сети" и т.д.)

Необходимо выделить собственно речь клиента.
Эти блоки в тексте могут меняться местами в произвольном порядке. Пробовал делать через составление словарей ключевых слов (характеристик типа текста) и подсчет их частоты, но получается трудоёмко и не очень точно. Если с автоответчиками, там хотя бы ограниченный набор ключевых слов, то как быть с песнями, вообще непонятно.

Подскажите пожалуйста, какие есть способы/алгоритмы очистки текста от шума или отделения части текста с другим смыслом, при том, что характеристики шума тоже формализованы не на 100%?

Вопрос задан более трёх лет назад
784 просмотра

Комментировать

Подписаться 5 Сложный Комментировать

Решения вопроса 2

2 комментария

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- 3 часа назад
- 24 просмотра
0

ответов
Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- 4 часа назад
- 41 просмотр
0

ответов
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- 5 часов назад
- 30 просмотров
1

ответ
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- 8 часов назад
- 249 просмотров
0

ответов
Python

+1 ещё

Простой
Как сохранять сессию во Flask?
- 1 подписчик
- 11 часов назад
- 33 просмотра
0

ответов
Python

+1 ещё

Простой
Как реализовать Python-код, который будет распознавать речь, но будет реагировать только тогда, когда будет упомянуто определенное слово?
- 1 подписчик
- 13 часов назад
- 76 просмотров
2

ответа
Python

Простой
Как создать offline карту на python?
- 1 подписчик
- вчера
- 133 просмотра
2

ответа
Python

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 2 подписчика
- вчера
- 218 просмотров
3

ответа
Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- вчера
- 66 просмотров
1

ответ
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- вчера
- 134 просмотра
2

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Доработать телеграм бота

19 апр. 2024, в 03:52

1000 руб./за проект

Написать код на python

19 апр. 2024, в 03:01

1000 руб./за проект

Настройка сервера

18 апр. 2024, в 21:56

2000 руб./за проект

Answer 1 · 2018-11-06 12:47:24

Навскидку:

Размечаете тренировочный датасет вручную на три класса
Преобразовываете текст в tf-idf представлении
Используете один из алгоритмов машинного обучения для предсказания классов

Отличный пример, как это должно выглядеть. Просто попробуйте реализовать код из примера использую Ваши данные.

Answer 2 · 2018-11-06 15:58:30

Сам недавно в этой теме рылся. Можно, например, вот это почитать https://arxiv.org/abs/1503.05543
Но мне кажется, что проще будет составить словари фраз\песен, и тупо повырезать их из текста.

Answer 3 · 2020-01-21 17:41:25

Собственно речь клиента
1. (+1) Промаркируйте все фразы начала разговора клиентом.
2. (-1) С обратным знаком, промаркируйте все начала фраз автоответчика.
3. (ALL - ([1]+[2])) Остальное - будут музыка и песни.

Как очистить текст от шума по смыслу? Или разбить текст на смысловые блоки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт