Как определить вхождение слова в текст, допуская незначительные грам. ошибки в нем?

Question

Никита Каменев @NickStone

Python

Как определить вхождение слова в текст, допуская незначительные грам. ошибки в нем?

Есть короткие сообщения, которые получает на вход программа (Python, к примеру) и есть ключевые слова, которые заложены в программе.
Нужно определить если ли это слово в тексте, допуская что в нем могут содержаться ошибки.

Пример:
Есть текст:

Какая стоимасть у этого товара?

Алгоритм должен распознать это слово, при условии что в ключевых словах есть слово стоимость.

Сейчас всё это дело реализовано так:
1. Разбиваю текст на слова
2. Для каждого слова считаю расстояние Левенштейна от списка ключевых слов
3. Если расстояние не больше двух - это слово присутствует.

Вопрос задан более трёх лет назад
432 просмотра

1 комментарий

Подписаться 4 Оценить 1 комментарий

Пригласить эксперта

Ответы на вопрос 3

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как работают табы в python?
- 1 подписчик
- 22 минуты назад
- 15 просмотров
0

ответов
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 13 часов назад
- 123 просмотра
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- 18 часов назад
- 99 просмотров
3

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- 19 часов назад
- 127 просмотров
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 1 подписчик
- 19 часов назад
- 21 просмотр
0

ответов
Python

+2 ещё

Простой
Почему Планировщик задач Windows 10 не выполняет скрипт Python?
- 3 подписчика
- вчера
- 786 просмотров
2

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- вчера
- 84 просмотра
0

ответов
Python

+2 ещё

Простой
OK.RU, API приложений, не могу загрузить видео: User must grant an access to permission 'VIDEO_CONTENT'". Как получить этиправа для приложения?
- 1 подписчик
- вчера
- 50 просмотров
1

ответ
Python

+1 ещё

Средний
Сервер C# не принимает сообщения от клиента. Почему так?
- 1 подписчик
- 21 апр.
- 115 просмотров
0

ответов
Python

Простой
Что я делаю не так Python?
- 1 подписчик
- 21 апр.
- 168 просмотров
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Верстка сайта

23 апр. 2024, в 11:46

3000 руб./за проект

Создать с нуля макеты для флаг-футбола: листовка А5, виндер-флаг, ролл

23 апр. 2024, в 11:44

1000 руб./за проект

Доработать приложение

23 апр. 2024, в 11:38

20000 руб./за проект

Почему текущий вариант тебя не устраивает?

Тебе нужно подумать о метриках качества - полнота и точность
Тк дальше тебе нужно думать про машобучение и/или експертную систему

Answer 1 · 2015-08-03 01:50:04

1. Пересечение множеств и сегментация цепочек данных.
(Левенштейн - полностью нерабочий вариант в данном случае)
2. Правила для автогенерации возможных ошибок/очепяток, дубликаты согласных, раскладки клавиатуры: а:о, и:е, е:ё, ц:й:у:ф:ы:в, п:а:р:к:е:н:м:и:т, и т.д.
3. Словарь синонимов по ключевикам
4. Словоформы

PS: пишите чат-бота-консультанта для интернет-магазина?)

Answer 2 · 2015-08-03 05:22:02

Самый простой путь - расстояние Хэмминга вот здесь, можно, например, рассмотреть типовые ошибки + опечатки, на основе длины слова делать вывод о возможном количестве ошибок, а затем уже считать расстояние Хэмминга и на этом основании принимать решение. Еще можно посмотреть на алгоритмы перцептивного хэширования для строк (похожие аргументы дадут похожий хэш) с последующим применением того же расстояния Хэмминга.

Answer 3 · 2015-08-03 08:40:40

Есть такой алгоритм (не помню названия):
Слово (или все предложение) формируют группы по 3 символа (или 4),
"стоимость" -> {__с, _ст_ сто, тои, оим, имо, мос, ост, сть, ть_, ь__}
В итоге когда будем искать пересечения (set & set) с ошибочным словом "стоимасть" -> {__с, _ст, ... }, мы получим 8 из 11 совпадений, а вообще если прогнать по всем ключевым словам и отсортировать результаты по релевантности то мы получим "стоимость" на первом месте как самое близкое слово.

Так же тут можно использовать обратный индекс и по слову находить тексты (включая те слова с ошибками).

Как определить вхождение слова в текст, допуская незначительные грам. ошибки в нем?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт