Как можно реализовать нечеткий поиск в строке?

Question

Zhandos M @Zhandos

Алгоритмы

Как можно реализовать нечеткий поиск в строке?

Здравствуйте!
Как вы думаете, можно ли использовать суффиксные деревья для поиска скажем так, сочетания символов в строке. Например в строке abcdef должна найтись подстрока cab и ей будет соответствовать подстрока abcdef, или найтись fed и ей будет соответствовать подстрока abcdef. То есть поиск подстроки не в чётком порядке символов. Когда как в суффиксном дереве порядок символов один из ключевых моментов его высокой производительности на поиск.

Суффиксные деревья вкратце: дерево где есть ветви для каждого суффикса подстроки, например для abcdef будут ветви a, b, ab, c, abc, bc, d, abcd, bcd, cd и т.д. Соответственно если мы ищём какую-либо подстроку, просто от корня идём по символам, если такая ветвь есть, значит подстрока существует, то есть по сути один проход на поиск.

Я ещё думал разбивать изначальную строку на подстроки определенной длины и вычислять их хеши, дальше уже при поиске смотреть, есть ли такой хэш, но что-то явно таких подстрок и их хешей получится много, ведь например в строке abcdef так же должна найтись подстрока cbd, её позиция в начальной строке на первом индексе

Или есть какие-то другие способы? Самый тупой и прямой конечно это линейный поиск.

Реальный кейс задачи
Над данным алгоритмом работаю для реализации поиска фраз в тексте, в примере выше для простоты, слова обозначены отдельными символами. Конечно, все слова как в фразах как и в тексте нормализованы. Нужно найти вхождение фраз (их тысячи) в тексте, при этом положения слов в фразе и в тексте могут не совпадать. Например: фраза "хороший утро" должна найтись в тексте "сегодня утро хороший".
Про sphinx и прочие тоже думал, но т.к. искомых фраз тысячи, искать их будет затратно по каждой фразе.

Спасибо!

Вопрос задан более трёх лет назад
543 просмотра

8 комментариев

Подписаться 2 Сложный 8 комментариев

sim3x @sim3x

abcdef должна найтись подстрока cab
мало похоже на какой-либо поиск, но сильно похоже на регулярку, которая включает набор букв

Написано более трёх лет назад
Zhandos M @Zhandos Автор вопроса

sim3x, регулярные выражение в данном кейсе едва ли применимы, но интересно будет почитать исходный код регулярных выражений и их алгоритмы, всё равно спасибо!

Написано более трёх лет назад

sim3x @sim3x

Zhandos M,

In [4]: re.findall('[cab]+', 'cab и ей будет соответствовать подстрока abcdef')
Out[4]: ['cab', 'abc']

Написано более трёх лет назад

Zhandos M @Zhandos Автор вопроса

sim3x, я понимаю. Для примера в вакууме в топика возможно это применимо, но это просто упрощённый пример. Едва ли, например системы нечеткого поиска используют регулярки

Написано более трёх лет назад
sim3x @sim3x

Zhandos M, а вы приведте реальный пример и кейс

Написано более трёх лет назад
Zhandos M @Zhandos Автор вопроса

sim3x, реальный кейс описан в конце вопроса. Слова в фразе и в тексте конечно все будут нормализованы.
В целом начальный алгоритм я думаю такой, для уменьшения количества потенциальных фраз. Сперва идёт поиск в базе фраз по всем словам из текста. Так мы получаем фразы, в которых присутствуют слова из текста. Дальше мы уже должны искать фразы в тексте, порядок слов в тексте и в фразе может не совпадать. При этом пересечения фраз быть не должно (это тривиально вычисляется по позициям).

Написано более трёх лет назад
sim3x @sim3x

Zhandos M,
нормализовать
наивно искать по совпадению

Кейс - стоит все таки описать. Без него непонятно - подойдет ли готовый софт

Написано более трёх лет назад
Zhandos M @Zhandos Автор вопроса

sim3x, описал кейс более подробно

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- 19 часов назад
- 73 просмотра
2

ответа
Алгоритмы

Простой
Как внедрить алгоритм Дейкстры для игры змейка на java?
- 1 подписчик
- 22 апр.
- 80 просмотров
0

ответов
C++

+1 ещё

Средний
Как найти кратчайший путь в лабиринте, двигаться в котором можно только вперед и направо?
- 1 подписчик
- 21 апр.
- 118 просмотров
1

ответ
Алгоритмы

+2 ещё

Средний
Какие существуют методы сравнения качества изображения?
- 1 подписчик
- 21 апр.
- 108 просмотров
2

ответа
Алгоритмы

Простой
Какой алгоритм использовать, чтобы: разбить массив чисел так, чтобы суммарная разница между максимальным и минимальным числом была максимальна?
- 1 подписчик
- 21 апр.
- 142 просмотра
1

ответ
Алгоритмы

Простой
Как устроен вывод в задаче?
- 1 подписчик
- 19 апр.
- 260 просмотров
1

ответ
Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- 18 апр.
- 113 просмотров
3

ответа
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- 18 апр.
- 457 просмотров
1

ответ
Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- 17 апр.
- 83 просмотра
1

ответ
Алгоритмы

Простой
Как определить сложность алгоритма?
- 1 подписчик
- 16 апр.
- 115 просмотров
3

ответа
Показать ещё Загружается…

С developer (алгоритмист)

СберТех • Москва

от 350 000 ₽

Бэкенд программист

Grade Factor • Москва

от 80 000 ₽

С++ developer

TQB - хай-тек рекрутмент по-хардкору • Москва

от 300 000 ₽

Перенести базу знаний в формат lms (На подобии Obsidium)

26 апр. 2024, в 17:02

35000 руб./за проект

Составить единую таблицу SQL

26 апр. 2024, в 16:51

2000 руб./в час

Сверстать 2 транзакционных письма по макету figma

26 апр. 2024, в 16:36

3000 руб./за проект

abcdef должна найтись подстрока cab
мало похоже на какой-либо поиск, но сильно похоже на регулярку, которая включает набор букв
sim3x, регулярные выражение в данном кейсе едва ли применимы, но интересно будет почитать исходный код регулярных выражений и их алгоритмы, всё равно спасибо!
Zhandos M,
In [4]: re.findall('[cab]+', 'cab и ей будет соответствовать подстрока abcdef') Out[4]: ['cab', 'abc']
sim3x, я понимаю. Для примера в вакууме в топика возможно это применимо, но это просто упрощённый пример. Едва ли, например системы нечеткого поиска используют регулярки
Zhandos M, а вы приведте реальный пример и кейс
sim3x, реальный кейс описан в конце вопроса. Слова в фразе и в тексте конечно все будут нормализованы.
В целом начальный алгоритм я думаю такой, для уменьшения количества потенциальных фраз. Сперва идёт поиск в базе фраз по всем словам из текста. Так мы получаем фразы, в которых присутствуют слова из текста. Дальше мы уже должны искать фразы в тексте, порядок слов в тексте и в фразе может не совпадать. При этом пересечения фраз быть не должно (это тривиально вычисляется по позициям).
Zhandos M,
нормализовать
наивно искать по совпадению

Кейс - стоит все таки описать. Без него непонятно - подойдет ли готовый софт

Answer 1 · 2018-12-19 13:12:42

Евгений Козлов @lebron32rus

Senior Software Engineer

Расстояние Левенштейна

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2018-12-19 15:26:01

Алгоритм n-gramm, расстояние лвенштейна, а вообще по этому поводу есть очень хорошая статья на хабре https://habr.com/post/114997/

Как можно реализовать нечеткий поиск в строке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт