Алгоритм сравнения текстовых строк?

Question

Xp0M0u @Xp0M0u

Алгоритм сравнения текстовых строк?

Посоветуйте алгоритм сравнения строк с принципом работы вроде:

'Иван Иваныч Иванов' = 'Иванов Иван Иваныч'

'Иван Иваныч' ~ 'Иванов Иваныч'

'Иван Иваныч Иванов с утра ходит без штанов' != 'Иванов Иван Иваныч одевает штаны на ночь'

То есть, нужно найти коэффициент похожести строк, с учетом того, что слова в строке могут быть поменяны местами.

UPD: Кажется придумал:

a — массив слов первой строки

b — массив слов второй строки

n — количество слов первой строки

m — количество слов второй строки

Сij — коэффициент похожести слов a[i] и b[j] (можно использовать soundex или Levenshtein distance)

K = (С11 + С12 +… + С1m + C21 + C22 +… + C2m +… + Cnm) / ((n + m) / 2)

Итого для примера, пусть Cij считается как a[i] == b[j] ? 1 : 0

a = ['Иван', 'Иваныч', 'Иванов']

b = ['Иванов', 'Иван', 'Иваныч']

K = (0 + 1 + 0 + 0 + 0 + 1 + 1 + 0 + 0) / ((3 + 3) / 2) = 3 / 3 = 1 — строки одинаковы

a = ['Иван', 'Иваныч']

b = ['Иванов', 'Иваныч']

K = (0 + 0 + 0 + 1) / ((2 + 2) / 2) = 1 / 2 = 0.5 — похожи, но не равны

Вроде логично.

Спасибо hamMElion, что напомнил разбить строки на слова %)

Вопрос задан более трёх лет назад
15108 просмотров

Комментировать

Подписаться 9 Оценить Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 5

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- 20 часов назад
- 74 просмотра
2

ответа
Алгоритмы

Простой
Как внедрить алгоритм Дейкстры для игры змейка на java?
- 1 подписчик
- 22 апр.
- 80 просмотров
0

ответов
C++

+1 ещё

Средний
Как найти кратчайший путь в лабиринте, двигаться в котором можно только вперед и направо?
- 1 подписчик
- 21 апр.
- 118 просмотров
1

ответ
Алгоритмы

+2 ещё

Средний
Какие существуют методы сравнения качества изображения?
- 1 подписчик
- 21 апр.
- 108 просмотров
2

ответа
Алгоритмы

Простой
Какой алгоритм использовать, чтобы: разбить массив чисел так, чтобы суммарная разница между максимальным и минимальным числом была максимальна?
- 1 подписчик
- 21 апр.
- 142 просмотра
1

ответ
Алгоритмы

Простой
Как устроен вывод в задаче?
- 1 подписчик
- 19 апр.
- 260 просмотров
1

ответ
Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- 18 апр.
- 113 просмотров
3

ответа
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- 18 апр.
- 457 просмотров
1

ответ
Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- 17 апр.
- 83 просмотра
1

ответ
Алгоритмы

Простой
Как определить сложность алгоритма?
- 1 подписчик
- 16 апр.
- 115 просмотров
3

ответа
Показать ещё Загружается…

С developer (алгоритмист)

СберТех • Москва

от 350 000 ₽

Бэкенд программист

Grade Factor • Москва

от 80 000 ₽

С++ developer

TQB - хай-тек рекрутмент по-хардкору • Москва

от 300 000 ₽

Протестировать виджет на личном сайте

26 апр. 2024, в 18:00

500 руб./за проект

Установить систему Linux

26 апр. 2024, в 17:24

2000 руб./в час

Перенести базу знаний в формат lms (На подобии Obsidium)

26 апр. 2024, в 17:02

35000 руб./за проект

Answer 1 · 2010-10-08 10:52:15

Дополнительно, после разбиения строки на слова, их можно сравнивать с помощью levinshtein(). Потом с учетом длины слова получать коэффициент похожести. Таким образом можно с довольно точно определять схожесть, даже если допущена опечатка в слове, или если оно написано немного иначе.
Ну и дополнительный бонус — транслитерация строки и очистка ее от мусора.

Answer 2 · 2010-10-08 09:46:22

1. Разбить обе строки на массивы слов (split)
2. Цикл поиска элементов одного массива в другом (подсчет совпадений = k)
3. Нахождение числа совпадений для второго массива из пропорции k1/n1=k2/n2 (n — число элементов массива)
4. Разница |k1-k2| и есть коэффициент похожести

Answer 3 · 2010-10-08 09:52:34

Алгоритмов — хоть антилопой жуй.
На staffwww.dcs.shef.ac.uk/people/S.Chapman/stringmetrics.html есть описания и ссылки на реализации. Выбери подходящий.

Answer 4 · 2011-07-12 10:21:43

по вашему алгоритму получается, что строки «Джей Джей Йохансон» и «Джей Кью Йохансон» равны. нужно исключать из массивов строк уже совпавшие

Answer 5 · 2016-02-10 03:05:16

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Как определить похожесть двух строк?

Ответ написан более трёх лет назад

Комментировать

Answer 6 · 2019-04-20 04:56:46

RuWeb @RuWeb

Вот уже готовый онлайн сервис TextTools.ru

Ответ написан более трёх лет назад

Комментировать

Алгоритм сравнения текстовых строк?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт