@DemonIa

Какой алгоритм лучше использовать для определения схожести строк?

Здравствуйте.
Суть задачи: есть таблица Excel. В столбцах А и В - названия спортивных команд (они не идентичны, но похожи)
Надо проанализировать эти два столбца, и удалить те значения (в одном либо другом столбце), для которого нет пары.

Пример:
столбец A
Манчестер - Аякс
Бундеслига - Неаполи

столбец В
Манчестер (U 17) - Аякс (U 17)
Динамо - Черноморец

В этом случае надо удалить пары "Бундеслига - Неаполи" и "Динамо - Черноморец".

Я вижу тут два варианта - либо сравнивать их как строки через алгоритм Левенштейна, либо разбивать строки по пробелам на элементы массива, и сравнивать их "пересечения" через алгоритм Танимото.

Excel - как пример. Конечная реализация будет либо на PHP либо на NodeJS.

Спасибо.
  • Вопрос задан
  • 56 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через TM ID
Похожие вопросы