Как посчитать количество повторяющихся букв (отрезков) в наборе слов?

Question

Алексей Николаев @Heian

Ашот

Как посчитать количество повторяющихся букв (отрезков) в наборе слов?

Добрый вечер всем.
Есть нетривиальная задача - нужно из массива слов выделить те, у которых повторяется начало, т.е. посчитать слова, которые имеют больше всего вероятности семантической сходности. Например, "автострада" и "автомобиль" попадут в конечную выдачу. Это можно сделать несколькими вложенными циклами (циклы вообще заменяют почти любой алгоритм), но красота и скорость такого решения стоит под огромным сомнением...

Как бы попробовали реализовать нечто эдакое вы?.. Как вообще можно такое реализовать (может, существуют известные алгоритмы)? Буду благодарен за советы, спасибо.

P.S. библиотеки (вроде phpMorphy) возможны, но нежелательны

Вопрос задан более трёх лет назад
4474 просмотра

1 комментарий

Подписаться 6 Оценить 1 комментарий

Решения вопроса 2

Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+1 ещё

Простой
Почему ошибка 502 после миграции с PHP 8.2 на PHP 8.3?
- 1 подписчик
- час назад
- 58 просмотров
2

ответа
Программирование

Простой
Как и на чем написать скрипт для клика мышкой?
- 1 подписчик
- 2 часа назад
- 54 просмотра
2

ответа
PHP

+1 ещё

Средний
Как получить телефон из Google OAuth 2.0 API?
- 1 подписчик
- 17 часов назад
- 42 просмотра
1

ответ
PHP

+1 ещё

Средний
Как запускать PHP в терминале Netbeans?
- 2 подписчика
- 18 часов назад
- 184 просмотра
0

ответов
PHP

+1 ещё

Простой
Где ошибка в коде при создании древа в sql из файла?
- 1 подписчик
- 19 часов назад
- 88 просмотров
0

ответов
PHP

+1 ещё

Простой
Как в php формировать ответ на AJAX XMLHttpRequest запрос?
- 1 подписчик
- вчера
- 103 просмотра
0

ответов
PHP

+2 ещё

Средний
Запросы soap в инфоклинику на php?
- 1 подписчик
- вчера
- 138 просмотров
2

ответа
PHP

Простой
Не работает часть скрипта PHP при смены PHP 7 на 8?
- 1 подписчик
- 22 апр.
- 211 просмотров
3

ответа
PHP

Средний
Как найти в массиве ответа API нужное значение, при том что значение может быть написано в разном регистре?
- 1 подписчик
- 22 апр.
- 146 просмотров
3

ответа
PHP

+1 ещё

Простой
Как отправить сообщение в определенную тему в группе Telegram боту на PHP?
- 1 подписчик
- 22 апр.
- 96 просмотров
1

ответ
Показать ещё Загружается…

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

Midlle PHP developer (backend)

ИТЦ Аусферр • Магнитогорск

от 100 000 до 160 000 ₽

Фронт мобильное приложение

25 апр. 2024, в 10:42

150000 руб./за проект

Настроить вёрстку webapp-telegram

25 апр. 2024, в 10:41

2000 руб./за проект

Создать дудл - видео с AI аватаром

25 апр. 2024, в 10:25

2000 руб./за проект

Answer 1 · 2014-11-01 20:08:49

если массив слов большой, предлагаю создать ориентированные деревья, узлом которой будет буква, вершина - первая буква слова, во втором уровне будут вторые буквы и т.д. до конца всех слов. И количество сходностей можно будет определить количеством узлом, уровень сходности - уровнем узла. Пример:
Слова Автострада, Автомобиль Авиация
Граф:

А - В - Т - О - С - Т - Р - А - Д - А
    |       |
    И       М - О - Й - К - А
    |       |
    А       О
    |       |
    Ц       Б
    |       |
    И       И
    |       |
    Я       Л
            |
            Ь

Такие деревья надо создать для каждой буквы, с которой начинаются слова в словаре

Answer 2 · 2014-11-01 20:15:23

Угу. Туда же попадут "автор", "автохтон", "автобиография", "автомат"... А уж слова с приставками... По хорошему, надо разделять слова на приставку, корень (корни), суффикс и окончание, для чего желательно знать, как минимум роль слова в предложении (и то может не помочь, попробуйте разобрать "Косил косой косой косой" - да, тот самый заяц на поляне, да ещё и коса кривая.
Но если так хочется - строите дерево, где каждый уровень - следующая буква слова, а в узлах и листьях стоят счётчики количества слов. Для слов "автомобиль", "авто" и "автострада" получаем:

.                   +-м(1)-о(1)-б(1)-и(1)-л(1)-ь(1)
.а(3)-в(3)-т(3)-о(3)+
.                   +-с(1)-т(1)-р(1)-а(1)-д(1)-а(1)

Затем обходим дерево, там где сумма счётчиков в дочерних узлах не равна счётчику в родительском - заканчивается слово, а разность между суммами даёт количество этих слов в тексте.

Answer 3 · 2014-11-02 14:27:14

Илья Плотников @ilyaplot

PHP программист

Возможно, следует использовать sphinx?

Ответ написан более трёх лет назад

1 комментарий

Answer 4 · 2014-11-06 13:41:41

Сдесь описывается немного другая задача, но может натолкнет на какие-то идеи (если хочется разбираться в вопросе).
habrahabr.ru/post/190694
Еще можете погуглить стиммеры и лематизаторы.

Как посчитать количество повторяющихся букв (отрезков) в наборе слов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт