Библиотека для морфологического разбора фраз на русском языке?

Question

Павел Коноплицкий @badlittleduck

UX/UI дизайнер. Основатель и руководитель 1Point

Библиотека для морфологического разбора фраз на русском языке?

Какой библиотекой можно сделать морфологический разбор фраз на русском языке?

Нужно, что-нибудь, что можно использовать на php.

Подробнее. На входе два списка фраз — основной и расширенный. Надо каждой фразе из основного списка сопоставить все возможные фразы из расширенного списка с учетом морфологии русского языка.

Например, основной список (одномерный массив):

1. купить медицинские весы

2. ортопедический матрас

Расширенный список (одномерный массив):

1. купить медицинские весы в москве

2. купить медицинские весы в перми

3. покупка медицинских весов

4. продажа весов медицинских

5. медицинские весы купить

6. ортопедические матрасы

7. матрас ортопедическй

8. продажа матрасов ортопедических

9. матрас полуторный

На выходе надо понять, какие из фраз расширенного списка включают в себя какую-нибудь фразу из основного списка. Чтобы в итоге получить следующий список (двумерный массив):

1. купить медицинские весы:

1.1. купить медицинские весы в москве

1.2. купить медицинские весы в перми

1.3. покупка медицинских весов

2. ортопедический матрас:

2.1. ортопедические матрасы

2.2. матрас ортопедическй

2.3. продажа матрасов ортопедических

Понимаю, что в результате морфолог. анализа фраз возможный ошибки и не все варианты фраз будут связаны. Даже готов смириться с такой ошибки, когда будут связаны фразы «китобойный промысел» и «китайская промышленность».

Вопрос задан более трёх лет назад
7830 просмотров

Комментировать

Подписаться 10 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+1 ещё

Средний
Почему одинаково-написанный curl запрос отдает разные ответы?
- 1 подписчик
- 5 часов назад
- 70 просмотров
0

ответов
PHP

+1 ещё

Простой
Как импортировать xlsx и csv в базу данных битрикса?
- 1 подписчик
- 5 часов назад
- 6 просмотров
1

ответ
PHP

Простой
Как работать с округлением?
- 1 подписчик
- 9 часов назад
- 71 просмотр
1

ответ
PHP

Простой
Вывожу куки в корзине, куда записал товар, не выводит, в чем ошибка?
- 1 подписчик
- 11 часов назад
- 65 просмотров
0

ответов
PHP

Простой
Функция str_replace() не работает?
- 1 подписчик
- 15 часов назад
- 118 просмотров
3

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- 18 часов назад
- 28 просмотров
1

ответ
PHP

+2 ещё

Сложный
Интеграция Telegram с CRM системой. Что посоветуете?
- 1 подписчик
- вчера
- 124 просмотра
1

ответ
JavaScript

+3 ещё

Простой
Как принять данные от JQuery.ajax на сервере php?
- 1 подписчик
- вчера
- 91 просмотр
1

ответ
JavaScript

+1 ещё

Простой
Как из php передать ошибки в js?
- 1 подписчик
- 15 апр.
- 193 просмотра
3

ответа
PHP

+2 ещё

Средний
Версии файлов на сайте отличаются от тех что я вижу через админку?
- 1 подписчик
- 15 апр.
- 109 просмотров
1

ответ
Показать ещё Загружается…

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

PHP-разработчик

M-Social Production • Брянск

от 70 000 ₽

PHP FullStack Developer (Middle+)

ГК «Талант» • Сочи

от 100 000 до 200 000 ₽

Каталог AI tools

18 апр. 2024, в 01:12

150000 руб./за проект

Загрузка характеристик из xml/csv файла в карточки товаров WordPress

18 апр. 2024, в 00:58

5000 руб./за проект

Нарисовать подарки для соц сети

18 апр. 2024, в 00:10

50000 руб./за проект

Answer 1 · 2012-11-02 04:34:55

Смотрите функцию similar_text():
$sovpalo=similar_text($stroka1,$stroka2,$prc);
Возвращаемое значение: — кол-во совпавших символов.
Проверка:

if ($prc>10 && $sovpalo>=mb_strlen($stroka1)/2) {
/*
(если процент совпадения больше 10 и кол-во совпавших символов больше половины)
помещаем в подпункт...
*/
}

Answer 2 · 2012-11-02 09:43:49

Для лемматизации и склонения слов есть phpmorphy. Вероятно, работу с фразами придётся делать самому.

Answer 3 · 2013-11-18 16:24:21

В узкой тематике эффективно использование конечных автоматов.

В широкой будет очень много ошибок, нужно сортировать по тематикам. После применять лемматизацию и далее оценивать через схожесть пословно.

В итоге получается достаточно медленно на выборках более 50 фраз.

По этой причине может быть эффективнее использовать леммы путем урезания суффиксов, приставок и окончания выделяя только корни (как для англоязычных фраз), далее искать похожие. По производительности будет приемлемо, но ошибок будет больше.

Answer 4 · 2017-04-23 14:02:05

Nikita Tarasov @tarasnick1

SEO оптимизатор

morpher.ru

Ответ написан более трёх лет назад

Комментировать

Библиотека для морфологического разбора фраз на русском языке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт