Лемматизация на php?

Каковы перспективы лемматизации на php на сегодняшний момент? Так ничего кроме phpMorphy и не придумали? Можно ли привести слово к начальной словарной форме не имея словаря для каждого слова по отдельности? Можно ли как-то под нужды лемматизации доработать имеющиеся скрипты стеммера Портера?
Хотелось бы конечно что-то готовое, но готов послушать теорию и размышления.
Вообщем-то задача передо мной стоит тривиальная для человека: найти все повторяющиеся в тексте слова и записать их в начальной словоформе.
  • Вопрос задан
  • 793 просмотра
Пригласить эксперта
Ответы на вопрос 3
samodum
@samodum
Без словаря это сделать невозможно. Иначе получится стеммер, у которых низкая точность.
Ни один стеммер без словаря не поймёт, что "кровать" - это существительное, а не глагол.
И как быть с омонимами, даже если со словарём для слова "при" есть два значения:
при - предлог
при - глагол от "переть"
?
Или слово "простой" - то и существительное (простой работы) и прилагательное (простой человек) и даже глагол (простой тут полдня на ногах - околеешь).
И таких примеров - тыщщи.
Проблемы лемматизации не существует сейчас. Все проблемы решены уже давно
Ответ написан
alexprik07
@alexprik07
Программист, верстальщик.
Можно встречный вопрос, есть готовые решения на Си, почему бы не повернуть их в модуль для PHP, ну если уж такая надобность в проекте?
Ответ написан
@s_ancherbak
Если анализировать нужно будет только русский язык, то можно попробовать MyStem с небольшой обёрткой на PHP.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы