Алгоритм лемматизации?

Есть ли алгоритм лемматизации (пусть упрощенный и неточный) для русского языка или библиотека для JVM?
  • Вопрос задан
  • 10925 просмотров
Пригласить эксперта
Ответы на вопрос 3
becks
@becks
Если вас стемминг не устроит и нужно более точно, посмотрите на АОТ (aot.ru) там есть уже реализованные алгоритмы лемматизации, открытые коды и описана теория.
Ответ написан
Комментировать
MrMig
@MrMig
Возможно, вас устроит анализатор русской морфологии для Lucene: code.google.com/p/russianmorphology/
Сам Lucene не требуется.
//опустим шаблонный код

private LuceneMorphology luceneMorphRus;
private String str = "Красивая"; 

// это лучше обернуть в синглтон, операция дорогая!
luceneMorphRus = ResourceLoader.getLuceneRussianMorphology();
List<String> wordInfo = luceneMorphR.getMorphInfo(str);

//анализируем wordInfo

Ответ написан
Комментировать
becks
@becks
Так как бы стеммер Портера.

Вот пример на джавке:

www.algorithmist.ru/2010/12/porter-stemmer-russian.html
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы