Почему в Elasticsearch неправильно ищутся некоторые слова?

Question

un1t @un1t

Elasticsearch

Почему в Elasticsearch неправильно ищутся некоторые слова?

Использую плагин russian_morphology.

Фамилию "петрова" анализатор превращает в токен "петров", а фамилию "петров" в "петров" и "петр". Тут все норм, так и должно быть.
А есть другая фамилия - "аккуратова", она превращяется в "аккуратов", а таже фамилия в именительном падеже мужского рода "аккуратов" превращяется в "аккурат". И тут возникает проблема. По запросу "аккуратов" мы не сможем найти например фразу "портрет Аккуратова".

Ниже настройки и примеры запросов к анализатору.

"settings" : {
      "index" : {
        "analysis" : {
          "filter" : {
            "my_stopwords" : {
              "type" : "stop",
              "stopwords" : "а,без,более,бы,был,была,были,было,быть,в,вам,вас,весь,во,вот,все,всего,всех,вы,где,да,даже,для,до,его,ее,если,есть,еще,же,за,здесь,и,из,или,им,их,к,как,ко,когда,кто,ли,либо,мне,может,мы,на,надо,наш,не,него,нее,нет,ни,них,но,ну,о,об,однако,он,она,они,оно,от,очень,по,под,при,с,со,так,также,такой,там,те,тем,то,того,тоже,той,только,том,ты,у,уже,хотя,чего,чей,чем,что,чтобы,чье,чья,эта,эти,это,я"
            }
          },
          "char_filter" : {
            "my_charfilter" : {
              "type" : "mapping",
              "mappings" : [ "Ё=>Е", "ё=>е" ]
            }
          },
          "analyzer" : {
            "my_analyzer" : {
              "filter" : [ "lowercase", "russian_morphology", "my_stopwords" ],
              "char_filter" : [ "my_charfilter" ],
              "type" : "custom",
              "tokenizer" : "standard"
            }
          }
        },

$ curl -XGET 'localhost:9200/myindex/_analyze?pretty&tokenizer=standard&token_filters=russian_morphology' -d 'петрова'

{
  "tokens" : [ {
    "token" : "петров",
    "start_offset" : 0,
    "end_offset" : 7,
    "type" : "<ALPHANUM>",
    "position" : 1
  } ]
}

$ curl -XGET 'localhost:9200/myindex/_analyze?pretty&tokenizer=standard&token_filters=russian_morphology' -d 'петров'

{
  "tokens" : [ {
    "token" : "петров",
    "start_offset" : 0,
    "end_offset" : 6,
    "type" : "<ALPHANUM>",
    "position" : 1
  }, {
    "token" : "петр",
    "start_offset" : 0,
    "end_offset" : 6,
    "type" : "<ALPHANUM>",
    "position" : 1
  } ]
}

$ curl -XGET 'localhost:9200/myindex/_analyze?pretty&tokenizer=standard&token_filters=russian_morphology' -d 'аккуратов'

{
  "tokens" : [ {
    "token" : "аккурат",
    "start_offset" : 0,
    "end_offset" : 9,
    "type" : "<ALPHANUM>",
    "position" : 1
  } ]
}

$ curl -XGET 'localhost:9200/myindex/_analyze?pretty&tokenizer=standard&token_filters=russian_morphology' -d 'аккуратова'

{
  "tokens" : [ {
    "token" : "аккуратов",
    "start_offset" : 0,
    "end_offset" : 10,
    "type" : "<ALPHANUM>",
    "position" : 1
  } ]
}

Вопрос задан более трёх лет назад
507 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Docker

+1 ещё

Простой
Почему эластику стало не хватать место в докере?
- 4 подписчика
- 21 апр.
- 2105 просмотров
1

ответ
JavaScript

+2 ещё

Средний
Как я могу сделать поиск по нескольким значениям в js используя elasticsearch?
- 1 подписчик
- 20 апр.
- 51 просмотр
1

ответ
MySQL

+1 ещё

Средний
Как скрестить ElasticSearch и MySQL?
- 3 подписчика
- 15 апр.
- 695 просмотров
2

ответа
Elasticsearch

Простой
Как решить «overhead spent ...» и другие проблемы на Еластике?
- 1 подписчик
- 22 мар.
- 22 просмотра
0

ответов
Elasticsearch

Простой
Как запретить роли видеть все индексы кроме тех, к которым есть доступ?
- 1 подписчик
- 20 мар.
- 25 просмотров
0

ответов
Elasticsearch

Простой
Как сохранить lat/lon в geo_point с незначащей ( нулевой ) дробной частью?
- 1 подписчик
- 19 мар.
- 31 просмотр
1

ответ
Docker

+1 ещё

Простой
Почему эластику не хватает памяти?
- 1 подписчик
- 08 мар.
- 86 просмотров
0

ответов
Linux

+2 ещё

Средний
Не могу понять в чем ошибка — «Logstash shut down»?
- 1 подписчик
- 27 февр.
- 134 просмотра
2

ответа
Linux

+2 ещё

Сложный
Как правильно распарсить логи с файла Linux?
- 1 подписчик
- 19 февр.
- 161 просмотр
1

ответ
Elasticsearch

Простой
Как сохранить сортировку выдачи как у переданных строк в Elasticsearch?
- 1 подписчик
- 17 янв.
- 41 просмотр
1

ответ
Показать ещё Загружается…

PHP-разработчик

FunPay

от 300 000 до 500 000 ₽

PHP-разработчик (Senior)

FunPay

от 1 000 000 до 1 200 000 ₽

DevOps

Сима-ленд • Екатеринбург

от 120 000 до 250 000 ₽

Разработать HLTV HUD для стрима CS 1.6

25 апр. 2024, в 08:02

2500 руб./за проект

Вычислить размер объекта по карте глубин

25 апр. 2024, в 07:37

5000 руб./за проект

Спарсить TON PLACE: скрейпинг фото и текста с анкет по списку URL

25 апр. 2024, в 05:57

3000 руб./за проект

Answer 1 · 2016-04-14 14:13:07

Не совсем ответ, но есть форум, где осуждают проблемы с ES и морфологией в частности на русском (если существенно): https://discuss.elastic.co/c/in-your-native-tongue...

И стоит посмотреть issue проекта этого плагина (больше закрытые, т.к. по открытым нет ответов):
https://github.com/imotov/elasticsearch-analysis-m...

Автор плагина Игорь Мотов, я ему задавал вопросы.
У меня была близкая проблема при использовании wildcard, но оказалось, что это не проблема морфологии.

Почему в Elasticsearch неправильно ищутся некоторые слова?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт