Как получить нужную релевантность результатов в поиске по multivalue полю?

Question

Андрей Сидоров @morr

Elasticsearch

Как получить нужную релевантность результатов в поиске по multivalue полю?

Имеется сущность, у которой может быть произвольное количество названий.
По этим названиям делается поиск в эластике.
Названия лежат в одном поле как массив. У поля сложный analyzer со сложным tokenizer.

Проблема у меня в том, что elastic рассматривает поле со множеством значений (массив) как строку, и релевантность результатов поиска считается как суммарная релевантность по всему массиву, а не как релевантность одного конкретного совпавшего элемента массива.

Ниже сильно упрощеный пример.

Создаём индекс

curl -XDELETE 'http://localhost:9200/tests'
curl -XPUT 'http://localhost:9200/tests' -d'{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "type": "custom",
          "tokenizer": "edge_ngram_tokenizer",
          "filter": ["lowercase", "asciifolding"]
        }
      },
      "tokenizer": {
        "edge_ngram_tokenizer": {
          "type": "edgeNGram",
          "min_gram": "3",
          "max_gram": "12",
          "token_chars": ["letter", "digit"]
        }
      }
    }
  },
  "mappings": {
    "test": {
      "properties": {
        "name": {
          "type": "string",
          "analyzer": "my_analyzer"
        }
      }
    }
  }
}'

Заполняем значениями

curl -XPOST 'http://localhost:9200/tests/test' -d'{ "id": 1, "name": ["text"] }'
curl -XPOST 'http://localhost:9200/tests/test' -d'{ "id": 2, "name": ["text", "text"] }'

Ищем

curl -XGET 'http://localhost:9200/tests/test/_search' -d'{
  "query": {
    "match": {
      "name": "text"
    }
  }
}'

Результаты

{
  "took": 0,
  "timed_out": false,
  "_shards": { "total": 5, "successful": 5, "skipped": 0, "failed": 0 },
  "hits": {
    "total": 2,
    "max_score": 0.7911257,
    "hits": [{
      "_index": "tests",
      "_type": "test",
      "_id": "AWOtIL2gdpqdbX7hdDXg",
      "_score": 0.7911257,
      "_source": { "id": 2, "name": [ "text", "text" ] }
    }, {
      "_index": "tests",
      "_type": "test",
      "_id": "AWOtIL0ldpqdbX7hdDXf",
      "_score": 0.51623213,
      "_source": { "id": 1, "name": [ "text" ] }
    }]
  }
}

В результате имеем у id: 2 релевантность 0.7911257, а у id: 1 релевантность 0.51623213.
Мне нужно по запросу получить обе строки, и получить у них обязательно одинаковую релевантность.

Что делать?

Моя проблема происходит из-за того, что в production варианте кода я разбиваю название на несколько подполей, которые анализируются разными analyzer'ами, по которым затем идёт сложный dis_max поиск с разными весовыми коэффициентами на каждое из подполей (буст на полное совпадение, буст на совпадение начала стоки, поиск по частичному совпадению т.д.).

Я знаю два решения проблемы, но оба мне не подходят. Возможно, есть ещё какие-то варианты?

1. Когда названий мало, их можно хранить в отдельных полях name_0, name_1, name_2 и т.д.
При поиске делать dis_max запрос с tie_breaker: 0 и с релевантностью всё будет было хорошо.

"query": {
  "dis_max": {
    "queries": [
      { "match": { "name_0": "text" } },
      { "match": { "name_1": "text" } },
      { "match": { "name_2": "text" } }
    ],
    "tie_breaker": 0,
    "boost": 1
  }
}

2. Можно хранить в эластике по одной записи на каждое название

curl -XPOST 'http://localhost:9200/tests/test' -d'{ "product_id": 1, "name": "text" }'
curl -XPOST 'http://localhost:9200/tests/test' -d'{ "product_id": 2, "name": "text" }'
curl -XPOST 'http://localhost:9200/tests/test' -d'{ "product_id": 2, "name": "text" }'

В таком варианте полученные результаты приходится дополнительно агрегировать по product_id, и в этом случае получаем проблемы с пагинацией результатов и с дальнейшим агрегированием результатов.

Вопрос задан более трёх лет назад
986 просмотров

Комментировать

Подписаться 3 Средний Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

MySQL

+1 ещё

Средний
Как скрестить ElasticSearch и MySQL?
- 3 подписчика
- 15 апр.
- 682 просмотра
2

ответа
Elasticsearch

Простой
Как решить «overhead spent ...» и другие проблемы на Еластике?
- 1 подписчик
- 22 мар.
- 21 просмотр
0

ответов
Elasticsearch

Простой
Как запретить роли видеть все индексы кроме тех, к которым есть доступ?
- 1 подписчик
- 20 мар.
- 24 просмотра
0

ответов
Elasticsearch

Простой
Как сохранить lat/lon в geo_point с незначащей ( нулевой ) дробной частью?
- 1 подписчик
- 19 мар.
- 31 просмотр
1

ответ
Docker

+1 ещё

Простой
Почему эластику не хватает памяти?
- 1 подписчик
- 08 мар.
- 84 просмотра
0

ответов
Linux

+2 ещё

Средний
Не могу понять в чем ошибка — «Logstash shut down»?
- 1 подписчик
- 27 февр.
- 127 просмотров
2

ответа
Linux

+2 ещё

Сложный
Как правильно распарсить логи с файла Linux?
- 1 подписчик
- 19 февр.
- 160 просмотров
1

ответ
Elasticsearch

Простой
Как сохранить сортировку выдачи как у переданных строк в Elasticsearch?
- 1 подписчик
- 17 янв.
- 41 просмотр
1

ответ
Nuxt.js

+1 ещё

Средний
Как лучше реализовать поиск по сайту, написанному на Nuxt 3?
- 2 подписчика
- 06 янв.
- 111 просмотров
1

ответ
Elasticsearch

+3 ещё

Средний
Как заставить filebeat отправлять многострочные логи?
- 2 подписчика
- 04 дек. 2023
- 114 просмотров
1

ответ
Показать ещё Загружается…

Администратор баз данных

LADA Цифра • Москва

от 220 000 до 270 000 ₽

PHP-разработчик

FunPay

от 300 000 до 500 000 ₽

PHP-разработчик (Senior)

FunPay

от 1 000 000 до 1 200 000 ₽

DevOps задачи, работа с Yandex Cloud и Yandex Database

19 апр. 2024, в 18:38

1500 руб./в час

Верстка сайта -4-5 страниц

19 апр. 2024, в 18:36

1500 руб./за проект

MiniApp для телеграмм на React

19 апр. 2024, в 18:36

30000 руб./за проект

Answer 1 · 2018-06-04 21:49:39

Отвечу сам на свой вопрос.

Если хочется хранить массив названий в одном поле, то к "name" полю можно добавить "index_options": "docs", и количество вхождений слова перестанет влиять на релевантность.
Так же можно добавить "norms": { "enabled": false } и общая длина строки перестанет влиять на релевантность.
Но всё это костыли, которые не помогут для более сложных случаев, когда затем вам захочется сделать разные хитрые комбинации повышения/понижения релевантности для разных ситуаций.
Например, с массивом названий не выйдет сделать буст релевантности при полном совпадении одного из названий с искомой фразой.

Поэтому единственным подходящим вариантом вижу построение индекса таким образом, чтобы одно название товара "мапилось" на одну строку в индексе эластика.

Для понимания того, как считается релевантность очень помогла статья Theory Behind Relevance Scoring.

Так же для себя обнаружил, что на релевантность влияет, насколько часто встречается слово во всём индексе https://www.elastic.co/guide/en/elasticsearch/guid... И влияет оно порой очень сильно. Поэтому при реализации поиска по названиям idf фактор ранжирования стоит в обязательном порядке отключать https://stackoverflow.com/questions/33208587/elast... (работает в версии эластика начиная с 6.2)

Как получить нужную релевантность результатов в поиске по multivalue полю?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт