Кластеризация схожих массивов

Question

axmakarov @axmakarov

Кластеризация схожих массивов

Приветствую! Столкнулся с такой проблемой: передо мной стоит задача нечеткой кластеризации неких пользовательских запросов на основе схожести людей их задававших. В моих данных каждому запросу в однозначное соответствие поставлен массив людей, которые обращались в систему с таким запросом. Для лучшей иллюстрации приведу пример (xls) . В файле каждому запросу Query в соответствие поставлен массив размерностью 25, но на практике размерность может различаться, все зависит от того сколько человек обращались с таким запросом. Необходимо произвести нечеткую кластеризацию на основе степени похожести массивов. Мой вопрос в том какой алгоритм кластеризации лучше всего использовать для этой задачи, возможно в составе уже существующих библиотек Data Mining'a (на C# или Python), а также с чего стоит начать, например, каким образом рассчитать расстояние между объектами.

Вопрос задан более трёх лет назад
3408 просмотров

Комментировать

Подписаться 6 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Как можно настроить автопереключение потоковой реплики на новый мастер?
- 2 подписчика
- 04 дек. 2023
- 150 просмотров
0

ответов
Кластеры

+2 ещё

Средний
Кластер непрерывной доступности (Fault Tolerance или Continuous Availability) на Openstack как настроить?
- 2 подписчика
- 26 окт. 2023
- 76 просмотров
0

ответов
Кластеризация

Средний
Сегментации изображения, термограммы. Какой способ выбрать?
- 1 подписчик
- 19 сент. 2023
- 48 просмотров
1

ответ
Виртуализация

+1 ещё

Простой
Как создать одну виртуальную машину использующую несколько серверов?
- 1 подписчик
- 31 мая 2023
- 169 просмотров
2

ответа
JavaScript

+2 ещё

Простой
Как задать модификатор для шаблона кластера у yandex maps при использовании objectManager?
- 1 подписчик
- более года назад
- 77 просмотров
0

ответов
Data mining

+1 ещё

Средний
Система управления майниг — ЦОДом, такое вообще существует?
- 2 подписчика
- более года назад
- 142 просмотра
2

ответа
High availability

+2 ещё

Простой
Как организовать отказоустойчивый кластер 1С?
- 1 подписчик
- более года назад
- 301 просмотр
3

ответа
API

+3 ещё

Простой
Каким образом сервисы аналитики типа MPStats получают данные о продажах с Wildberries, Ozon, итд?
- 1 подписчик
- более года назад
- 333 просмотра
1

ответ
Компьютеры

+2 ещё

Средний
Какую ОС выбрать для локальной кластеризации несколько слабых ПК?
- 1 подписчик
- более года назад
- 146 просмотров
3

ответа
Нейронные сети

+1 ещё

Средний
Выбор оптимального метода распределения банкоматов по территории города?
- 2 подписчика
- более года назад
- 208 просмотров
2

ответа
Показать ещё Загружается…

Data Engineer

ПАО «Ростелеком», Филиал ОЦО

До 261 000 ₽

Data Scientist (Финтех)

Intelinvest

от 60 000 ₽

Senior Data Engineer

Дром

от 250 000 ₽

Разработать интранет сайт (корпоративный портал)

20 апр. 2024, в 07:24

100000 руб./за проект

Исправить адаптивную верстку на Tilda Zero Block

20 апр. 2024, в 06:39

4000 руб./за проект

Доработка аддона для Xenforo v2.2.13

20 апр. 2024, в 06:06

200 руб./за проект

Answer 1 · 2014-02-04 23:51:25

Если кол-во данных позволяет, посчитайте кол-во общих пользователей "С" между анализируемым запросом и референсным. Если длина исходных выборок (25 в Вашем примере) может сильно варьироваться (обозначим "N[0]" для анализируемой и "N[i]" для референсной), то наверное имеет смысл это число еще и отнормировать, например, "2*C/(N[0]+N[i])" или "C/SQRT(N[0]*N[i])" или "С/N[0]+C/N[i]".

Если кол-во данных не позволяет ("С" статистически близко к "0"), то возможно будет оправданно "расширить круг" исследуемого запроса и референсного, включив в их выборки (естественно уже с весами, отражающими частоты) другие запросы, которыми интересовались люди, которые интересовались исследуемым и референсным запросами (порознь). Пройдет ли такой маневр - зависит от предметной области, то есть семантических связей между пользователями и запросами.

Answer 2 · 2016-02-10 03:59:25

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Посмотрите вот тут: Как определить похожесть двух строк?

Ответ написан более трёх лет назад

Комментировать

Кластеризация схожих массивов

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт