Есть ли более 1 кластера?

Есть одномерный набор значений. Например:
[1, 2, 1, 0, 1, 1, 0, -1, 0, 21, 22]

В нём может быть два четко различимых кластера, как в примере - пара значений [21,22] сильно отличных от остальной массы. А может и не быть.

Как правильно анализировать такие данные, без ручного задания порога? Понятно, что даже случайные данные можно как-то разделить на две группы, но не всегда есть достаточный повод считать их отдельными кластерами.

upd. Задача, оказывается, типичная: определение числа кластеров (на англ.)
  • Вопрос задан
  • 240 просмотров
Пригласить эксперта
Ответы на вопрос 4
@dmshar
Вообще то есть такой раздел Data Mining, как кластерный анализ. И для решения задач типа вaшей разработано наверное десятков пять различных методов. В том числе - и "без ручного задания порога" (скажу по секрету - можно обойтись вообще без какого-бы то ни было задания порога).
Ваш случай - простейший, одномерный. В жизни встречаются задачи намного сложнее. Но в любом случае, выбор подхода и конкретного метода кластеризации зависит от данных - и от того, в какой шкале они измерены, и сколько их, и известно-ли их распределения, и какие меры близости можно ввести в пространстве признаков. Там же рассматривается вопрос, а как ОБОСНОВАНО выбрать количество, на которых разбивается выборка и как выявить аномалии-выбросы. В довершении всего имеются методы сравнения методов между собой.
Если говорить конкретно про Ваш пример, что данных настолько мало и кластеры настолько выражены, что тут сомнений нет. Но а если Вас проблема интересует более глубоко - то без изучения теории не обойтись. Часто кластеризацию изучают как одно из направлений в рамках машинного обучения и рассматривают в соответствующих книгах/курсах. Могу порекомендовать в качестве "затравки"-

https://habrahabr.ru/post/101338/
https://habrahabr.ru/company/ods/blog/325654/
Флах _"Машинное обучение - наука и искусство построения алгоритмов",
Барсегян "Анализ данных и процессов"
и более серьезные источники:
Мандель "Кластерный анализ"
Ким "Факторный, дискриминантный и кластерный анализ"
Миркин "Методы кластер-анализа"
Aggarwal, Chandan K. "Reddy-Data Clustering_ Algorithms and Applications"

и пр.пр.пр. Источников по теме -море.
Удачи.
Ответ написан
@codemania
Среднеквадратичное отклонение?
Ответ написан
DanilBaibak
@DanilBaibak
Machine Learning engineer
Правило 3х сигм - 99% всего распределение меньше 3*sigma, все что больше можно считать за выброс.

https://basegroup.ru/community/glossary/3-sigma
Ответ написан
Построить график, искать всплески.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
28 мар. 2024, в 21:25
2000 руб./за проект
28 мар. 2024, в 21:17
5000 руб./за проект
28 мар. 2024, в 20:46
150000 руб./за проект