Как организовать кластеризацию десятков миллионов текстов?

Question

andyN @andyN

Data mining

Как организовать кластеризацию десятков миллионов текстов?

С новым годом, дамы и господа!

По работе внезапно понадобилось классифицировать несколько десятков миллионов статей. Иными словами, определить категорию входных текстов. На выходе должно быть примерно следующее:

"Статья 1" -> {"Политика": 99%, "Общество": 85%}
"Статья 2" -> {"Спорт": 58%, "Общество": 13%}

И так далее. Здесь "Статья 1" - это заголовок статьи (у нее есть и текст, разумеется). Данные в фигурных скобках - это пара-тройка максимальных категорий. Т.е. необходимо вычислять, к какой категории вероятнее всего относится статья, и этот коэффициент "вероятности", или скорее "похожести", выражать в процентах.

Категорий будет несколько десятков. Статей - десятки миллионов.

Я знаком с machine learning самую малость, к сожалению. Логически понимаю, что нужна тестовая выборка для "обучения" кластеризатора. Тестовая выборка у нас есть - десятки тысяч статей, уже имеющих определенную категорию (новостной сайт). Т.е. весь программный комплекс должен вначале пробежаться по тестовой выборке, "обучиться" (выявить какие-то слова-маркеры), а затем отклассифицировать наши "сырые" данные.

Времени у меня на обучение, просмотр длинных видео, написание своего кода и т.п. - нет. К сожалению, т.к. тема интересная. Но факт остается фактом - очень прошу скидывать ссылки на уже готовые решения для данной задачи (кластеризаторы), чтобы на допиливание не пришлось тратить уйму времени. Наверняка что-то подобное уже написано и выложено на гитхаб или еще куда-то. Но я к сожалению не нагуглил ничего.

Очень надеюсь на помощь хабрасообщества, которое уже выручало меня не раз.

Вопрос задан более трёх лет назад
3884 просмотра

Комментировать

Подписаться 7 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 6

Комментировать

1 комментарий

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Data mining

+1 ещё

Средний
Система управления майниг — ЦОДом, такое вообще существует?
- 2 подписчика
- более года назад
- 142 просмотра
2

ответа
API

+3 ещё

Простой
Каким образом сервисы аналитики типа MPStats получают данные о продажах с Wildberries, Ozon, итд?
- 1 подписчик
- более года назад
- 333 просмотра
1

ответ
Математика

+2 ещё

Средний
Как найти неизвестные параметры функции, зная ее значения?
- 1 подписчик
- более двух лет назад
- 347 просмотров
2

ответа
Парсинг

+1 ещё

Средний
Как проверить наличие ключевого слова на сайте из списка?
- 2 подписчика
- более двух лет назад
- 57 просмотров
1

ответ
Жёсткие диски

+1 ещё

Простой
Как подключиться к chives pool?
- 1 подписчик
- более двух лет назад
- 153 просмотра
1

ответ
Видеокарты

+2 ещё

Сложный
Какое охлаждение подойдёт на Rx590 armor, вместо штатного?
- 1 подписчик
- более двух лет назад
- 298 просмотров
2

ответа
PowerShell

+1 ещё

Простой
Копирование атрибутов файлов(даты создания, изминения) из оригинала в копию?
- 1 подписчик
- более трёх лет назад
- 299 просмотров
2

ответа
Data mining

+1 ещё

Сложный
Тонкие клиенты настройка?
- 1 подписчик
- более трёх лет назад
- 87 просмотров
1

ответ
Алгоритмы

+2 ещё

Простой
Какой фильтр надо использовать для графика XYZ?
- 1 подписчик
- более трёх лет назад
- 94 просмотра
2

ответа
Python

+2 ещё

Простой
Как спарсить даты в формат datetime в Pandas?
- 1 подписчик
- более трёх лет назад
- 1354 просмотра
2

ответа
Показать ещё Загружается…

Data Scientist (Финтех)

Intelinvest

от 60 000 ₽

Senior Data Engineer

Дром

от 250 000 ₽

Senior Data Scientist (NLP)

Крибрум • Москва

от 270 000 ₽

Необходимо сверстать приложение согласно макету Figma используя React

26 апр. 2024, в 22:22

1500 руб./за проект

Написать модуль подключения матрицы Sony к ПЛИС (Verilog)

26 апр. 2024, в 21:30

15000 руб./за проект

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

Answer 1 · 2014-01-03 08:08:48

P.S. Задача выглядит как классика для нейросетей, но 1) мои практические познания в этой области стремятся к нулю, 2) я опасаюсь, что нейросеть будет работать слишком медленно.

Answer 2 · 2014-01-03 09:47:02

Задача отклонения статьи от корпуса. Решается буквально одной формулой при наличии готовых корпусов по тематике (а они у Вас есть, как я понимаю) :

habrahabr.ru/post/204104
(вместо НКРЯ - тематическая выборка уже классифицированных статей,
вместо Хабра - конкретная изучаемая статья)

Могу предложить программный код, к сожалению на ретро-языке.

Answer 3 · 2014-01-03 13:46:10

Вам нужна классификация, а не кластеризация, это разные методы. Т. е. если будете гуглить, то ищите именно про автоматическую классификацию. В качестве готового решения можно попробовать взять что-нибудь типа Weka (www.cs.waikato.ac.nz/~ml/weka), но я не знаю, насколько хорошо оно работает с русскими текстами.

Answer 4 · 2014-01-06 20:51:08

Сергей @begemot_sun

Программист в душе.

А попробуйте мой велосипед: https://github.com/loguntsov/bayes

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2014-08-18 23:35:34

Для похожих задач я использую реализованный в gensim алгоритм LDA. Автоматически создаётся определённое количество тем и вычисляется вероятность, с которой каждый документ относится к какой-либо теме

Answer 6 · 2016-02-10 03:57:55

andyN это ни похожесть, и ни кластеризация, а это - СЕГМЕНТАЦИЯ.
Делается так: берется слово и ставится по всем необходимым типам веса.
Например, "президент":
[политика]:0.5
[закон]:0.5
[общество]: 0.4
[досуг]:0.1
[дети]:0.1
и т.д. для каждого КОРНЯ слова. Также, делается словарь синонимов, который будет линковать слова-синонимы к известным весам в таблице. Повторы КОРНЕЙ - не учитываем при суммировании веса.
После этого текст преобразуем по словарю синонимов и далее подсчитываем веса по каждой категории.
Профит!

Как организовать кластеризацию десятков миллионов текстов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт