Алгоритм для кластеризации документов из нескольких частей?

Привет!
Мне нужно кластеризировать документы, состоящие из нескольких частей, контента, заголовка, городов и т.д.
Примерная модель документа: Doc(content: String, Title: String, geo: array[String], persons: array[String], ...)
Текстовые поля будут представлены в виде векторов.
Желательно что бы каждой части можно было указать вес.
Какой алгоритм кластеризации можно использовать? есть ли реализации подобных алгоритмов на Python?
  • Вопрос задан
  • 435 просмотров
Пригласить эксперта
Ответы на вопрос 1
2ord
@2ord
продвинутый чайник
fastText
... Facebook объявила об открытии исходных текстов библиотеки fastText, предоставляющей средства для классификации текста с использованием методов машинного обучения
(заметим: классификации, а не кластеризации)
Классификация - это кода классы заранее известны и к ним нужно отнести все классифицируемые элементы.
Каждый документ содержит взаимосвязанные по смыслу данные.

Под понятием "вектора" в машинном обучении прежде всего нужно понимать набор каких признаков представляют те или иные данные.

Сперва нужно произвести нормализацию и фильтрацию данных. А текст - это сырые данные, негодные для машинного обучения, ибо машина - не человек, которые понимает значения слов (опять же, обычно не более 2-х разных языков).
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы