@MIsternik

Как перед классификацией текста отделить документы которые нужно классифицировать от остальных?

Есть определенные темы, которые классификатор обучен разделять, а есть темы о которых он ничего не знает. Если классификатору дать незнакомые ему темы, он найдет какой-то ответ, но будет не верным.

Предполагаю что можно строить общий вектор для каждой из известных тем и перед классификацией сравнивать вектор документа с векторами тем для поиска отклонения, где какое-то значение можно считать пороговым.

Но так как количество слов высоко и большие тексты могут содержать много разных слов, сомневаюсь в этом варианте.
Есть ли предложения лучше?
  • Вопрос задан
  • 398 просмотров
Пригласить эксперта
Ответы на вопрос 1
angrySCV
@angrySCV
machine learning, programming, startuping
ну если хотите уберите не существенный текст -> соберите со всех документов общие наиболее употребимые слова, после чего предварительно удаляйте их из всех текстов, оставляя тем самым только наиболее специфичный текст.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы