Как перед классификацией текста отделить документы которые нужно классифицировать от остальных?

Question

MIsternik @MIsternik

Как перед классификацией текста отделить документы которые нужно классифицировать от остальных?

Есть определенные темы, которые классификатор обучен разделять, а есть темы о которых он ничего не знает. Если классификатору дать незнакомые ему темы, он найдет какой-то ответ, но будет не верным.

Предполагаю что можно строить общий вектор для каждой из известных тем и перед классификацией сравнивать вектор документа с векторами тем для поиска отклонения, где какое-то значение можно считать пороговым.

Но так как количество слов высоко и большие тексты могут содержать много разных слов, сомневаюсь в этом варианте.
Есть ли предложения лучше?

Вопрос задан более трёх лет назад
398 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

Простой
Как найти закономерность каталога и названия файла?
- 1 подписчик
- 9 часов назад
- 77 просмотров
2

ответа
Алгоритмы

Простой
Алгоритм поиска маршрута?
- 1 подписчик
- вчера
- 87 просмотров
3

ответа
Машинное обучение

+2 ещё

Простой
Существует ли нейросеть, которая по фотографии генерирует профессию человека?
- 1 подписчик
- вчера
- 46 просмотров
0

ответов
Машинное обучение

+2 ещё

Средний
Как поместить большую модель на нескольких видеокартах?
- 1 подписчик
- 02 мая
- 54 просмотра
1

ответ
C#

+1 ещё

Простой
Какой самый быстрый способ найти позицию последовательности 0-bit заданной длины в int[]?
- 1 подписчик
- 01 мая
- 119 просмотров
2

ответа
Алгоритмы

+2 ещё

Средний
Как правильно реализовать структуру данных для упаковки многомерного(кол-во измерений не известно сразу)массива в JSON / любой другой формат данных?
- 2 подписчика
- 30 апр.
- 277 просмотров
1

ответ
JavaScript

+1 ещё

Простой
В чем заключается суть бинарного поиска неотсортированного массива?
- 1 подписчик
- 30 апр.
- 2003 просмотра
1

ответ
Алгоритмы

+1 ещё

Простой
Как крупные веб сервисы хранят массивы данных?
- 1 подписчик
- 30 апр.
- 95 просмотров
1

ответ
C#

+2 ещё

Средний
Как на udp сервере подсчитать one-way latency и верменной offset клиента?
- 2 подписчика
- 28 апр.
- 363 просмотра
2

ответа
Машинное обучение

+2 ещё

Средний
Как обучать transformers модели на нескольких gpu?
- 2 подписчика
- 27 апр.
- 170 просмотров
0

ответов
Показать ещё Загружается…

С developer (алгоритмист)

СберТех • Москва

от 350 000 ₽

Бэкенд программист

Grade Factor • Москва

от 80 000 ₽

С++ developer

TQB - хай-тек рекрутмент по-хардкору • Москва

от 300 000 ₽

Создать КРМП mobile проект на андроид

05 мая 2024, в 00:34

100 руб./в час

Исследовать рынок, выстроить маркетинговую стратегию

04 мая 2024, в 23:31

1000 руб./в час

Дизайнер в IT компанию

04 мая 2024, в 23:17

1200 руб./в час

Answer 1 · 2015-08-08 12:38:22

ну если хотите уберите не существенный текст -> соберите со всех документов общие наиболее употребимые слова, после чего предварительно удаляйте их из всех текстов, оставляя тем самым только наиболее специфичный текст.

Как перед классификацией текста отделить документы которые нужно классифицировать от остальных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт