@kosmo_tony

Как сделать бинарную классификацию текстов на python?

Есть набор научных статей по различным темам. Нужно классифицировать по двум классам: математические и не математические. Я не нашёл, но может уже есть готовое решение данной или похожей задачи?
  • Вопрос задан
  • 1895 просмотров
Пригласить эксперта
Ответы на вопрос 2
@dmshar
Вообще-тот материалов в сети не просто много, а необозримо много. На любой цвет и вкус, с учетом любого инструмента, которым вы владеете. Практически любая книга по машинному обучения или по Нейросетям сегодня обязательно содержит раздел, посвященную работу с текстами и классификация - самая простая задача, которая при 'том обсуждается.
Вот тут почти элементарное введение в тему, что как и почему делать:
https://tproger.ru/translations/text-classificatio...
Вот тут разбивают на 20 тем, но вы можете и сократить до нужных вам двух:
scikit-learn.org/stable/tutorial/text_analytics/wo...
Вот тут описана "Готовое решение" с помощью другой библиотеки
www.nltk.org
Но главная проблема не в источниках. Главный вопрос - у вас есть достаточно объемный и при этом размеченный набор данных для обучения любого алгоритма? Если есть - можно и источники поизучать, а если нет - то подумайте, как найти такой набор.
Ответ написан
Комментировать
DanilBaibak
@DanilBaibak
Machine Learning engineer
Поддерживаю dmshar в том что в сети много примеров решения подобной задачи. Хочу только добавить, что если у Вас нет размеченных данных, но Вы уверены, что в текстах только 2 темы, существуют так же методы классификации - неплохой пример.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы