Как обучить W2V модель в разных контекстах?

Всем доброго дня.

Возникла необходимость в создании визуализации семантической близости слов по технологии w2v в рамках нескольких сотен документов, каждый из которых включает в себе различные тематики и фильтры.
И, соответственно, визуализируем, например, облако слов только для определенного географического региона людей определенного возраста.

Самый простой вариант, который я вижу - сформировать обучающие выборки для всех возможных комбинаций, чтобы научить модель "говорить" на языке каждого из возможных вариантов. Единственная проблема здесь в том, что конечное количество вариантов от 230к до 937кк, что в принципе очень грустно.

Я в технологиях подобных обработки текста на вопрос поиска семантических связей и визуализации не погружен.. поэтому буду благодарен за любое направление, в которое стоит копать.

Сейчас для визуализации использую: https://projector.tensorflow.org/
Саму технологию w2v реализую в gensim Python
  • Вопрос задан
  • 126 просмотров
Решения вопроса 1
@Eldrich Автор вопроса
Применение алгоритмов обучения doc2vec практически полностью разрешило задачу.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы