Не понимаю как связать word2vec с Алгоритмом минимального покрывающего дерева (MST)?

Question

nasdi @nasdi

Не понимаю как связать word2vec с Алгоритмом минимального покрывающего дерева (MST)?

Собрал датасет из 1.3 млн документов. Прогнал через алгоритм word2vec. При помощи MST хочу получить кластеры тем этих документов.

import pandas as pd
import gensim.models.word2vec as w2v
import networkx as nx
import matplotlib.pyplot as plt

df = pd.read_excel('history_of_groups_by_user.xlsx', header=None, encoding='windows-1251')
df = df.dropna(subset=[0])
df = pd.DataFrame([item for item in df[0].values if not isinstance(item, int)])

text = []
for i in df[0]:
    text.append(i.lower().split())

model = w2v.Word2Vec(
    sentences=text,
    seed=42,
    size=50,
    min_count=5,
    window=4,
    sample=1e-3)

Вопрос задан более трёх лет назад
184 просмотра

Комментировать

Подписаться 2 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 1

2 комментария

nasdi @nasdi Автор вопроса
Попробовал запустить на довольно маленьком наборе данных(53 мб). После примерно 8 часов работы
так и не выполнил эту срочку
df['vector'] = df['text'].apply(lambda t: build_matrix(t))

Хотя функция работает
Написано более трёх лет назад
Данил @DanilBaibak

Немного был занят, а тут попалась статья и напомнила о вопросе - Using word2vec to Analyze News Headlines and Predi.... В статье есть функция - document_vector , которая реализовывает похожий функционал.

Там есть ссылка на код, надеюсь будет полезно.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+3 ещё

Простой
Нужна помощь/совет — Telegram бот?
- 1 подписчик
- час назад
- 38 просмотров
0

ответов
Python

+1 ещё

Средний
Как победить варнинг There is no current event loop в юнитестах?
- 1 подписчик
- 3 часа назад
- 22 просмотра
0

ответов
Python

+1 ещё

Простой
Как работают рекурсии?
- 1 подписчик
- 3 часа назад
- 56 просмотров
3

ответа
Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 5 часов назад
- 119 просмотров
1

ответ
Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- 23 часа назад
- 76 просмотров
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- вчера
- 59 просмотров
1

ответ
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- вчера
- 77 просмотров
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- вчера
- 104 просмотра
3

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- вчера
- 72 просмотра
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- вчера
- 47 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

Доработать и интегрировать модуль на WordPress

26 апр. 2024, в 19:53

5000 руб./за проект

Разработать Telegram mini app

15 апр. 2024, в 22:14

30000 руб./за проект

Answer 1 · 2019-07-22 12:15:53

Если в общем - Word2Vec перевидет каждое слово в вектор, в Вашем случае, размерности 50. Дальше, Вам надо построить вектор всего документа, например, взяв среднее всех слов (векторов).

Псевдокод:

embedding_matrix = []

def build_matrix(text):
    for token in text:
         embedding_matrix.append(model.wv[token] )

    return np.mean(embedding_matrix, axis=0)

df['vector'] = df['text'].apply(lambda t: build_matrix(t))

В итоге, у Вас каждый документ представлен вектором размерностью 50, который можно подать на вход любому алгоритму.

Не понимаю как связать word2vec с Алгоритмом минимального покрывающего дерева (MST)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт