Как запустить этот код нейросети?

Question

pcdesign @pcdesign

Как запустить этот код нейросети?

Была статья на хабре:
https://habrahabr.ru/company/dca/blog/274027/

Цитата оттуда:

Очень интересная статья, спасибо! А остальной код где-то на гитхабе?

И вам спасибо за отзыв. Остальной код ничего хитрого из себя не представляет — стемминг и замена одинаковых слов числами по словарику, поэтому я не стал его оформлять. Если интересно — могу выложить,

Почти год прошел, а воз и ныне там.

Все это напоминает мне мем с рисованием совы:

Вопрос как запустить этот код со всеми текстами, чтобы на выходе получить то что получил автор статьи?
И что-бы можно было написать новый комментарий и посмотреть какую оценку ему даст нейросеть.

update 16 nov

# -*- coding: utf-8 -*-
import string
import json
from nltk.stem.snowball import SnowballStemmer
from keras.preprocessing import sequence
from keras.utils import np_utils
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation
from keras.layers.embeddings import Embedding
from keras.layers.recurrent import LSTM


stemmer = SnowballStemmer("russian")

ratio_and_sentence = {
    '0.9945':
    ["""Можно выдыхать спокойно, новые Star Wars олдскульно отличные.
    Абрамс — крутой, как и всегда.
    Сценарий, музыка, актёры и съемка — идеально."""],
    '0.9171':
    ['Всем советую сходить на звездные войны супер фильм'],
    '0.8428':
    ["""СИЛА ПРОБУДИЛАСЬ! ДА ПРИБУДЕТ С ВАМИ СИЛА СЕГОДНЯ НА ПРЕМЬЕРЕ ЧУДА,
    КОТОРОЕ ВЫ ЖДАЛИ 10 ЛЕТ!"""],
    '0.8013':
    ['Хоть и не являюсь поклонницей #StarWars, но это исполнение чудесно!'],
    '0.7515':
    ['Кто сегодня посмотрел звездные войны? я я я :))'],
    '0.6476':
    ['Новые Звездные войны лучше первого эпизода, но хуже всех остальных'],
    '0.6473':
    ['Хан Соло умрёт. Приятного просмотра'],
    '0.6420':
    ['У всех вокруг Звездные войны. Я одна что ли не в теме?'],
    '0.6389':
    ['Идти или не идти на Звездные Войны, вот в чем вопрос '],
    '0.5947':
    ["""Звездные войны оставили двоякие впечатления. И хорошо и не очень.
    Местами не чувствовалось что это те самые… что-то чужое проскальзывало"""],
    '0.3408':
    ["""Вокруг столько разговоров, неужели только я не фанатею по Звёздным
    войнам?"""],
    '0.1187':
    ["""они вырвали мое бедное сердце из грудной клетки и разбили его на
    миллионы и миллионы осколков"""],
    '0.1056':
    ['ненавижу дноклов, проспойлерили мне звездные войны— пижамка найла'],
    '0.0939':
    ['Проснулась и поняла, что новый Star Wars разочаровал'],
    '0.0410':
    ['Я разочарован #пробуждениесилы']
}

idx = 0
words = {}
for ratio, sentence_arr in ratio_and_sentence.items():
        number_arr = []
        sentence = sentence_arr[0]
        table = str.maketrans({key: None for key in string.punctuation})
        sentence = sentence.translate(table)  # Удаляем знаки препинания

        for w in sentence.split():
            w = stemmer.stem(w)
            if w not in words:
                words[w] = idx
                idx += 1
            number_arr.append(words[w])
        sentence_arr.append(number_arr)


print(json.dumps(ratio_and_sentence, ensure_ascii=False, indent=4 * ' '))

max_features = 100000  # Максимальное кол-во слов в частотном словаре
maxlen = 100
batch_size = 32

model = Sequential()
model.add(Embedding(max_features, 128, input_length=maxlen))
model.add(LSTM(64, return_sequences=True))
model.add(LSTM(64))
model.add(Dropout(0.5))
model.add(Dense(1))
model.add(Activation('sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='adam',
              class_mode="binary")

model.fit(
    X_train, y_train,
    batch_size=batch_size,
    nb_epoch=1,
    show_accuracy=True
)

result = model.predict_proba(X)

Результат работы:

spoiler

Using TensorFlow backend.
{
"0.1187": [
"они вырвали мое бедное сердце из грудной клетки и разбили его на\n миллионы и миллионы осколков",
[
0,
1,
2,
3,
4,
5,
6,
7,
8,
9,
10,
11,
12,
8,
12,
13
]
],
"0.6420": [
"У всех вокруг Звездные войны. Я одна что ли не в теме?",
[
14,
15,
16,
17,
18,
19,
20,
21,
22,
23,
24,
25
]
],
"0.0410": [
"Я разочарован #пробуждениесилы",
[
19,
26,
27
]
],
"0.9171": [
"Всем советую сходить на звездные войны супер фильм",
[
28,
29,
30,
11,
17,
18,
31,
32
]
],
"0.8428": [
"СИЛА ПРОБУДИЛАСЬ! ДА ПРИБУДЕТ С ВАМИ СИЛА СЕГОДНЯ НА ПРЕМЬЕРЕ ЧУДА,\n КОТОРОЕ ВЫ ЖДАЛИ 10 ЛЕТ!",
[
33,
34,
35,
36,
37,
38,
33,
39,
11,
40,
41,
42,
43,
44,
45,
46
]
],
"0.9945": [
"Можно выдыхать спокойно, новые Star Wars олдскульно отличные.\n Абрамс — крутой, как и всегда.\n Сценарий, музыка, актёры и съемка — идеально.",
[
47,
48,
49,
50,
51,
52,
53,
54,
55,
56,
57,
58,
8,
59,
60,
61,
62,
8,
63,
56,
64
]
],
"0.7515": [
"Кто сегодня посмотрел звездные войны? я я я :))",
[
65,
39,
66,
17,
18,
19,
19,
19
]
],
"0.6473": [
"Хан Соло умрёт. Приятного просмотра",
[
67,
68,
69,
70,
71
]
],
"0.8013": [
"Хоть и не являюсь поклонницей #StarWars, но это исполнение чудесно!",
[
72,
8,
23,
73,
74,
75,
76,
77,
78,
79
]
],
"0.0939": [
"Проснулась и поняла, что новый Star Wars разочаровал",
[
80,
8,
81,
21,
50,
51,
52,
26
]
],
"0.1056": [
"ненавижу дноклов, проспойлерили мне звездные войны— пижамка найла",
[
82,
83,
84,
85,
17,
86,
87,
88
]
],
"0.5947": [
"Звездные войны оставили двоякие впечатления. И хорошо и не очень.\n Местами не чувствовалось что это те самые… что-то чужое проскальзывало",
[
17,
18,
89,
90,
91,
8,
92,
8,
23,
93,
94,
23,
95,
21,
77,
96,
97,
98,
99,
100
]
],
"0.3408": [
"Вокруг столько разговоров, неужели только я не фанатею по Звёздным\n войнам?",
[
16,
101,
102,
103,
104,
19,
23,
105,
106,
17,
18
]
],
"0.6389": [
"Идти или не идти на Звездные Войны, вот в чем вопрос ",
[
107,
108,
23,
107,
11,
17,
18,
109,
24,
110,
111
]
],
"0.6476": [
"Новые Звездные войны лучше первого эпизода, но хуже всех остальных",
[
50,
17,
18,
112,
113,
114,
76,
115,
15,
116
]
]
}
Traceback (most recent call last):
File "run.py", line 90, in
X_train, y_train,
NameError: name 'X_train' is not defined

Как сформировать X_train, y_train? И как сформировать X для result = model.predict_proba(X) ?

Вопрос задан более трёх лет назад
796 просмотров

3 комментария

Подписаться 4 Простой 3 комментария

Решения вопроса 1

12 комментариев

pcdesign @pcdesign Автор вопроса

Спасибо за ответ.
Я обновил свой вопрос и добавил в него код со стэммингом.
Но, не могу понять как дальше его впихнуть в код из статьи.

Написано более трёх лет назад
xdgadd @xdgadd
pcdesign, вы составляете новый словарь для каждого отдельного сэмпла из датасета, а нужен один глобальный:
import re idx = 0 words = {} for ratio, sentence in ratio_and_sentence.items(): sentence = re.sub(r'[^\W]+'), "", sentence) # Удаляем знаки препинания for w in sentence.split(): w = stemmer.stem(w) if w not in words: words[w] = idx idx += 1

После этого вам остаётся только написать функцию для эмбеддингов и подать сети на вход обработанные данные.
Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

xdgadd, спасибо. В вашем коде все понятно, но что такое "написать функцию для эмбеддингов и подать сети на вход обработанные данные". Я не очень понимаю где входные данные в этой статье:
https://habrahabr.ru/company/dca/blog/274027/
Куда эти числа втыкать?

Написано более трёх лет назад
xdgadd @xdgadd

pcdesign, эта функция должна отображать множество слов на множество вещественных чисел, т.к. эвм не умеют работать с числами. Втыкать - в модель, читайте документацию.

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

xdgadd, спасибо, я двигаюсь как улитка. Обновил код в своем вопросе и результат выполнения.
Не могу понять как сформировать X_train, y_train из тех данных, что у меня есть.

Написано более трёх лет назад

pcdesign @pcdesign Автор вопроса

xdgadd, Ура!

Вот что у меня получилось:

0.818514878027
Sentense: Можно выдыхать спокойно, новые Star Wars олдскульно отличные.Абрамс — крутой, как и всегда. Сценарий, музыка, актёры и съемка — идеально.
Net: 0.8496 | Original: 0.9945 | mse: 0.020996091420100005
----
Sentense: Всем советую сходить на звездные войны супер фильм
Net: 0.6521 | Original: 0.9171 | mse: 0.07022710247469019
----
Sentense: СИЛА ПРОБУДИЛАСЬ! ДА ПРИБУДЕТ С ВАМИ СИЛА СЕГОДНЯ НА ПРЕМЬЕРЕЧУДА, КОТОРОЕ ВЫ ЖДАЛИ 10 ЛЕТ!
Net: 0.5084 | Original: 0.8428 | mse: 0.11181628888559215
----
Sentense: Хоть и не являюсь поклонницей #StarWars,но это исполнение чудесно!
Net: 0.6073 | Original: 0.8013 | mse: 0.037626316978027215
----
Sentense: Кто сегодня посмотрел звездные войны? я я я :))
Net: 0.9997 | Original: 0.7515 | mse: 0.06161306839960497
----
Sentense: Новые Звездные войны лучше первого эпизода, но хуже всех остальных
Net: 0.7553 | Original: 0.6476 | mse: 0.011603524060728511
----
Sentense: Хан Соло умрёт. Приятного просмотра
Net: 0.8520 | Original: 0.6473 | mse: 0.041919074830498025
----
Sentense: У всех вокруг Звездные войны. Я одна что ли не в теме?
Net: 0.3137 | Original: 0.642 | mse: 0.10776774679754442
----
Sentense: Идти или не идти на Звездные Войны, вот в чем вопрос 
Net: 0.3598 | Original: 0.6389 | mse: 0.07788687273479397
----
Sentense: Звездные войны оставили двоякие впечатления. И хорошо и не очень.Местами не чувствовалось что это те самые… что-то чужое проскальзывало
Net: 0.7570 | Original: 0.5947 | mse: 0.026341183355763607
----
Sentense: Вокруг столько разговоров, неужели только я не фанатею по Звёздным войнам?
Net: 0.2960 | Original: 0.3408 | mse: 0.002010777129260961
----
Sentense: они вырвали мое бедное сердце из грудной клетки и разбили его на миллионы и миллионы осколков
Net: 0.4511 | Original: 0.1187 | mse: 0.11047035887966121
----
Sentense: ненавижу дноклов, проспойлерили мне звездные войны— пижамка найла
Net: 0.4842 | Original: 0.1056 | mse: 0.14336165619139976
----
Sentense: Проснулась и поняла, что новый Star Wars разочаровал
Net: 0.5266 | Original: 0.0939 | mse: 0.1871920009783976
----
Sentense: Я разочарован #пробуждениесилы
Net: 0.4147 | Original: 0.041 | mse: 0.1396483722604013

Почему отличаются значения в статье на хабре, с вашими значениями и с моими значениями?
И я отправил вам личное сообщение на хабре.

Написано более трёх лет назад

xdgadd @xdgadd

pcdesign, я не являюсь автором данной статьи. Значения не совпадают из-за разного сида при инициализации весов и отличающейся от оригинала обработки данных.
Вы дополнительно можете поиграться с разными оптимизаторами, шагом градиентого спуска, моментумом и изменить препроцессинг текста, чтобы получить другие результаты.

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

xdgadd, спасибо. Дошло ли мое личное сообщение на хабре?

И, конечно, твиттер и звездные войны мне нужны были для примера, чтобы хотя бы понять как это работает.
Если positive.csv и negative.csv, я составлю вручную для анализов нужных мне текстов, то какую настойку мне посоветуете покрутить в первую очередь?

Написано более трёх лет назад
xdgadd @xdgadd

pcdesign, дошло.

Для нормального обучения рекуррентных сеток нужны буквально тонны материала, пара миллионов предложений, а не 200.000 тысяч. Собственно, автор статьи упоминает, что обученная на датасете из 200к примеров нейронка сравнима по точности с логистической регрессией. К слову, задача называется Emotion Recognition/Detection.
На счёт параметров, погуглите word embeddings и используйте другие, т.к. на данный момент именно они являются бутылочным горлышком. Про оптимизаторы есть крутая статья на distill.pub.

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

xdgadd, Предложений то у меня миллиарды. С кол-вом проблем нет. У меня проблема разбить их на негативные и позитивные :)

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

И хорошо с твитетром - одна мысль в одном предложении, а как быть, когда мысль выражена в одном или нескольких абзацах текста?

Написано более трёх лет назад
xdgadd @xdgadd

pcdesign, LSTM(в Keras, но принцип одинаковый) принимают на вход массивы типа (batch_size, timestamps, data), где timestamps - временные отрезки, кадры видео или, в вашем случае, предложения.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- 14 часов назад
- 67 просмотров
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- 17 часов назад
- 51 просмотр
1

ответ
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- 19 часов назад
- 66 просмотров
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- 23 часа назад
- 97 просмотров
2

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- вчера
- 63 просмотра
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- вчера
- 47 просмотров
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- вчера
- 69 просмотров
2

ответа
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- вчера
- 170 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- вчера
- 30 просмотров
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- вчера
- 40 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

TeamLead Python

AGIMA • Москва

До 350 000 ₽

Исправление багов в вебвью

26 апр. 2024, в 11:47

15000 руб./за проект

Требуется подсказать как скомпилировать приложение на C++ Qt

26 апр. 2024, в 11:30

1000 руб./за проект

Настроить ИИ модель IPadapter

26 апр. 2024, в 11:17

2000 руб./за проект

Статья написана от лица некоей компании. Не приходило в голову, что они сами себе комментарии могут писать?
xtala zen, да, понятно, что в наше время нельзя никому доверять (с)
xtala zen, там достаточно инфы, ТС пусть на freelansim за 500-1000 наймет, ему распишут

Answer 1 · 2017-11-11 21:21:33

>Стэмминг
Воспользуйтесь SnowballStemmer'ом из библиотеки nltk и выделите корень для каждого слова из вашего датасета, добавляя результат в set.
>замена одинаковых слов числами по словарику
Создайте словарь, где каждому слову из множества соответствует свое число, что-то вроде:

words = {w: i for i, w in enumerate(set_of_stemmed_words)}

Далее вам нужно представить каждое предложение из датасета в виде списка токенов, в данном случае - с помощью словаря words. После этого вы готовы обучать свою модель, ура!

Впрочем, я хочу отметить, что такое представление слов (гуглите word embeddings) является не самой лучшей идеей, потому что сеть может сделать "ошибочные выводы" о важности или близости слов, руководствуясь величиной их токена. Гораздо эффективнее использовать вектора, полученные с помощью word2vec'а или TF-IDF etc.

UPD.
На коленке сделал для вас тетрадку. Подтяните для начала теорию в области машинного обучения в общем, а потом уже беритесь за нейросети. Начать можно вот с этой замечательной статьи.

Как запустить этот код нейросети?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт