Как подготовить текстовые данные в Keras для обучения Encoder-Decoder LSTM сети (sequence-to-sequence)?

Question

drlafa @drlafa

Как подготовить текстовые данные в Keras для обучения Encoder-Decoder LSTM сети (sequence-to-sequence)?

Допустим есть последовательность текста для входа на нейронную сеть X_train: ["Привет", "как", "дела", "?"]
И ответ на эту последовательность Y_train: ["Всё", "отлично"]

Как правильно подготовить эти данные, токенизировать, привести в матричный режим, что бы можно было скормить нейронной сети при обучении?
model.fit(X_train, Y_train)

Вопрос задан более трёх лет назад
1779 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Решения вопроса 1

3 комментария

drlafa @drlafa Автор вопроса

Архитектура сети: LSTM Encoder-Decoder
Тип текста:
Обучающая выборка X_train: ["Привет как дела?", "Ещё одна последовательность текста", "И т.д."]
Ответ на обучающую выборку Y_train: ["Дела у меня хорошо", "Ответ на последовательность", "И т.д."]

Написано более трёх лет назад
xdgadd @xdgadd

drlafa: т.е, вы делаете чат бота. У меня с чат-ботами опыта ноль, но в теории это похоже на генератор текста, только сидом является реплика.

Для начала можете погуглить LSTM text generator и LSTM based chat bots.
Про обработку текста чуть-чуть есть здесь. Откройте этот контест на кэгле, там в дискуссиях есть несколько тетрадок с готовым кодом.

Написано более трёх лет назад
drlafa @drlafa Автор вопроса

xdgadd: спасибо, буду гуглить

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+3 ещё

Простой
Можно ли и каким образом прописать команду telegram-боту обрабатывать только определенные изображения (скрины,документы), а остальные игнорировать?
- 1 подписчик
- 29 минут назад
- 6 просмотров
1

ответ
Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- 15 часов назад
- 69 просмотров
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- 18 часов назад
- 54 просмотра
1

ответ
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- 20 часов назад
- 67 просмотров
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- вчера
- 98 просмотров
2

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- вчера
- 65 просмотров
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- вчера
- 47 просмотров
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- вчера
- 69 просмотров
2

ответа
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- вчера
- 170 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- вчера
- 30 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Перенести сайт с tilda

26 апр. 2024, в 13:31

3000 руб./за проект

Консультация веб-дизайнера по созданию сайта в конструкторе

26 апр. 2024, в 13:24

1500 руб./в час

Прием WebRTC через Socket io в unity c#

26 апр. 2024, в 13:12

2000 руб./за проект

Answer 1 · 2017-08-02 03:57:32

Гуглите NLP, text preprocessing и word embeddings. Способов много и зависят они от архитектуры модели, вашей задачи, типа и качества текста.
Алсо, в керасе есть embedding layers, через них можно пропускать уже готовые вектора, e.g. word2vec, OHE.

P.S. Для большей гибкости рекомендую вам попробовать Lasagne или Tensorflow. Keras хорош, когда задачу нужно решить быстро, с минимумом кода и теории. А для экспериментов и обучения лучше использовать более близкие к "железу"(менее абстрактные) инструменты.

Answer 2 · 2017-08-02 03:21:37

1. токенизировать - возможно, nltk.tokenize ?
2. далее, вероятно, стоит удалить стоп-слова. Например, полученные от nltk.stopwords
3. (вероятно, будет толк от стемминга - например, nltk.stem)
4. далее - например, заменить слова/корни (после стеминга) каким-либо embedding-м (который поставит в соответствие каждому слову вектор) - например, word2vec. Ну или использовать собственный embedding. Например (но это явно затратный в плане памяти путь):
4.1. создать словарь, содержащий все слова обучающей выборки
4.2. поставить в соответствие каждому слову его номер. Тогда текст будет представлен одномерным массивом чисел
4.3. подменить каждое число вектором, где N-й элемент равен 1, остальные - 0. А N - собственно, наше число
4.4. добавить на вход сети embedding слой и обратный на выход

Как подготовить текстовые данные в Keras для обучения Encoder-Decoder LSTM сети (sequence-to-sequence)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт