Как понять какие параметры менять чтобы добиться сходимости сети?

Question

Александр Амплеев @Ampleev

Нейронные сети

Как понять какие параметры менять чтобы добиться сходимости сети?

Вот делаю по примеру из этих 2 статей: https://habr.com/ru/post/312450/ https://habr.com/ru/post/313216/

Коротко контекст:

Ну ок, попробую:

вот есть нейронка

пытаюсь ее обучить операции XOR.

Для обучения ее использую метод обратного распределения.
Если подавать на вход одну и ту же комбинацию(01), то есть сходимость (т.е. ошибка уменьшается как и должно быть).

Но если начинать подавать сетами 01, 00, 10, 11, то сходимость сразу пропадает.

Что пробывал: игрался с количеством итераций, менял скорость обучения, менял момент, добавлял нейроны смещения.

Пока ничего из этого не помогло, вот и решил здесь написать вопрос.

Не понимаю как добиться сходимости. Нейроны все в точности как в статьях. Пробывал менять скорость обучения, момент. Не помогает. https://habr.com/ru/post/313216/#comment_20654001 вот здесь задал вопрос автору, но не уверен, что получу от него ответ, поэтому дублирую здесь. Заранее благодарен за ответ.

Вопрос задан более трёх лет назад
75 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

origami1024 @origami1024

Ты эти две статьи сам не читал нормально, чего ты ссылки на них тут приводишь?
Сформулируй конкретный вопрос.

Написано более трёх лет назад
Александр Амплеев @Ampleev Автор вопроса

origami1024, А как ты понял, что я их сам не читал? Мой вопрос сформулирован здесь: https://habr.com/ru/post/313216/#comment_20654001

Написано более трёх лет назад
origami1024 @origami1024

Ты делаешь вопрос, по сути относительно простой, но чтобы его кому-то понять в таком виде как ты его записал, нужно прочитать 20 станиц контекста со внешних источников (прочитать их за тебя между прочим).
Сформулируй чтобы контекст весь был умещен в сам вопрос, чтобы кто-то ответил

Написано более трёх лет назад
Александр Амплеев @Ampleev Автор вопроса

Ну ок, попробую:

вот есть нейронка

пытаюсь ее обучить операции XOR.

Для обучения ее использую метод обратного распределения.
Если подавать на вход одну и ту же комбинацию(01), то есть сходимость (т.е. ошибка уменьшается как и должно быть).

Но если начинать подавать сетами 01, 00, 10, 11, то сходимость сразу пропадает.

Что пробывал: игрался с количеством итераций, менял скорость обучения, менял момент, добавлял нейроны смещения.

Пока ничего из этого не помогло, вот и решил здесь написать вопрос.

Написано более трёх лет назад
origami1024 @origami1024

Александр Амплеев,
У тебя по одному биас-нейрону на входном и первом слоях есть или ты 2мя нейронами XOR пытаешься смоделировать?

Потому что на приведенной тобой схеме биас-нейронов нет. XOR на 2х нейронах не может обучиться физически.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Александр Амплеев @Ampleev Автор вопроса

Кажется, нашел в чем может быть проблема. Он в примере ошибку считает не по всему сету, а только по одной итерации - скорее всего это и ввело в заблуждение.

Написано более трёх лет назад
Александр Амплеев @Ampleev Автор вопроса

Нет, похоже не это.. Или это, окончательно запутался.

Вот у нас есть сет с 4 возможными комбинациями на входе: 01, 11, 10, 00.
Мы подаем на вход 01, высчитываем ошибку, потом что мы делаем? Сразу обновляем веса? Или сначала подаем оставшиеся комбинации (3 штуки) потом 4 значения ошибки используем для подсчета одного значения нормализованного? Или как?

Написано более трёх лет назад
ivodopyanov @ivodopyanov

Александр Амплеев, в идеальном мире обучение происходит сразу на всем датасете - прогнали примеры, усреднили градиенты, изменили веса, повторили.
В реальном мире датасеты обычно слишком большие (или иногда доступны только в потоковом режиме), чтобы так можно было бы делать, поэтому "истинные" градиенты аппроксимируют градиентами мини-батча - берут небольшое количество примеров, делают шаг спуска, берут следующий набор примеров, делают еще шаг. При этом градиенты мини-батча получаются более зашумленными, но дистанция все вернет.

Написано более трёх лет назад
Александр Амплеев @Ampleev Автор вопроса

Ну вот в этом кокретном примере как правильно? есть полный сет - это 00, 01, 10, 11. Т.е. всего 4 возможных комбинации на 2 входных нейронах.

Вот даем мы 00 на входы, считаем ошибку, нужно ли сразу обновлять веса? Или нужно дать последовательно еще с 3 вариантами на входе, посчитать еще 3 ошибки, нормализовать и только после этого обновлять веса?

Почему мне кажется это странным - это потому, что в формулах используются значения на выходах нейронов. Но на выходах остаются значения с последней четвертой комбинации и, кажется, здесь нужно как-то использовать толи все 4 значения и также их как-то нормализовывать, но с другой стороны в теории пишут что сразу надо обновлять все веса после прогона одного. В итоге не понятно что делать надо.

Написано более трёх лет назад
ivodopyanov @ivodopyanov

Александр Амплеев, И так, и так будет работать, но чем больше примеров в батче (пачке примеров для одного шага обучения) - тем точнее.
В формулах обычно не акцентируется, что обучение идет батчами, кроме тех случаев, где это важно.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 2 часа назад
- 68 просмотров
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- вчера
- 47 просмотров
0

ответов
Нейронные сети

Простой
Что такое A2A_II_EXCH?
- 1 подписчик
- 21 апр.
- 19 просмотров
0

ответов
Нейронные сети

Простой
Какие нейросети имеют доступ к страницам сайте в интернете?
- 1 подписчик
- 20 апр.
- 60 просмотров
1

ответ
Аудио

+2 ещё

Простой
Какой программой можно сделать из текста рэп?
- 1 подписчик
- 20 апр.
- 691 просмотр
2

ответа
Нейронные сети

+1 ещё

Средний
Существует ли аналог GPTs?
- 3 подписчика
- 16 апр.
- 1078 просмотров
3

ответа
Нейронные сети

+1 ещё

Простой
Какие сейчас текстовые нейросети можно локально поставить?
- 1 подписчик
- 16 апр.
- 93 просмотра
1

ответ
Машинное обучение

+2 ещё

Простой
Создание нейронной сети для определения сортов яблок. Как осуществить?
- 1 подписчик
- 11 апр.
- 99 просмотров
0

ответов
Python

+2 ещё

Средний
Как преобразовать эмбеддинг текста в понятный сверточным слоям?
- 2 подписчика
- 05 апр.
- 75 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Как работает адаптивный бустинг для регрессии?
- 1 подписчик
- 05 апр.
- 24 просмотра
0

ответов
Показать ещё Загружается…

Senior ML Engineer (Computer Vision)

Gradient

от 450 000 ₽

Агент поддержки

PulseGPT

от 25 000 до 35 000 ₽

Computer vision developer

TQB - хай-тек рекрутмент по-хардкору • Москва

от 300 000 ₽

Протестировать виджет на личном сайте

26 апр. 2024, в 18:00

500 руб./за проект

Установить систему Linux

26 апр. 2024, в 17:24

2000 руб./в час

Перенести базу знаний в формат lms (На подобии Obsidium)

26 апр. 2024, в 17:02

35000 руб./за проект

Ты эти две статьи сам не читал нормально, чего ты ссылки на них тут приводишь?
Сформулируй конкретный вопрос.
origami1024, А как ты понял, что я их сам не читал? Мой вопрос сформулирован здесь: https://habr.com/ru/post/313216/#comment_20654001
Ты делаешь вопрос, по сути относительно простой, но чтобы его кому-то понять в таком виде как ты его записал, нужно прочитать 20 станиц контекста со внешних источников (прочитать их за тебя между прочим).
Сформулируй чтобы контекст весь был умещен в сам вопрос, чтобы кто-то ответил
Ну ок, попробую:

вот есть нейронка

пытаюсь ее обучить операции XOR.

Для обучения ее использую метод обратного распределения.
Если подавать на вход одну и ту же комбинацию(01), то есть сходимость (т.е. ошибка уменьшается как и должно быть).

Но если начинать подавать сетами 01, 00, 10, 11, то сходимость сразу пропадает.

Что пробывал: игрался с количеством итераций, менял скорость обучения, менял момент, добавлял нейроны смещения.

Пока ничего из этого не помогло, вот и решил здесь написать вопрос.
Александр Амплеев,
У тебя по одному биас-нейрону на входном и первом слоях есть или ты 2мя нейронами XOR пытаешься смоделировать?

Потому что на приведенной тобой схеме биас-нейронов нет. XOR на 2х нейронах не может обучиться физически.

Answer 1 · 2019-09-23 09:21:28

Может быть, ошибка все-таки где-то в коде?
То, что модель сходится на одном и том же примере, ни о чем не говорит - она просто подстраивает bias на выходном нейроне. Входные данные не нужны, если на выходе всегда одно и то же.
Попробуйте инициализировать веса какими-нибудь известными значениями, самостоятельно посчитать выход/градиенты аналитически и сравнить с тем, что происходит при моделировании.

Как понять какие параметры менять чтобы добиться сходимости сети?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт