Нейросеть «воздерживается». Как лечить?

Question

StrangeAttractor @StrangeAttractor

Нейросеть «воздерживается». Как лечить?

— Какова вероятность того, что выйдя из дома, вы встретите во дворе настоящего динозавра?
— 50%: или встречу, или не встречу.

Сделал нейросеть в Encog 3 Workbench. Архитектура — обычная «Feedforward neural network». 89 входов, 60 нейронов в первом скрытом слое, 31 во втором скрытом слое (количество нейронов в скрытых слоях выбрано простым усреднением, может надо как по другому — буду благодарен за совет), 2 выхода. Функции активации пробовал как ActivationTANH (от -1 до 1) так и ActivationSigmoid (от 0 до 1). Учу методом Resilient Propagation.

Правильные ответы (желаемые уровни для двух выходных нейронов) в основной своей массе кучкуются около двух уровней.

В результате эта хитрая зараза научается выдавать примерно среднее между двумя наиболее вероятными (что есть факт, не зависимый от входных данных) уровнями вместо того, чтобы выбирать правильный ответ, находящийся ближе к одному или к другому (после этого прогресса в обучении не наблюдается).

Пробовал упрощать задачу с попытки вычислить значение характеристики до логического отнесения к той или иной группе, округлив все ответы в обучающих данных до 0 или 1 — всё равно выдаёт ответы около 0.5 в таком случае.

Что я делаю не так? Означает ли это, что на основании выбранных входных данных в принципе невозможно автоматически судить о значении искомых или просто это нужно делать иначе?

По большому счёту мне не нужна безупречная точность каждого ответа. Пусть лучше в десяти или даже двадцати разах из ста сеть выдаст глубоко ошибочные ответы, которые потом обработаются другим способом, зато в оставшихся случаях нужно чтобы она уверенно определила хотя бы вероятность принадлежности к кластеру значений.

Заранее спасибо.

Вопрос задан более трёх лет назад
5454 просмотра

Комментировать

Подписаться 9 Оценить Комментировать

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

Комментировать

3 комментария

StrangeAttractor @StrangeAttractor Автор вопроса

Я брал один скрытый слой, добавлял нейрон, связывая его со всеми нейронами входа и всеми нейронами выхода и обучал. Если не мог достигнуть искомой ошибки — добавлял в этот слой еще один, также полностью связывая. Определял некое максимальное число нейронов в слое — при достижении этого количества нейронов в скрытом слое и большой ошибке добавлял еще один слой и всё по-новой. Как только приемлимая ошибка достигалась, я прореживал сеть, удаляя связи, изменение весовых коэффициентов которых мало влияло на результат.
вручную??

Написано более трёх лет назад
_ _ @AMar4enko

Нет, конечно :)
Я это реализовал в рамках своей дипломной работы, у меня это делал самописный софт. Поэтому я и написал, что не в курсе функционала используемого пакета — описал всего лишь свой подход.

Написано более трёх лет назад
StrangeAttractor @StrangeAttractor Автор вопроса

Ясно. Workbench такого вроде не умеет, но это лишь GUI-оболочка к Encog — набору библиотек для C# и Java, так что вполне можно автоматизировать средствами этих языков.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- 11 часов назад
- 42 просмотра
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- вчера
- 36 просмотров
0

ответов
Google

+1 ещё

Простой
Какому ИИ сервису гугла можно скормить документ и потом задавать вопросы по нему?
- 2 подписчика
- 23 апр.
- 133 просмотра
1

ответ
Нейронные сети

Простой
Что такое A2A_II_EXCH?
- 1 подписчик
- 21 апр.
- 19 просмотров
0

ответов
Искусственный интеллект

Простой
Как происходит пошаговое обучение языковых моделей азам?
- 1 подписчик
- 20 апр.
- 47 просмотров
2

ответа
Нейронные сети

Простой
Какие нейросети имеют доступ к страницам сайте в интернете?
- 1 подписчик
- 20 апр.
- 60 просмотров
1

ответ
Аудио

+2 ещё

Простой
Какой программой можно сделать из текста рэп?
- 1 подписчик
- 20 апр.
- 683 просмотра
2

ответа
Искусственный интеллект

+2 ещё

Средний
Можно ли и как создать ИИ в игре roblox?
- 1 подписчик
- 19 апр.
- 53 просмотра
1

ответ
IT-образование

+3 ещё

Простой
Какая есть литература полезная и понятная по Data Science на русском?
- 3 подписчика
- 17 апр.
- 1056 просмотров
1

ответ
Нейронные сети

+1 ещё

Средний
Существует ли аналог GPTs?
- 3 подписчика
- 16 апр.
- 1075 просмотров
3

ответа
Показать ещё Загружается…

Data Scientist (Финтех)

Intelinvest

от 60 000 ₽

Senior ML Engineer (Computer Vision)

Gradient

от 450 000 ₽

Python/Django-разработчик (mobile+AI)

4Taps AI • Тольятти

от 150 000 до 250 000 ₽

Обучение моделированию процесса дуговой наплавки в CAE

25 апр. 2024, в 18:14

1500 руб./в час

Реализовать форму регистрации и авторизации на React

25 апр. 2024, в 18:13

1000 руб./за проект

Настроить и запустить email кампанию на Gmail

25 апр. 2024, в 17:54

30000 руб./за проект

Answer 1 · 2013-01-10 11:15:28

Хорошо бы проверить, что при тренировке ошибок не сделали (не перепутаны ли входные данные, нормализованы ли они и т.д.). Например, если данные не нормализованы, и какая-нибудь малозначительная переменная принимает большие значения, то получится, что нейросеть будет в основном эту переменную учитывать, и результат будет зависеть почти только от нее (а т.к. на самом деле результат от нее не зависит, то для уменьшения ошибки сеть может «скатиться» к 0.5 или какому-то другому значению).

Дальше, вы пишете, что «округляли значения до 0 или 1» — ваши «кластеры значений» — это < 0.5 и > 0.5? «Кучкуются около 2 уровней» — около 0 и 1, или около каких-то других? Какой смысл имеют выходные переменные, там точно уровень имеет значение? ну там x1=0.1, x2=0.3, x3=1 и можно ли сказать, что в каком-то смысле x3 > x2 > x1, и что «еще немного, и x2 стал бы x1»? Если на самом деле там не непрерывная входная переменная, то можно попробовать заменить ее на несколько логических («вероятности принадлежности к кластерам значений») — в тренировочных данных они 0 или 1 будут, т.к. эти для тестовых данных известно, принадлежит значение к кластеру или нет (это то же самое, что вы сделали, или нет?).

Параметры сети (количество нейронов, функции активации) можно подбирать так, чтоб уменьшалась ошибка кросс-валидации (проверив в конце на неиспользованном наборе данных, что оверфиттинга по параметрам сети не случилось), но это уже детали.

Answer 2 · 2013-01-10 11:40:27

Fyodor @Richard_Ferlow

Веб-программист

Как бы в это погрузиться, чтобы это не казалось записками на непонятном языке непонятно о чем?

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2013-01-10 01:29:53

Я не в курсе функционала Encog 3 Workbench, но вот пара трюков, которые в свое время использовал я:

для сигмоиды я входные и выходные данные нормализовал в диапазон, в котором сигмоида имеет отличную от нуля производную (например 0.1 — 0.9 для выходных и соответствующие им для входных).
у меня структура сети не была строго детерминированной изначально. Я брал один скрытый слой, добавлял нейрон, связывая его со всеми нейронами входа и всеми нейронами выхода и обучал. Если не мог достигнуть искомой ошибки — добавлял в этот слой еще один, также полностью связывая. Определял некое максимальное число нейронов в слое — при достижении этого количества нейронов в скрытом слое и большой ошибке добавлял еще один слой и всё по-новой. Как только приемлимая ошибка достигалась, я прореживал сеть, удаляя связи, изменение весовых коэффициентов которых мало влияло на результат.

Нейросеть «воздерживается». Как лечить?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт