Что это за метод оптимизации при обратном распространении ошибки?

Question

Алексей Полоз @kosyachniy

Python BackEnd, Web FullStack

Что это за метод оптимизации при обратном распространении ошибки?

Есть код обратного распространения ошибки (Ссылка)

Вырезка:

def backpropagation(y):
        w = np.zeros((x.shape[1], 1))
        iteration = 0

        while True: # for iteration in range(1, 51):
            iteration += 1
            error_max = 0

            for i in range(x.shape[0]):
                error = y[i] - x[i].dot(w).sum()

                error_max = max(error, error_max)
                # print('Error', error_max, error)

                for j in range(x.shape[1]):
                    delta = x[i][j] * error
                    w[j] += delta
                    # print('Δw{} = {}'.format(j, delta))

            print('№{}: {}'.format(iteration, error_max)) #

            if error_max < fault:
                break

        return w

Используемый метод:

error = y - x.dot(weights).sum()
weights += x * error

Что это за метод оптимизации? Это градиентный спуск или нет?

Насколько я понимаю градиентный спуск это:
Ссылка
Вырезка:

def backpropagation(y):
        w = np.zeros((x.shape[1], 1))
        iteration = 0

        def gradient(f, x):
            return derivative(f, x, 1e-6)

        while True: # for iteration in range(1, 51):
            iteration += 1
            error_max = 0

            for i in range(x.shape[0]):
                f = lambda o: y[i] - x[i].dot(o).sum()

                error = f(w)
                # print(error)
                error_max = max(error, error_max)

                # print('Error', error_max, error)

                antigrad = -1 * gradient(f, w)

                # print('-∇ = {}'.format(antigrad)) #

                n = 2
                delta = error * antigrad * n

                for j in range(x.shape[1]):
                    w[j] += delta * x[i][j]
                    # print('Δw{} = {}'.format(j, delta))

            print('№{}: {}'.format(iteration, error_max)) #

            if error_max < fault:
                break

        return w

Метод:

error = y - x.dot(weights).sum()
delta = error * antigradient * n
weights += delta * x

Где n - шаг

Но! Это не работает! В чём моя ошибка? И что это за метод?

Вопрос задан более трёх лет назад
158 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

5 комментариев

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

IT-образование

+3 ещё

Простой
Какая есть литература полезная и понятная по Data Science на русском?
- 3 подписчика
- вчера
- 947 просмотров
1

ответ
Нейронные сети

+1 ещё

Средний
Существует ли аналог GPTs?
- 3 подписчика
- 16 апр.
- 1027 просмотров
3

ответа
Нейронные сети

+1 ещё

Простой
Какие сейчас текстовые нейросети можно локально поставить?
- 1 подписчик
- 16 апр.
- 66 просмотров
1

ответ
Машинное обучение

+2 ещё

Простой
Создание нейронной сети для определения сортов яблок. Как осуществить?
- 1 подписчик
- 11 апр.
- 82 просмотра
0

ответов
Python

+2 ещё

Средний
Как преобразовать эмбеддинг текста в понятный сверточным слоям?
- 2 подписчика
- 05 апр.
- 72 просмотра
1

ответ
Машинное обучение

+1 ещё

Средний
Как работает адаптивный бустинг для регрессии?
- 1 подписчик
- 05 апр.
- 24 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Чем отличается стекинг от блендинга?
- 1 подписчик
- 02 апр.
- 48 просмотров
1

ответ
Data science

Простой
Стоит ли уходить в Data Science?
- 1 подписчик
- 31 мар.
- 91 просмотр
3

ответа
Машинное обучение

+2 ещё

Простой
Что технически(какие it решения, технологический стек) нужны для создания ии ,который сможет на основе жалоб ставить диагноз?
- 1 подписчик
- 21 мар.
- 112 просмотров
3

ответа
Машинное обучение

Средний
Какой метод машинного обучения применить и как?
- 1 подписчик
- 19 мар.
- 58 просмотров
1

ответ
Показать ещё Загружается…

Senior ML Engineer (Computer Vision)

Gradient

от 450 000 ₽

Python/Django-разработчик (mobile+AI)

4Taps AI • Тольятти

от 150 000 до 250 000 ₽

Системный аналитик. Бесплатное обучение с 0.

Aston • Санкт-Петербург

от 70 000 до 80 000 ₽

Скрыть / убрать лишние поля в форме заказа

19 апр. 2024, в 07:30

1500 руб./в час

Взлом автомобильной программы

19 апр. 2024, в 05:01

999999 руб./за проект

Доработать телеграм бота

19 апр. 2024, в 03:52

1000 руб./за проект

Answer 1 · 2019-02-27 13:17:04

Разница, как я понимаю, в том, что во втором случае есть еще функция активации (f) и что-то типа learning rate (n). Поэтому они участвуют в вычислении delta.

Что это за метод оптимизации при обратном распространении ошибки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт