Задать вопрос

Олег Петров @Smeilz1

За любое развитие

python

Как сохраняется стратегия в reinforcement learning?

Разбираю код программы https://github.com/Smeilz/Tic-Tac-Toe-Reinforcemen...

Что я понял?
В программе есть 2 модуля.
Qlearning.py - отвечает за обучение агентов и сохранение результата обучения
Game.py - описывает процесс игры

Вопрос как именно Qlearning делает сохранение стратегии?
1) В Train.py есть строка
game.saveStates()

2) Она ссылается на функцию в модуле game.py

def saveStates(self):
        self.player1.saveQtable("player1states")
        self.player2.saveQtable("player2states")

3)Далее эта функция ссылается на экземпляр Player1 и Player2 и функцию saveQtable в модуле QLearning.py

def saveQtable(self,file_name):  #save table
        with open(file_name, 'wb') as handle:
            pickle.dump(self.Q, handle, protocol=pickle.HIGHEST_PROTOCOL)

----------------------------------------------------
В итоге как я понимаю программа сохраняет стратегию, которая получена в результате тренировки, как поток байтов и при загрузке его декодирует обратно.

Вопросы.
1)Как именно сохраняется стратегия? Какая у нее структура? Что в данном случае сохранит параметр self?
2)Можно ли изменить код, чтобы сохранить ее в файл в читаемом виде и посмотреть формат?
3)Как сохранить тоже самое в Xml?

Заранее спасибо

Вопрос задан более трёх лет назад
114 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium(python)?
- 1 подписчик
- 2 минуты назад
- 2 просмотра
0

ответов
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- 9 часов назад
- 85 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- 9 часов назад
- 19 просмотров
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 11 часов назад
- 21 просмотр
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 118 просмотров
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 91 просмотр
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 22 апр.
- 197 просмотров
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- 22 апр.
- 146 просмотров
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- 22 апр.
- 171 просмотр
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 2 подписчика
- 22 апр.
- 33 просмотра
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Телеграм-Бот для выдачи конфигов VPN (VLESS/Reality)

25 апр. 2024, в 00:32

10000 руб./за проект

Доработать Python код github (telegram bot)

25 апр. 2024, в 00:26

5000 руб./за проект

Обновление веб-интерфейса согласно UI дизайну проекта

25 апр. 2024, в 00:15

1500 руб./в час