@d0ale3lfnd

Как лучше реализовать обучение с подкреплением?

Я выбрал Q-обучение для того, чтобы научить бота играть в крестики-нолики (спортивный интерес, хотя на самом деле это не имеет смысла)

У меня возникли сложность.
1) В виде чего хранить Q[s,a] ? Массив, словарь?
2) Предыдущее состояние - поле, до хода противника?
3) Текущее состояние - поле, после хода противника?
  • Вопрос задан
  • 65 просмотров
Пригласить эксперта
Ответы на вопрос 1
longclaps
@longclaps
  1. Да
  2. Да
  3. Да

ps Хорошо поставлены вопросы, отвечать - одно удовольствие.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через TM ID
Похожие вопросы