@FlasheR_SPb

Как управлять степенью доверия в обучающей выборке в машинном обучении?

Возможно ли в алгоритмах случайного леса и/или градиентного бустинга указывать различные степени доверия, разбивая большое обучающее множество на временные отрезки?
То есть, если мы имеем очень большую выборку данных в хронологическом порядке, и хотим использовать для обучения данные 10 летней давности, но при этом, чтобы данные годичной давности влияли на результат в большей степени.
Возможно ли такое? В какую сторону посмотреть? О чем почитать?
  • Вопрос задан
  • 422 просмотра
Пригласить эксперта
Ответы на вопрос 2
Arseny_Info
@Arseny_Info
R&D engineer
Апсемплить новые данные, даунсемплить старые данные
Ответ написан
Комментировать
@alexnss
Тут правильней называть этот параметр не степенью доверия, а весом.
Для бустинга LigthGBM точно умеет - Параметры описаны здесь парметр называется weight
Для Random forest в пакете для R ranger есть параметр case.weights
Подробности
Weights for sampling of training observations. Observations with larger weights will be selected with higher probability in the bootstrap (or subsampled) samples for the trees.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
29 мар. 2024, в 10:00
10000 руб./за проект
29 мар. 2024, в 09:59
750 руб./в час
29 мар. 2024, в 09:55
50000 руб./за проект