Kaggle, конкурс Titanic. Test Accuracy 0.87, лидерборд 0.75 почему?

Question

Максим @khrisanfov

Программист

Машинное обучение

Kaggle, конкурс Titanic. Test Accuracy 0.87, лидерборд 0.75 почему?

Тренирую модель в R с помощью caret. Разделил данные на обучающую и тестовую выборку (80/20). Обучил модель используя repeated кросс-валидацию 5x10. Получил точность предсказаний при кросс-валидации в районе 0.85 со стандартным отклонение около 0.02. Затем применил модель на тестовой выборке и получил точность: 0.8701, 95% CI : (0.8114, 0.9158). Как же так получается, что предсказания на тестовой выборке и кросс-валидация говорит мне что я в самом худшем случае получу точность в районе 0.80, а когда загружаю решение то получаю 0.75? Такая ситуация происходит с тремя моделями: Random Forest, CatBoost и XGBoost. Получается, что обучающая выборка и тестовая выборка это разные популяции? Тогда какой смысл конкурса?

Вопрос задан более трёх лет назад
501 просмотр

1 комментарий

Подписаться 1 Средний 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

10 комментариев

Максим @khrisanfov Автор вопроса

Хех, чувак, в работе я не знаю какая будет тестовая выборка, применяя статистические методы такие как ресемплинг я оцениваю каков будет результат и эта оценка показывает мне, что результат должен быть не хуже 0.8. Если он намного хуже, значит выборки из разных популяций, модель не имеет смысла. Это тоже самое, что спросить в офисах Единой России за кого вы будете голосовать, потом повторить процесс на улице.

Написано более трёх лет назад
⚡ Kotobotov ⚡ @angrySCV

данные из одной популяции, у тебя переобучение.

Написано более трёх лет назад
Максим @khrisanfov Автор вопроса

дима кубитский, если бы было переобучение, я бы не получил такую точность на тестовой выборке и кросс-валидация показывает такую же точность. Не так ли?

Написано более трёх лет назад
⚡ Kotobotov ⚡ @angrySCV

Максим, нетакли

Написано более трёх лет назад
Максим @khrisanfov Автор вопроса

дима кубитский, а подробнее?

Написано более трёх лет назад
⚡ Kotobotov ⚡ @angrySCV

Максим, блин чувак, я же тебе уже обьяснил.
у тебя процесс обучения связан с тем что ты "подгоняешь" результаты к какой-то тестовой выборке.
ну вот ты и подогнал к свой тестовой выборке модель.
с этим титаником вообще набор данных ничтожный, очень легко переобучится (переподогнать данные), и крос валидация ничего тебе не гарантирует, только снижает это переобучение (все раавно у тебя идет подгонка данных к конкретным ответам).
сделай модель проще, если там какой-нибудь рандом форест, количество узлов ограничь, иначе он все равно будет тебе так подгонять под ответ модель.

Написано более трёх лет назад
Максим @khrisanfov Автор вопроса

дима кубитский, я не подгоняю к тестовой выборке, я подбираю гиперпараметры модели с помощью кросс-валидации, чтобы избежать как-раз переобучение, после кросс-валидации я дополнительно проверил модель на тестовой выборке и получил примерно такой же результат точности как при кросс-валидации, где тут переобучение?

Написано более трёх лет назад
Максим @khrisanfov Автор вопроса

дима кубитский, переобучение это когда я задал модели такие параметры, чтобы она была наиболее гибкая, то есть пыталась найти такие паттерны в данных, которые могут не быть в боевых данных. Как-раз при кросс-валидации я подбираю такие параметры, чтобы она давала хороший результат на данных, которые не участвуют в обучении, то есть близки к боевым.

Написано более трёх лет назад
Максим @khrisanfov Автор вопроса

дима кубитский, если я начну менять параметры модели так, чтобы она давала хороший результат на Kaggle, это как-раз и будет переобучение.

Написано более трёх лет назад
⚡ Kotobotov ⚡ @angrySCV

Максим, послушай, ты когда модель "обучаешь" ты подгоняешь ответы модели к определенным ответам в тестах, излишняя подгонка к каким-либо конкретным тестовым данным - вызывает "переобучение".
это неминуемо для всех методов, просто когда данных мало (в случае с задачей про титаник), переобучится очень легко, есть подходы которые позволяют контролировать переобучения, смотреть например когда у тебя точность на тестовых данных начинает расходится с точностью на других данных (которые даются на самой платформе), то у тебя уже идет переобучение, после этого лучше откатить процесс подгонки параметров, из той модели что ты использовал, при выбранных параметрах, ты уже выжал все что мог, можно подумать о том чтоб сменить модель обучения, и потом использовать комбинации разных моделей, только так можно дальше улучшить результаты.
но так задрачиваться на Титанике не стоит там данных мало, это задача лишь для проработки пайплайна.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

IT-образование

+3 ещё

Простой
Какая есть литература полезная и понятная по Data Science на русском?
- 3 подписчика
- 17 апр.
- 967 просмотров
1

ответ
Машинное обучение

+2 ещё

Простой
Создание нейронной сети для определения сортов яблок. Как осуществить?
- 1 подписчик
- 11 апр.
- 84 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Как работает адаптивный бустинг для регрессии?
- 1 подписчик
- 05 апр.
- 24 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Чем отличается стекинг от блендинга?
- 1 подписчик
- 02 апр.
- 48 просмотров
1

ответ
Машинное обучение

+2 ещё

Простой
Что технически(какие it решения, технологический стек) нужны для создания ии ,который сможет на основе жалоб ставить диагноз?
- 1 подписчик
- 21 мар.
- 113 просмотров
3

ответа
Машинное обучение

Средний
Какой метод машинного обучения применить и как?
- 1 подписчик
- 19 мар.
- 58 просмотров
1

ответ
Машинное обучение

Средний
Как исправить переобучение сверточной нейронной сети(keras)?
- 1 подписчик
- 18 мар.
- 47 просмотров
0

ответов
Машинное обучение

+2 ещё

Простой
Как выбрать своё направление из двух совершенно разных?
- 1 подписчик
- 16 мар.
- 97 просмотров
2

ответа
Машинное обучение

+1 ещё

Сложный
Как реализовать обучение нейросети в реальном времени?
- 2 подписчика
- 11 мар.
- 161 просмотр
2

ответа
Машинное обучение

Простой
Почему loss не уменьшается?
- 1 подписчик
- 03 мар.
- 46 просмотров
1

ответ
Показать ещё Загружается…

Data Scientist (Финтех)

Intelinvest

от 60 000 ₽

Senior ML Engineer (Computer Vision)

Gradient

от 450 000 ₽

Python/Django-разработчик (mobile+AI)

4Taps AI • Тольятти

от 150 000 до 250 000 ₽

Английская версия для сайта на WordPress

20 апр. 2024, в 03:34

8000 руб./за проект

Доработать клиентское приложение для GTA 5 на C#

20 апр. 2024, в 00:51

1000 руб./за проект

Верстка и логика формы выбора билетов в зале для покупки

20 апр. 2024, в 00:43

10000 руб./за проект

Answer 1 · 2017-09-24 04:08:08

хех чувак, если бы обучающая и тестовая выборка были одинаковые, тогда можно было просто загрузить ответы из обучающей выборки в тест и не морочить голову, получив 100% верный результат.
смысл конкурса, научится строить модель которая работает в ОБЩЕМ случае, для любых примеров данных.
П. С.
ты свою модель подгоняешь под свои тестовые данные, в итоге если результаты на других тестовых данных получаются сильно хуже - то это говорит лишь о том что ты переподогнал свою модель под свои тестовые данные, и она хуже работает в общем случае.

Kaggle, конкурс Titanic. Test Accuracy 0.87, лидерборд 0.75 почему?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт