@LionelCrowl

Как увеличить выборку для обработки нейронной сетью?

Классификация для нс.
Есть 1700 объектов, из них 130 объектов класса А, 1570 объектов класса Б. К каждому объекту дано 130 характеристик, путем отбора по мультиколлинеарности (тау Кендалла больше 0,7) и с помощью генетических алгоритмов к вероятностным сетям (statistica 6.1) было отобрано 50 значимых характеристик. Дальше в том же пакете хочу запустить mlp для классификации этих объектов, но подать я могу только 260 (по 130 каждого класса), потому что иначе нс просто априори будет относить все объекты к классу Б, однако читал, что количество параметров (весов?) в нс должно быть в 10 раз меньше, чем выборка. Очевидно, что если следовать этому правилу, то на скрытом слое будет пара нейронов, а этого, по идее, мало. Нужно как-то увеличить эти 130 штук класса А. Мысли идут в направлении размножения путем дополнения случайного шума по каждой характеристике, но это не точно. И ещё, возможно, стоит отобрать из характеристик только те, что с нормальным распределением, а потом уже шум добавлять или на основе эмпирических характеристик достроить как-то.
Языков программирования не знаю, подскажите, пожалуйста, программный продукт с реализованным увеличением выборки или иные способы решения данной проблемы, тоже, желательно, реализованные программно :)
  • Вопрос задан
  • 532 просмотра
Пригласить эксперта
Ответы на вопрос 3
sgjurano
@sgjurano
Разработчик
Обычно делают иначе: создают все возможные признаки, которые могут придумать, потом расширяют датасет любыми возможными методами, а потом сэмплируют из него батчи таким образом, чтобы на протяжении одной эпохи обойти весь датасет и обходят его раз 100 или больше, посматривая на график функции потерь на валидации.
Ответ написан
Arseny_Info
@Arseny_Info
R&D engineer
На датасете такого размера нейронные сети лучше не использовать, аугментация не поможет.
Ответ написан
Комментировать
@imageman
Ну, во-первых, все-таки можно попробовать учить и на всём массиве доступных данных (пусть и перекошенном в сторону Б). Если хотите, можете тупо размножить класс А.

Второе - посмотрите в сторону других классификаторов. Например дерево (или лес) решений.

Если задача уже решена, то можете рассказать как решили?
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы