Как решаются подобные задачи и каким инструментом лучше?

Question

diiimonn @diiimonn

Как решаются подобные задачи и каким инструментом лучше?

Приветствую!
Есть набор данных: Возраст, Пол, Язык.
Есть знание того, что:
[50, Ж, ru] - не хорошо.
[40, Ж, ru] - является наилучшей комбинацией.
[35, Ж, ru] - чуть хуже.
[35, M, ru] - еще хуже.
[20, М, en] - совсем плохо.

Надо подавать на вход комбинацию и получать процент соответствия лучшей. Не знаю с какого краю подступиться к задаче. Есть PHP FANN в распоряжении, но могу еще работать с Python.

Вопрос задан более трёх лет назад
134 просмотра

1 комментарий

Подписаться 3 Средний 1 комментарий

Решения вопроса 2

2 комментария

diiimonn @diiimonn Автор вопроса

Спасибо за ваш ответ.
Я это воплотил и это заработало). Но у меня есть небольшое сомнение. Оценочную величину я получаю из статистических данных и она усредненная и не точная. Я еще раз все обдумал и понял что саму оценку то я и хочу получить от инструмента, а по факту могу обучать только подавая 0 или 1. Я правильно понимаю, что если вместо дробной оценки подавать 0 или 1 то суть не поменяется, и нейросеть будет отдавать некоторый дробный результат символизирующий схожесть?

Написано более трёх лет назад
Everything_is_not_so_bad @2ord

@diiimonn
Если на вход подается случайная величина, то это просто шум. Лучше тогда вообще не подавать ее на вход.
Оценочную величину лучше уточнить/улучшить.
Задай это как дополнительный вопрос

Написано более трёх лет назад

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 24 апр.
- 40 просмотров
0

ответов
WordPress

+2 ещё

Простой
Как добавить счетчик яндекс метрики в elementor без плагинов?
- 1 подписчик
- 18 апр.
- 85 просмотров
2

ответа
IT-образование

+3 ещё

Простой
Какая есть литература полезная и понятная по Data Science на русском?
- 3 подписчика
- 17 апр.
- 1065 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как масштабировать число с идеальной точностью?
- 1 подписчик
- 13 апр.
- 165 просмотров
1

ответ
Алгоритмы

+2 ещё

Простой
Какая может быть формула для решения этой задачи?
- 3 подписчика
- 11 апр.
- 6770 просмотров
3

ответа
Машинное обучение

+2 ещё

Простой
Создание нейронной сети для определения сортов яблок. Как осуществить?
- 1 подписчик
- 11 апр.
- 99 просмотров
0

ответов
Unity

+1 ещё

Средний
Как вычислить насколько далеко улетит игрок?
- 1 подписчик
- 10 апр.
- 133 просмотра
1

ответ
Машинное обучение

+1 ещё

Средний
Как работает адаптивный бустинг для регрессии?
- 1 подписчик
- 05 апр.
- 24 просмотра
0

ответов
C#

+1 ещё

Простой
Не работает math.pow, что я делаю не так?
- 1 подписчик
- 04 апр.
- 170 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Чем отличается стекинг от блендинга?
- 1 подписчик
- 02 апр.
- 49 просмотров
1

ответ
Показать ещё Загружается…

Преподаватель по олимпиадному программированию

CODDY • Москва

от 20 000 до 40 000 ₽

Программист-разработчик систем САУ

Альбатрос • Москва

До 200 000 ₽

Программист С++

KeenTools • Ереван

от 150 000 ₽

Сделать верстку для натяжки на wordpress по макету в figma

26 апр. 2024, в 14:21

10000 руб./за проект

Node JS Бек енд разработчик для доработки CRM системы авто салона

26 апр. 2024, в 14:10

60000 руб./за проект

Требуется Pure PhP + Symfony (Обязательно) разработчик для CRM/ERP

26 апр. 2024, в 14:07

3000 руб./в час

для таких задач не нужен МЛ... Иначе же классификацией.

Answer 1 · 2019-02-12 18:45:12

Нужно закодировать входные данные вектора.

Возраст можно нормализовать в промежутке лет 20..100 (ну или меньше). То есть 100 лет это число 1.0 , а 20 лет - это 0.0. Все что между - доля от максимума, учитывая нижний порог. Кстати, любой возраст выше максимума для простоты можно принимать за максимум. Аналогично и для минимума.

Пол кодируется просто: 0 (М) или 1 (Ж)

Язык кодируется исходя из набора языков. Если в самом простейшем случае из лишь 2, тогда аналогично кодированию пола. Если больше 2-х, то в целях расширения набора языков имеет смысл кодировать вектором.
Допустим, есть набор языков Rus, Eng, Jap, тогда язык Jap кодируется как вектор (0, 0, 1), где важен порядок языков.

Таким образом, для [50, Ж, ru]
Возраст: (50-20)/(100-20)=0.375
Пол: 1
Язык: (1, 0, 0)

Выстраиваем данные по порядку в итоговый входной вектор: (0.375, 1, 1, 0, 0).
Каждому словесному описанию результата по градации от плохо до отлично давать оценку от 0 до 1 (в процентах).
Таким образом, для каждого входного вектора получаем результат оценки градации.
Если данные не противоречивы, то обучая на множестве репрезентативных данных (80%), в конце можно проверить верность обученной модели на тестировании оставшихся 20% данных.

Помимо машинного обучения есть еще статистические модели, таблицы решений, деревья решений и много других интересных способов решения задачи. Полагаю, в банках при выдаче ссуды и подсчет рисков в страховых компаниях делается не только машинным обучением, поскольку оно может оказаться верным лишь для определенного набора данных.

Answer 2 · 2019-02-12 21:05:46

Если вас интересует серьезное изучение темы, то даю наводку. Официально это называется "Теория многомерного шкалирования". Есть учебники (например - Толстова Ю.Н. Основы многомерного шкалирования - гууглится элементарно), предмет изучается в университете на соответствующих специальностях. Поскольку эта теория используется в основном гуманитариями (психологами, экономистами и пр), то изложение весьма простое.

А вот если интересует подход на основе современной Data Science, то в принципе выше вам почти все правильно написали. Но я бы во-первых, попросил уточнить, вам действительно надо "процент соответствия лучшей" или все-таки задача стоит вновь поступающему описанию придать одну из пяти описанных ранговых(оценок)? Это несколько меняем алгоритм решения. Однако в любом случае, это точно "обучение с учителем. Почти классическая задача Классификации или Регрессии - зависимости от ответа на поставленный вопрос. В принципе - (почти) любой алгоритм подойдет. Если данных не очень много, и нет абсолютной уверенности в их непротиворечивости - то подход на основе деревьев. Тогда во-первых можно обойтись без нормализации (все равно количественных данных у вас аж одно), а во-вторых - использовать совершенно стандартные модули библиотеки scikit-learn.
Но конечно, обучающих элементов чем больше - тем лучше.

Как решаются подобные задачи и каким инструментом лучше?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт