bytecode_rus
@bytecode_rus

Тестирование с количественным учетом результатов?

Есть некий алгоритм, который постоянно совершенствуется (или нет). И хочется после каждого его усовершенствования тестировать его на нескольких эталонных выборках. Как я понимаю, для этого существуют системы Continuous Integration, которые собирают проект, тестируют и отчитываются о результатах.

И я понимаю, как это работает в случае с классическим тестированием — алгоритм может либо сработать либо не сработать (1 или 0).
В моем же случае это алгоритм компьютерного зрения. И он может отработать на 100%, может на 0%, а может на 66% или 45.6%.

Я не нашел никаких средств, которые учитывают такие вот количественные результаты. Возможно я чего то не понимаю, или что то упускаю.

Пожалуйста, помогите советом или какими нибудь best practices на эту тему.

Спасибо
  • Вопрос задан
  • 2631 просмотр
Пригласить эксперта
Ответы на вопрос 1
@Little_CJIOH

Только хардкор, только разработка собственных метрик, классификация тестовых данных на группы. Экспертная оценка данных людьми, сравнение результата с экспертной оценкой, сравнение полученных метрик с предыдущим и лучшим результатом, отдельно для каждого набора данных и для класса. При этом фреймворк должен мочь пересчитать все метрики для предыдущих версий по новому алгоритму, потому, что систему оценки качества будете регулярно допиливать. Попытка свести оценку к бинарному виду выдаст "среднюю температуру по больнице". Я почти уверен, что вы не найдете готового решения, слишком нетипичная задача для массового решения. По крайней мере, я в свое время не нашел.

Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы