Алгоритмы для обработки и анализа звука

Хочется написать свой программный тюнер для гитары (на подобии AP Guitar Tuner), но к сожалению я в этой теме совершенно не ориентируюсь. Примерно себе представляю, что для этого нужно, но как подступиться к проблеме не знаю. Посоветуйте ресурсы или литературу на соответствующую тематику. Спасибо.
  • Вопрос задан
  • 12132 просмотра
Пригласить эксперта
Ответы на вопрос 4
@megalol
musicdsp.org и евонный форум, и e-mail рассылка.
На русском — любая книжка по цифровой обработке сигналов даст нормальную базу.

По вашей ситуации алгоритм такой:
микрофон(звук)=>АЦП(цифровой массив)=>оконное FFT(массив комплексных чисел)=>массив амплитуд(массив действительных чисел)=>относительная частота максимума=>частота максимума=>нота

Для вашей ситуации нужно знать api снятия звука с микрофона. Api будет выдавать порции звука кусками, допустим, по 1024 float'а. (При частоте дискретизации 44100 это будет 44100/1024 = 43 миллисекунды).
К этому куску нужно применить оконное быстрое преобразование Фурье (FFT), поищите где-нибудь нормальную статью, в котором оно объясняется (пригодится книжка по цифровой обработке сигналов). В интернете есть куча библиотечных функций.
Чтобы знать, что преобразование вообще делает, советую поставить Adobe^W Audition^W бесплатный аудиоредактор со спектроанализатором и посмотреть, что делается со звуком разных нот, на что влияет размер окна и т. п. Мозг сам по себе тоже работает со спектром, а не с самим сигналом, поэтому интуитивно все понимается на ура.

У FFT, чем больше данных, тем большее спектральное разрешение. Для нужного разрешения, может быть нужно FFT'ить 8192 байта, или около того. FFT выдаст массив из 8192 комплексных чисел, модуль каждого из этих чисел даст амплитуду спектра. При этом значения 4096-8191 будут зеркальной копией 0-4095, такова особенность алгоритма. У комплексных чисел можно получить амплитуду, фаза в данном случае не нужна, а амплитуда — sqrt(re^2+im^2). Ну а дальше поиском максимума в массиве.

Максимум будет относительной частотой (массив-то 0-4095, а частоты 0-44100/2). Чтобы перевести абсолютную в относительную, нужно по пропорции умножить на 44100/8192. Т.е. на частоту дискретизации деленную на размер окна FFT. И теперь перевести частоту в ноту. Там экспоненциальная зависимость (частота следующей ноты выше частоты предыдущей в корень двенадцатой степени из двух), с помощью таблички вида (A4 440; A#4 465.96] найти ближайшую не сложно.
Ответ написан
Комментировать
@KiriKiri Автор вопроса
Спасибо большое!
Ответ написан
Комментировать
xSkyFoXx
@xSkyFoXx
Мог бы посоветовать вам ещё книгу «Основы аналогового и цифрового звука». Прочесть краткое инфо о ней и места, где её можно купить — тут.
Ответ написан
Комментировать
@Yakhnev
Рекомендую прекрасный пример на Codeproject, рабочий тюнер, написанный на C#. Для быстрого преобразования Фурье как правило используют библиотеку FFTW
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы