Как сложить оцифрованные аудиосигналы?

Question

Joysi @Joysi

Как сложить оцифрованные аудиосигналы?

День добрый!
Генерирую звук на определенной частоте (неважно, в виде синусоиды, пилы, треугольника) в виде массива значений double (1-максимальная амплитуда). Проигрывается норм.
Если сгенерировать несколько таких звуков на разной частоте, сложить их, обработать , то:
1) сложение с дальнейшей линейной апроксимацией в максимальную амплитуду 1 (combineWithNormalize) будет звучать корректно, но очень тихо....
2) сложение с линейной (combineWithLinearDynaRangeCompression) компрессией или логарифмической(combineWithLnDynaRangeCompression) приводят к хрипам (игрался с пороговым значением threshold).

Собственно вопрос - возможно я последующие шаги пропустил, или еще что. Что я делаю не так?
Пробовал и стартовые минисмещения добавлять при генерации исходных сигналов, чтобы минизировать появление пиков при кратных частотах и т.п.
Какие вообще существуют приемлимые алгоритмы сложения аудиосигналов из нескольких исходных с формированием итогового файла (а не онлайн игра громкостью), который например в синтезаторах используется?
Чтобы без хрипов, и в то же время не очень тихо. Может порекомендуете хорошие статьи/книги (можно англоязычные)
Спасибо заранее.

Код (неоптимизированная Java):

public class Combines {

    /**
     * Складывает аудиосигналы + проводит постнормализацию в [-1;1]
     * @param audio входные аудиосигналы
     * @return сложенный аудиосигнал
     */
    public static double[] combineWithNormalize( double[]... audio) {
        if (audio.length == 0) return null;
        if (audio.length == 1) return audio[0];

        int maxIdx = 0;
        // Найдем самый длинный семпл
        for(double[] arr: audio)
            if (arr.length > maxIdx)
                maxIdx = arr.length;

        // Приведем все входные семплы к максимальной длине
        for(int i=0; i < audio.length; i++)
            if (audio[i].length < maxIdx)
                audio[i] = Arrays.copyOf(audio[i], maxIdx);

        // Сложим все аудиосемплы (+ выделим пиковый аудиосигнал)
        double[] result = new double[maxIdx];
        double normalizer  = 1.0;
        for (int i = 0; i < maxIdx; i++) {
            for (int j = 0; j < audio.length; j++)
                result[i] += audio[j][i];
            double res = Math.abs(result[i]);
            if (res > normalizer)
                normalizer = res;
        }

        double coeff = 1.0/ normalizer;
        if (normalizer !=1.0)
            for (int i = 0; i < maxIdx; i++)
                result[i] *= coeff;
        return result;
    }

    /**
     *  Складывает аудиосигналы c использование линейной компрессии диапазона
     * @param threshold пороговый уровень компрессии
     * @param audio входные аудиосигналы (должны быть нормализованы в [-1;1] !)
     * @return сложенный аудиосигнал
     */
    public static double[] combineWithLinearDynaRangeCompression(double threshold, double[]... audio) {
        if (audio.length == 0 || threshold >= 1 || threshold < 0) return null;
        if (audio.length == 1) return audio[1];
        int maxIdx = 0;

        // Найдем самый длинный семпл
        for(double[] arr: audio)
            if (arr.length > maxIdx)
                maxIdx = arr.length;

        // Приведем все входные семплы к максимальной длине
        for(int i=0; i < audio.length; i++)
            if (audio[i].length < maxIdx)
                audio[i] = Arrays.copyOf(audio[i], maxIdx);

        double[] result = Arrays.copyOf(audio[0], maxIdx); // Нормализованный результируюший массив.
        double linearCoeff  = (1-threshold)/(2-threshold);

        // Сложим все аудиосемплы по принципу
        for (int i = 1; i < audio.length; i++)
            for (int j = 0; j < maxIdx; j++) {
                double res = result[j] + audio[i][j];
                double absRes = Math.abs(result[j] + audio[i][j]);
                if (absRes <= threshold)
                    result[j] = result[j] + audio[i][j];
                else
                    result[j] = Math.signum(res) * (threshold + linearCoeff * (absRes - threshold));
            }
        return result;
    }

    /**
     *  Складывает аудиосигналы c использование логарифмической компрессии диапазона
     * @param threshold пороговый уровень компрессии
     * @param audio входные аудиосигналы (должны быть нормализованы в [-1;1] !)
     * @return сложенный аудиосигнал
     */
    public static double[] combineWithLnDynaRangeCompression(double threshold, double[]... audio) {
        if (audio.length == 0 || threshold >= 1 || threshold < 0) return null;
        if (audio.length == 1) return audio[1];
        int maxIdx = 0;

        // Найдем самый длинный семпл
        for(double[] arr: audio)
            if (arr.length > maxIdx)
                maxIdx = arr.length;

        // Приведем все входные семплы к максимальной длине
        for(int i=0; i < audio.length; i++)
            if (audio[i].length < maxIdx)
                audio[i] = Arrays.copyOf(audio[i], maxIdx);

        double[] result = Arrays.copyOf(audio[0], maxIdx); // Нормализованный результируюший массив.
        double expCoeff = alphaT[(int) threshold*100];

        for (int j = 1; j < maxIdx; j++) {
            double res = 0;
            for (int i = 0; i < audio.length; i++)
                res = res + audio[i][j];
            double absRes = Math.abs(res);
            if (absRes <= threshold)
                result[j] = res;
            else
                result[j] = Math.signum(res) * (threshold + (1 - threshold) *
                        Math.log(1.0 + expCoeff * (absRes - threshold) / (2 - threshold)) /
                        Math.log(1.0 + expCoeff));
        }

        return result;
    }

    // Решение уравнений pow(1+x,1/x)=exp((1-t)/(2-t)) при t=0, 0.01, 0.02 ... 0.99
    final private static double[] alphaT = {
                    2.51286, 2.54236, 2.57254, 2.60340, 2.63499, 2.66731, 2.70040, 2.73428, 2.76899, 2.80454,
                    2.84098, 2.87833, 2.91663, 2.95592, 2.99622, 3.03758, 3.08005, 3.12366, 3.16845, 3.21449,
                    3.26181, 3.31048, 3.36054, 3.41206, 3.46509, 3.51971, 3.57599, 3.63399, 3.69380, 3.75550,
                    3.81918, 3.88493, 3.95285, 4.02305, 4.09563, 4.17073, 4.24846, 4.32896, 4.41238, 4.49888,
                    4.58862, 4.68178, 4.77856, 4.87916, 4.98380, 5.09272, 5.20619, 5.32448, 5.44790, 5.57676,
                    5.71144, 5.85231, 5.99980, 6.15437, 6.31651, 6.48678, 6.66578, 6.85417, 7.05269, 7.26213,
                    7.48338, 7.71744, 7.96541, 8.22851, 8.50810, 8.80573, 9.12312, 9.46223, 9.82527, 10.21474,
                    10.63353, 11.08492, 11.57270, 12.10126, 12.67570, 13.30200, 13.98717, 14.73956, 15.56907, 16.48767,
                    17.50980, 18.65318, 19.93968, 21.39661, 23.05856, 24.96984, 27.18822, 29.79026, 32.87958, 36.59968,
                    41.15485, 46.84550, 54.13115, 63.74946, 76.95930, 96.08797, 125.93570, 178.12403, 289.19889, 655.12084
            };
}

Вопрос задан более трёх лет назад
318 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Joysi @Joysi Автор вопроса

1)Вы бы уточнили с какой целью вы суммируете сигналы
С целью создать итоговый аудиофайл из нескольких входящих, при воспроизведении которого:
-громкость не будет ниже любого из исходных
-будут отсутствовать хрипы и иные "артифакты"
2) По идее надо перед суммированием нормализовать сигналы относительно того, у которого максимальная амплитуда, но тут возможен вариант, что последний будет "давить" все остальные (поэтому звук видимо тихий). Еще как вариант указать порог и ограничить амплитуду перед нормализацией или как-то по-другому "подавить" всплески.
Это все делается (код приведен), но результат - получается "тихий" аудиофайл. Если же складывать не в лоб, а "округляя" граничные всплески или просто их "обрезая" - получим артефакты.

В общем, попробуйте замоделировать эти процессы в Matlab simulink.
Незнаком с мат пакетами. Надо бы, но это долго. К тому же бы правильно понять "физику" сложения. Например, на синтезаторе зафиксирована громкость. Нажимаем одну клавишу - звук на одной основной частоте a1 , далее нажимаем 3,4,5 клавиш - аккорд звучит на частотах a1+a2+a3+a4, но в пределах заданной громкости, что и на предыдущем шаге. КАК ОН ЭТО ФОРМИРУЕТ?
то есть как получить Z(f(a1)+f(a2)+f(a3)+f(a4)) чтобы уровень громкости был не ниже f(ai) i=1..4 и минимальном искажении и отсутствии артефактов, где ai - АЦП исходных сигналов, а Z - функция смешения сигналов, Z(t) и ai(t) лежать в [-1,1] для любого момента времени?
Частота

Написано более трёх лет назад
Александр Тер @alexsandr0000

Joysi, скорее всего просто складывает, но потом прогоняет через фильтр, чтобы убрать искажения. Хотя я уже подзабыл эту тематику, надо посмотреть книги по ЦОС. Вот дискуссия, которая будет вам интересна

Написано более трёх лет назад
Александр Тер @alexsandr0000

При "подавлении" сигнала нужно его прогонять через фильтр, чтобы убрать искажения, это обычно хорошо видно на спектре сигнала.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+4 ещё

Простой
Что делать, если после залива приложения на VPS страница остается недоступной?
- 1 подписчик
- 15 апр.
- 84 просмотра
2

ответа
Физика

Средний
Почему не получается решить задачу по физике?
- 1 подписчик
- 12 апр.
- 79 просмотров
0

ответов
Android

+3 ещё

Простой
Нужно опенсорс приложение для Андройд для ESP32 painless mash?
- 1 подписчик
- 10 апр.
- 85 просмотров
0

ответов
Python

+1 ещё

Простой
Системы для анализа эмоций в видео и автоматической генерации текстовых реакций. Существует ли такое?
- 1 подписчик
- 10 апр.
- 90 просмотров
2

ответа
Физика

Сложный
Почему если t^2 второго порядка малости, то разложение по маклорену токо до 2 членов (f(t) = f(0) + f'(0)*t/1!)?
- 1 подписчик
- 09 апр.
- 35 просмотров
1

ответ
Видео

+4 ещё

Простой
Что будет если в камеру во вход mini jack для микрофона подключить aux?
- 1 подписчик
- 04 апр.
- 77 просмотров
0

ответов
Программирование

+2 ещё

Простой
Альтернативы SourceTrail?
- 3 подписчика
- 28 мар.
- 226 просмотров
1

ответ
Командная строка

+1 ещё

Простой
Как склеить несколько wav в консольном режиме?
- 1 подписчик
- 27 мар.
- 95 просмотров
1

ответ
Физика

Простой
Может ли быть такое при движении материальной точки?
- 1 подписчик
- 25 мар.
- 52 просмотра
0

ответов
Windows

+3 ещё

Простой
Есть в Windows API для задания тега Write Combining для моей области памяти?
- нет подписчиков
- 25 мар.
- 79 просмотров
2

ответа
Показать ещё Загружается…

Python developer

Bell Integrator

До 350 000 ₽

Разработчик программного обеспечения авионики

Котлин-Новатор • Санкт-Петербург

от 50 000 до 150 000 ₽

Ведущий разработчик программного обеспечения авионики

Котлин-Новатор

от 150 000 до 250 000 ₽

Сделать аудит сайта

19 апр. 2024, в 12:53

1000 руб./за проект

Требуется доработка бота

19 апр. 2024, в 12:41

8000 руб./за проект

Доработать сайт на React + Nest

19 апр. 2024, в 12:05

1500 руб./в час

Answer 1 · 2018-05-11 11:12:10

Вы бы уточнили с какой целью вы суммируете сигналы. По идее надо перед суммированием нормализовать сигналы относительно того, у которого максимальная амплитуда, но тут возможен вариант, что последний будет "давить" все остальные (поэтому звук видимо тихий). Еще как вариант указать порог и ограничить амплитуду перед нормализацией или как-то по-другому "подавить" всплески.
Другой путь использовать масштабирующий коэффициент зависящий от важности сигнала в общей сумме, т.е. нормализуем сигналы и умножаем на этот коэффициент.
В общем, попробуйте замоделировать эти процессы в Matlab simulink.

Как сложить оцифрованные аудиосигналы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт