При распознавании речи проигрывать аудио-файлы связанные с определенными словами из текста речи?

ЗАДАЧА:
1. Человек говорит текст.
2. Какое-то ПО случает этот текст в реальном времени.
3. Это ПО имеет свою базу где каждому слову соответствует какой-то звук (аудиофайл)
4. И как только ПО распознает знакомое слово из своей базы - ПО тут же включает этот аудиофайл,
и продолжает случать дальше.

ПРИМЕР:
1. Человек говорит: "Съешь ещё этих мягких французских булок, да выпей же чаю."
2. ПО воспроизводит:
/мягких/ == audio1.ogg
/выпей/ == audio2.ogg

ВОЗМОЖНЫЕ РЕШЕНИЯ
Может что-то с Google Speech API cloud.google.com/speech-to-text/ для PHP

В ЧЕМ ПРОБЛЕМА ПОХОЖИХ РЕШЕНИЙ
Чем-то похожим занимается Чат-бот, например на dialogflow.com.
Но проблема Чат-ботов в том, что им нужно каждый раз говорить старт фразу, типа "Hey, Google" - "Play a sound if you know one of this word". Потом, чтобы Чат-бот выдал результат - человеку нужно прекратить говорить. Чат-бот обработает текст и выдаст аудиозвук. И так дальше.
У меня же стоит задача - воспроизводить эти звуки каждый раз когда Чат-бот распознает знакомое слово из своей базы, беспрерывно на протяжении когда человек говорит (например, просто читает стихотворение).

Спасибо!
  • Вопрос задан
  • 4680 просмотров
Пригласить эксперта
Ответы на вопрос 3
dimonchik2013
@dimonchik2013
жизнь прекрасна в Амстердаме, а в Воронеже gаvно
Это ПО имеет свою базу где каждому слову соответствует какой-то звук (аудиофайл)

базу собираешь сам, из Гугл транслейта

Какое-то ПО случает этот текст в реальном времени.

подключаешь одно из 6 speech API - переводишь речь в текст

сравниваешь текст, проигрываешь файл

PROFIT
Ответ написан
Надёжнее и проще убрать текстовое значение слов из цепочки.

Микрофон слушает всё подряд – некоторые звуковые паттерны, которым обучен, триггерят действие (воспроизведение аудиофайла).

Примерно так работают голосовые команды видеорегистраторам – например Xiaomi 70mai при стоимости ок 1500 руб. Слушают постоянно, "понимают" всего несколько команд. Прошивка с русификацией делает, в т.ч. и эти распознаваемые команды русскоязычными.
Ответ написан
@Gordon__Freeman Автор вопроса
Спасибо за рекомендации - буду пробовать..

Вот еще нашел, вроде бы и точно такой же запрос, но на других технологиях - Распознавание речи, непрерывно считывая сигнал с микрофона?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
АКМЭ сервис Санкт-Петербург
от 80 000 до 110 000 руб.
АКМЭ сервис Санкт-Петербург
от 130 000 руб.
от 150 000 до 200 000 руб.
16 сент. 2019, в 16:51
10000 руб./за проект
16 сент. 2019, в 16:47
25000 руб./за проект
16 сент. 2019, в 16:31
5000 руб./за проект