@Georgini323

Распознавание речи в Python с нуля, что делать/учить новичку?

Я наизелёнейший листок в программировании(2 дня как написал в pycharm print("Hello World")), захотел написать себе голосового ассистента, наткнулся на python, начал искать коды, приспосабливать под эту штуковину, но с такой проблемкой - я хочу создать автономную программу, а хорошее распознавание речи(от гугла и от яндекса) работает только с онлайном. Pocketsphinx - адская штуковина, которая не понимает "Привет, сфинкс".
Как итог всех моих поисков, я пришёл к выводу, что придётся писать свой алгоритм распознавания звуков. Принцип работы и прост и сложен одновременно. Создаётся библиотека букв и сочетаний(сь, ть и тому подобные), потом в программу, через микрофон, вводится аудио ряд. Программа начинает сравнивать с библиотеки и в случае совпадения(90% или что-то около того) пишет соответствующий символ, отрезает кусок(и аннигилирует его) и анализирует дальше. Выдавая на выходе всё сказанное в звуковом ряде.
Я совсем зелёный и умею только потихоньку подстраивать куски кодов друг под друга(только с погодой конкретно заморочился и написал сам, да и то по гайдам), прошу направить, что читать и где искать информацию как это сделать.
  • Вопрос задан
  • 1843 просмотра
Пригласить эксперта
Ответы на вопрос 2
inoise
@inoise
Solution Architect, AWS Certified, Serverless
Возьмите Alexa или Алису, напишите для выбранного Skill. А обработчик будет вебхук, который можно написать на python
Ответ написан
@asd111
Я бы советовал не мудрить и взять яндекс speech kit. Если хочешь офлайн, то возьми https://github.com/mozilla/DeepSpeech там есть рабочая версия для английского.
Хороший и лёгкий (80 Мб) офлайн speech to text есть только у гугла и он пока закрытый.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы