geniousperson
@geniousperson

Как убрать повторение голоса при распознования лица?

Нужно чтобы при распознавании лица, один раз сказал имя:
Например: Привет, Иван!
Код полностью написан, однако не знаю как сделать чтобы всего один раз сказал.
При запуске кода повторяет каждый раз.
Это происходит из-за того что код внутри while true;
Распознавание в реальном времени идет не могу убрать while true, нужно только, один раз распознал человека один раз произнес и все.

Полный код.
import cv2
import numpy as np
import os
from gtts import gTTS
import pygame
import io

recognizer = cv2.face.LBPHFaceRecognizer_create()
recognizer.read('trainer/trainer.yml')
cascadePath = "haarcascade_frontalface_default.xml"
faceCascade = cv2.CascadeClassifier(cascadePath);

font = cv2.FONT_HERSHEY_SIMPLEX

#iniciate id counter
id = 0

# names related to ids: example ==> Marcelo: id=1,  etc
names = ['None', 'Ivan', 'Vasiliy', 'Ilza', 'Z', 'W']



# Initialize and start realtime video capture
cam = cv2.VideoCapture(0)
cam.set(3, 640) # set video widht
cam.set(4, 480) # set video height

# Define min window size to be recognized as a face
minW = 0.1*cam.get(3)
minH = 0.1*cam.get(4)


def speek(a):
    tts = gTTS(text='Привет' + "" + a + "", lang='ru')
    with io.BytesIO() as f:
        tts.save('text.mp3')

        # инициализация pygame
        pygame.mixer.init()
        pygame.init()

        # загружаем речь из mp3 файла
        pygame.mixer.music.load('text.mp3')
        pygame.mixer.music.play()

        # music.play() — неблокирующий метод
        # код ниже будет ждать, пока речь закончит произносится
        pygame.mixer.music.set_endevent(pygame.USEREVENT)
        pygame.event.wait()

while True:

    ret, img =cam.read()
    img = cv2.flip(img, 1) # Flip vertically

    gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)

    faces = faceCascade.detectMultiScale( 
        gray,
        scaleFactor = 1.2,
        minNeighbors = 5,
        minSize = (int(minW), int(minH)),
       )

    for(x,y,w,h) in faces:

        cv2.rectangle(img, (x,y), (x+w,y+h), (0,255,0), 2)

        id, confidence = recognizer.predict(gray[y:y+h,x:x+w])

        a = names[id]
        # Check if confidence is less them 100 ==> "0" is perfect match
        if (confidence < 100):
            id = names[id]
            confidence = "  {0}%".format(round(100 - confidence))
            speek(a)
        else:
            id = "unknown"
            confidence = "  {0}%".format(round(100 - confidence))
        
        cv2.putText(img, str(id), (x+5,y-5), font, 1, (255,255,255), 2)
        cv2.putText(img, str(confidence), (x+5,y+h-5), font, 1, (255,255,0), 1)  
    
    cv2.imshow('camera',img) 

    k = cv2.waitKey(10) & 0xff # Press 'ESC' for exiting video
    if k == 27:
        break

# Do a bit of cleanup
print("\n [INFO] Exiting Program and cleanup stuff")
cam.release()
cv2.destroyAllWindows()
  • Вопрос задан
  • 156 просмотров
Пригласить эксперта
Ответы на вопрос 2
fox_12
@fox_12 Куратор тега Python
Расставляю биты, управляю заряженными частицами
Ну дык используйте флаг к примеру, или храните список распознанных пользователей...

detected = set()
while True:
     ...
     if (confidence < 100) and not a in detected:
           ...
           speak(a)
           detected.add(a)
Ответ написан
Комментировать
@rPman
Сохраняйте в массиве (по ключу - произнесенное имя) время последнего распознавания, и каждый раз при обнаружении, сравнивайте его с текущим, если разница меньше некоторой константы, не произносите.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы