Este tipo de Sistemas deben de ser capaces de trabajar de tres formas distintas:
a) Modo de Entrenamiento: En esta fase se obtienen los patrones y valores de referencia correspondientes a cada uno de los usuarios.
b) Modo de Funcionamiento o servicio: Esta es la fase de utilización del sistema, y en la cual a partir de señales de voz el sistema tomará decisiones acerca de la identidad del locutor.
c) Modo de actualización: Durante la vida útil del sistema, éste deberá ser capaz de incorporar nuevos locutores, dar de baja a usuarios, y opcionalmente actualizar o mejorar modelos y referencias correspondientes a los usuarios presentes del sistema.
En la figura 3.15 podemos observar el diagrama de bloques de un sistema de reconocimiento de voz. Como se puede observar el sistema parte de una realización acústica (una palabra o sucesión de palabras) procedente de un locutor no identificado. En primer lugar será tarea del sistema la conversión de la señal acústica en una serie de vectores de características que extraigan de forma eficiente la información presente en la señal de voz. Esta función será realizada en el módulo de preprocesado acústico.
El sistema debe disponer de patrones correspondientes a los distintos locutores “conocidos” por el sistema. Estos patrones habrán sido obtenidos en la fase de entrenamiento del sistema a partir de la señal de voz procedente de cada uno de los locutores que se va a incorporar al sistema, y serán almacenados en el módulo de patrones y referencias.
Una vez obtenidos los vectores de características correspondientes a la señal de voz de entrada, y teniendo disponibles los patrones correspondientes a los distintos locutores, el sistema debe disponer de un método para obtener el parecido o similitud entre la realización acústica de entrada y cualquiera de los modelos conocidos por el reconocedor. Este proceso será realizado en el módulo de cálculo de similitudes.
No hay comentarios:
Publicar un comentario