Síntesis de voz basada en Modelos Ocultos de Markov y algoritmos de aprendizaje profundo

Fecha: 23 de febrero de 2017 a las 11:00 hrs.
Lugar: T-223
Presenta: Marvin Coto Jiménez
Afiliación: Alumno de doctorado PCyTI
Asesor: Dr. John Goddard Close

Resumen: La síntesis de voz es una técnica de producción de habla artificial por medio de computadoras, la cual tiene como finalidad potenciar la interacción humano-computador en todo tipo de dispositivos, desarrollar sistemas de asistencia para personas con necesidades especiales, incorporarse a sistemas de entretenimiento, entre otras muchas aplicaciones. A partir de la década del año 2000, surge como modelo matemático dominante para realizar la síntesis, los Modelos Ocultos de Markov (HMM) para representar y reproducir de forma paramétrica la información del habla. Esto permite que una voz pueda ser codificada utilizando parámetros espectrales, de frecuencia fundamental y de duración de sus unidades fonéticas, para luego entrenar los modelos matemáticos que permitan producir nuevas frases con habla de características semejantes a la humana.

En esta tesis se aborda la adaptación de esta técnica para producir voces y su mejora con la introducción de algoritmos de aprendizaje profundo, los cuales pretenden aprender directamente de los datos la manera de producir sonido más natural y cercano al humano.

Detección temprana de incendios mediante flujos de video codificados con transformada DCT
Eficiencia Energética de Sistemas de Radios Cognitivos

Regresar a Seminario

P C y T I