Síntesis de voz basada en Modelos Ocultos de Markov y algoritmos de aprendizaje profundo
14-OAlumno: Marvin Coto Jiménez
Profesor: Dr. John Goddard Close
Resumen: La síntesis de voz es una técnica de producción de habla artificial por medio de computadoras, la cual tiene como finalidad potenciar la interacción humano-computador en todo tipo de dispositivos, desarrollar sistemas de asistencia para personas con necesidades especiales, incorporarse a sistemas de entretenimiento, entre otras muchas aplicaciones. A partir de la década del año 2000, surge como modelo matemático dominante para realizar la síntesis, los Modelos Ocultos de Markov (HMM) para representar y reproducir de forma paramétrica la información del habla. Esto permite que una voz pueda ser codificada utilizando parámetros espectrales, de frecuencia fundamental y de duración de sus unidades fonéticas, para luego entrenar los modelos matemáticos que permitan producir nuevas frases con habla de características semejantes a la humana.
En esta tesis se aborda la adaptación de esta técnica para producir voces y su mejora con la introducción de algoritmos de aprendizaje profundo, los cuales pretenden aprender directamente de los datos la manera de producir sonido más natural y cercano al humano.
Objetivo general
- Incorporar técnicas de inteligencia computacional a la creación de voces artificiales creadas con técnicas estadísticas paramétricas para mejorar su calidad
Objetivos específicos
- Estudiar la aplicación de técnicas de inteligencia computacional que puedan mejorar procesos de entrenamiento de los HMM en la síntesis de voz.
- Experimentar con nuevas unidades fonéticas y sistemas híbridos para crear voces en español.
- Desarrollar métodos de evaluación automática de voces sintéticas.
- Desarrollar métodos de experimentación donde sea posible incorporar heurísticas para la optimización de resultados.
Ultima actualización 25/07/2022 por pcyti