Síntesis de voz basada en Modelos Ocultos de Markov y algoritmos de aprendizaje profundo

25
Jul 22
-

14-O

Alumno: Marvin Coto Jiménez
Profesor: Dr. John Goddard Close

Resumen: La síntesis de voz es una técnica de producción de habla artificial por medio de computadoras, la cual tiene como finalidad potenciar la interacción humano-computador en todo tipo de dispositivos, desarrollar sistemas de asistencia para personas con necesidades especiales, incorporarse a sistemas de entretenimiento, entre otras muchas aplicaciones. A partir de la década del año 2000, surge como modelo matemático dominante para realizar la síntesis, los Modelos Ocultos de Markov (HMM) para representar y reproducir de forma paramétrica la información del habla. Esto permite que una voz pueda ser codificada utilizando parámetros espectrales, de frecuencia fundamental y de duración de sus unidades fonéticas, para luego entrenar los modelos matemáticos que permitan producir nuevas frases con habla de características semejantes a la humana.

En esta tesis se aborda la adaptación de esta técnica para producir voces y su mejora con la introducción de algoritmos de aprendizaje profundo, los cuales pretenden aprender directamente de los datos la manera de producir sonido más natural y cercano al humano.

Objetivo general

Incorporar técnicas de inteligencia computacional a la creación de voces artificiales creadas con técnicas estadísticas paramétricas para mejorar su calidad

Objetivos específicos

Estudiar la aplicación de técnicas de inteligencia computacional que puedan mejorar procesos de entrenamiento de los HMM en la síntesis de voz.
Experimentar con nuevas unidades fonéticas y sistemas híbridos para crear voces en español.
Desarrollar métodos de evaluación automática de voces sintéticas.
Desarrollar métodos de experimentación donde sea posible incorporar heurísticas para la optimización de resultados.

Ultima actualización 25/07/2022 por pcyti

Síntesis de voz basada en Modelos Ocultos de Markov y algoritmos de aprendizaje profundo

Jul 22

-

Síntesis de voz basada en Modelos Ocultos de Markov y algoritmos de aprendizaje profundo

CONTACTO

UBICACIÓN

FACEBOOK PCyTI

INSTAGRAM PCyTI

📷 Síguenos en Instagram