Síntesis de voz basada en Modelos Ocultos de Markov y algoritmos de aprendizaje profundo

  • -

Síntesis de voz basada en Modelos Ocultos de Markov y algoritmos de aprendizaje profundo

14-O

Alumno: Marvin Coto Jiménez
ProfesorDr. John Goddard Close

Resumen: La síntesis de voz es una técnica de producción de habla artificial por medio de computadoras, la cual tiene como finalidad potenciar la interacción humano-computador en todo tipo de dispositivos, desarrollar sistemas de asistencia para personas con necesidades especiales, incorporarse a sistemas de entretenimiento, entre otras muchas aplicaciones. A partir de la década del año 2000, surge como modelo matemático dominante para realizar la síntesis, los Modelos Ocultos de Markov (HMM) para representar y reproducir de forma paramétrica la información del habla. Esto permite que una voz pueda ser codificada utilizando parámetros espectrales, de frecuencia fundamental y de duración de sus unidades fonéticas, para luego entrenar los modelos matemáticos que permitan producir nuevas frases con habla de características semejantes a la humana.

En esta tesis se aborda la adaptación de esta técnica para producir voces y su mejora con la introducción de algoritmos de aprendizaje profundo, los cuales pretenden aprender directamente de los datos la manera de producir sonido más natural y cercano al humano.

Objetivo general

  • Incorporar técnicas de inteligencia computacional a la creación de voces artificiales creadas con técnicas estadísticas paramétricas para mejorar su calidad

Objetivos específicos

  • Estudiar la aplicación de técnicas de inteligencia computacional que puedan mejorar procesos de entrenamiento de los HMM en la síntesis de voz.
  • Experimentar con nuevas unidades fonéticas y sistemas híbridos para crear voces en español.
  • Desarrollar métodos de evaluación automática de voces sintéticas.
  • Desarrollar métodos de experimentación donde sea posible incorporar heurísticas para la optimización de resultados.

Ultima actualización 25/07/2022 por pcyti