Un sistema de texto-a-habla expresivo en español

  • -

Un sistema de texto-a-habla expresivo en español

2012

 Descargar versión PDF

ProfesoresDr. John Goddard Close y Alma Edith Martínez Licona

Resumen: Un sistema texto-a-habla (TTS) es un sistema computacional que convierte texto en habla; para realizar esta función el TTS requiere dos etapas: al principio un módulo (llamado front end) que analiza el texto y lo convierte en una especificación lingüística, y posteriormente otro módulo que toma esta especificación lingüística y la cambia a una forma de onda sintetizada. La especificación lingüística contiene información fonémica y prosódica, usualmente dando una lista de los fonemas que aparecen en el texto y un conjunto de detalles sobre cómo se debe pronunciar. Estos detalles vienen en forma de valores de ciertos parámetros importantes como son la frecuencia fundamental f0 (llamada pitch), la duración, la calidad de voz y la articulación. A la fecha, los TTS han sido utilizados en muchas aplicaciones como son la lectura de correos electrónicos y libros, y prometen formar parte importante en una interacción máquina-humana más natural. Sin embargo, los humanos no hablan sin emoción, y hasta el momento, los sintetizadores actuales usualmente no la incorporan quizá en gran medida por la complejidad de expresión vocal humana. El hecho de añadir emoción, como felicidad, tristeza o enojo al habla sintetizada favorece la experimentación con la emulación del habla para hacerla más agradable y además ofrece la posibilidad de generar señal de voz con emoción para fines del reconocimiento de emoción en el habla. Este proyecto pretende desarrollar un sistema de TTS expresivo en español usando parámetros prosódicos modelados con técnicas de aprendizaje maquinal, como los árboles de decisión, aplicado a una base de datos emocionales en español.

Objetivo general

  • Desarrollar un sistema TTS expresivo en español

Objetivos específicos

  • Implementar en python el <em>front end</em> de un TTS en español
  • Aplicar técnicas de aprendizaje maquinal para modelar ciertos parámetros prosódicos importantes para lograr la incorporación de emociones en un TTS
  • Integrar lo anterior en una versión modificada de emofilt

Ultima actualización 14/08/2022 por pcyti