SSML

El Lenguaje de Marcado de Síntesis de Voz (SSML, por sus siglas en inglés – Speech Synthesis Markup Language) es un estándar basado en XML que se utiliza para mejorar la calidad, naturalidad y expresividad de la síntesis de voz (texto a voz o TTS). Permite a los desarrolladores y creadores de contenido controlar características de la voz como pausas, énfasis, tono, volumen y velocidad. 

Principales Características y Etiquetas SSML:

  • <speak>: La etiqueta raíz que envuelve todo el texto que se va a convertir en voz.
  • <break>: Se usa para insertar pausas o silencios, esencial para pausas largas, entre párrafos o frases.
    • Ejemplo: <break time="500ms"/> (pausa de medio segundo).
  • <say-as>: Permite controlar cómo se interpretan ciertos caracteres o palabras (fechas, números, moneda, abreviaturas).
    • Ejemplo: <say-as interpret-as="date" format="mdy">10-12-2023</say-as>.
  • <emphasis>: Aumenta o reduce el énfasis en palabras específicas, cambiando el tono y la velocidad.
  • <prosody>: Controla la velocidad, el tono y el volumen de la voz.
  • <phoneme>: Permite especificar la pronunciación fonética de una palabra (muy útil para nombres propios o extranjerismos).
  • <audio>: Inserta archivos de audio pregrabados en la salida de voz.
  • <sub>: Define un alias para sustituir una palabra o abreviatura por otra al hablar. 

Usos y Ventajas:

  • Naturalidad: Hace que las voces sintéticas suenen más humanas.
  • Asistentes Virtuales: Mejora la experiencia en chatbots, sistemas de call center (IVR) y asistentes virtuales.
  • Accesibilidad: Permite adaptar el ritmo y pronunciación para personas con necesidades especiales.
  • Estructura: Ayuda a organizar el texto para que la lectura sea lógica y comprensible

Ejemplo de código SSML básico:

xml

<speak>
  Hola, <break time="200ms"/> bienvenido a la demostración de <emphasis level="moderate">SSML</emphasis>.
  La fecha de hoy es <say-as interpret-as="date" format="dmy">06-03-2026</say-as>.
</speak>

SSML es ampliamente soportado por los principales motores de TTS, como Google Cloud Text-to-Speech, Amazon Polly, Microsoft Azure Speech Service e IBM Cloud. 

Amazon AWS DocumentationAmazon AWS Documentation 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *