El Lenguaje de Marcado de Síntesis de Voz (SSML, por sus siglas en inglés – Speech Synthesis Markup Language) es un estándar basado en XML que se utiliza para mejorar la calidad, naturalidad y expresividad de la síntesis de voz (texto a voz o TTS). Permite a los desarrolladores y creadores de contenido controlar características de la voz como pausas, énfasis, tono, volumen y velocidad.
Principales Características y Etiquetas SSML:
<speak>: La etiqueta raíz que envuelve todo el texto que se va a convertir en voz.<break>: Se usa para insertar pausas o silencios, esencial para pausas largas, entre párrafos o frases.- Ejemplo:
<break time="500ms"/>(pausa de medio segundo).
- Ejemplo:
<say-as>: Permite controlar cómo se interpretan ciertos caracteres o palabras (fechas, números, moneda, abreviaturas).- Ejemplo:
<say-as interpret-as="date" format="mdy">10-12-2023</say-as>.
- Ejemplo:
<emphasis>: Aumenta o reduce el énfasis en palabras específicas, cambiando el tono y la velocidad.<prosody>: Controla la velocidad, el tono y el volumen de la voz.<phoneme>: Permite especificar la pronunciación fonética de una palabra (muy útil para nombres propios o extranjerismos).<audio>: Inserta archivos de audio pregrabados en la salida de voz.<sub>: Define un alias para sustituir una palabra o abreviatura por otra al hablar.
Usos y Ventajas:
- Naturalidad: Hace que las voces sintéticas suenen más humanas.
- Asistentes Virtuales: Mejora la experiencia en chatbots, sistemas de call center (IVR) y asistentes virtuales.
- Accesibilidad: Permite adaptar el ritmo y pronunciación para personas con necesidades especiales.
- Estructura: Ayuda a organizar el texto para que la lectura sea lógica y comprensible
Ejemplo de código SSML básico:
xml
<speak>
Hola, <break time="200ms"/> bienvenido a la demostración de <emphasis level="moderate">SSML</emphasis>.
La fecha de hoy es <say-as interpret-as="date" format="dmy">06-03-2026</say-as>.
</speak>
SSML es ampliamente soportado por los principales motores de TTS, como Google Cloud Text-to-Speech, Amazon Polly, Microsoft Azure Speech Service e IBM Cloud.
Amazon AWS Documentation