SSML

El Lenguaje de Marcado de Síntesis de Voz (SSML, por sus siglas en inglés – Speech Synthesis Markup Language) es un estándar basado en XML que se utiliza para mejorar la calidad, naturalidad y expresividad de la síntesis de voz (texto a voz o TTS). Permite a los desarrolladores y creadores de contenido controlar características de la voz como pausas, énfasis, tono, volumen y velocidad.

Principales Características y Etiquetas SSML:

<speak>: La etiqueta raíz que envuelve todo el texto que se va a convertir en voz.
<break>: Se usa para insertar pausas o silencios, esencial para pausas largas, entre párrafos o frases.
- Ejemplo: <break time="500ms"/> (pausa de medio segundo).
<say-as>: Permite controlar cómo se interpretan ciertos caracteres o palabras (fechas, números, moneda, abreviaturas).
- Ejemplo: <say-as interpret-as="date" format="mdy">10-12-2023</say-as>.
<emphasis>: Aumenta o reduce el énfasis en palabras específicas, cambiando el tono y la velocidad.
<prosody>: Controla la velocidad, el tono y el volumen de la voz.
<phoneme>: Permite especificar la pronunciación fonética de una palabra (muy útil para nombres propios o extranjerismos).
<audio>: Inserta archivos de audio pregrabados en la salida de voz.
<sub>: Define un alias para sustituir una palabra o abreviatura por otra al hablar.

Usos y Ventajas:

Naturalidad: Hace que las voces sintéticas suenen más humanas.
Asistentes Virtuales: Mejora la experiencia en chatbots, sistemas de call center (IVR) y asistentes virtuales.
Accesibilidad: Permite adaptar el ritmo y pronunciación para personas con necesidades especiales.
Estructura: Ayuda a organizar el texto para que la lectura sea lógica y comprensible

Ejemplo de código SSML básico:

xml

<speak>
  Hola, <break time="200ms"/> bienvenido a la demostración de <emphasis level="moderate">SSML</emphasis>.
  La fecha de hoy es <say-as interpret-as="date" format="dmy">06-03-2026</say-as>.
</speak>

SSML es ampliamente soportado por los principales motores de TTS, como Google Cloud Text-to-Speech, Amazon Polly, Microsoft Azure Speech Service e IBM Cloud.

Amazon AWS Documentation

peissoft

El blog de psanchez

Deja una respuesta Cancelar la respuesta