Voces clonadas

Subí una muestra de audio (10–30 s de voz limpia) para clonar una voz con XTTS-v2. Luego podés usarla en cualquier job de TTS.

Agregar nueva voz

Cómo funciona XTTS-v2

• La primera vez que usés una voz clonada, el modelo se descarga (~1.8 GB). Puede tardar varios minutos.

• Las siguientes ejecuciones son más rápidas (modelo cacheado en disco).

• En CPU tarda ~10–30 s por oración. Para un guión de 30 s esperá 1–3 min de generación.

• Mejor calidad: muestra limpia, sin música, un solo hablante, 15–30 segundos.