El clonado de voces: las ponemos a prueba con Rico
Rico es el crítico de audio más honesto que conozco. No se gira cuando lo llamo por teléfono y pasa olímpicamente cuando le llama el robot de fregar. Solo reacciona cuando la voz suena de verdad.
Así que, con un buen plato de jamón ibérico en la mesa, decidí hacer la prueba definitiva: ponerle 4 voces clonadas por Inteligencia Artificial y ver cuál de ellas pasaba su exigente examen.
Tu voz es probablemente el dato biométrico más valioso que tienes como creador de contenido. Hoy, a mediados de 2026, la tecnología ha llegado a un punto en el que distinguir mi voz real de una generada por IA es prácticamente imposible. En este artículo, vamos a repasar las herramientas actuales —desde opciones integradas como DaVinci Resolve hasta la API de ElevenLabs y modelos Open Source gratuitos— y, por supuesto, te contaré cómo reaccionó Rico.
Aclaremos los términos de la clonación de voz
Antes de entrar en las herramientas, es importante entender qué estamos haciendo. Hay tres tecnologías principales que a menudo se meten en el mismo saco:
- Text to Speech (TTS) con voz clonada: Le das un texto escrito y el sistema lo lee con tu voz.
- Voice Conversion: Tú grabas un audio y el sistema lo transforma aplicando el timbre de tu voz clonada. Esto mantiene tu entonación exacta, ya que tú pones la emoción original.
- Zero Shot Cloning: El modelo es capaz de imitar tu voz con apenas unos segundos de muestra, sin entrenamiento previo intensivo.
Las herramientas actuales mezclan estas capacidades, y ahí es donde vemos las grandes diferencias.
DaVinci Resolve Studio: Privacidad local
Si ya usas DaVinci Resolve Studio (la versión de pago), tienes una herramienta potente de clonación integrada desde la versión 20.
Lo mejor de esta opción es la privacidad: grabas una muestra, entrenas el modelo a nivel local en tu ordenador (en mi Mac Studio tardó unas 3 o 4 horas) y listo. No subes nada a ningún servidor ni pagas extra. Para aplicar tu clon a otros audios mediante voice conversion funciona de forma excelente, conservando la entonación del orador original pero con tu timbre.
Sin embargo, con la versión 21 introdujeron el text-to-speech nativo y... francamente, el resultado todavía es un poco horroroso. Suena demasiado robótico para usarlo a nivel profesional. Pero si la soberanía de tus datos es tu prioridad, es una opción a tener muy en cuenta.
ElevenLabs: El rey indiscutible
Si hablas con cualquier profesional del audio generado por IA, ElevenLabs siempre sale en la conversación. Y con razón.
El modelo de clonaje instantáneo ya es bueno, pero el profesional (con muestras largas) es extraordinario. Tienen varias versiones y aquí es donde se pone interesante:
- Modelo V3: Es una maravilla técnica. Te permite actuar, reír y gritar con comandos de texto. ¿El problema? En el proceso de "actuar" pierde un poco mi esencia; sueno como un actor intentando imitarme.
- Modelo V2: Para mí, sigue siendo el mejor. Es un calco literal de mis cuerdas vocales y clava mi timbre. Exige más trabajo artesanal usando la puntuación (guiones, mayúsculas) para darle intención y ritmo, pero el resultado final es que realmente sientes que soy yo hablándote.
- Flash V2.5: Es rapidísimo y cuesta la mitad de créditos. Perfecto para generar voces de referencia o montar estructuras rápidas en el timeline, aunque le falta esa calidez final para un proyecto exigente.
El poder de la automatización con la API
Donde ElevenLabs brilla de verdad para los creadores es en su API. Hace poco terminé de escribir un libro de ficción donde la acción transcurre en Tailandia. Tenía más de 40.000 palabras en un PDF.
Escribí un pequeño script en Python desde la terminal que cogió el documento, lo dividió por capítulos, los envió a ElevenLabs y me descargó los archivos de audio ya nombrados y ordenados. El resultado fue un audiolibro completo de casi 6 horas generado de forma totalmente automática. Para quienes nos dedicamos a la producción audiovisual, este tipo de automatización en lote abre posibilidades brutales.
(Por cierto, si estás produciendo contenido y necesitas una locución profesional consistente, mi voz clonada está disponible en la Voice Library de ElevenLabs. Tienes el enlace en la descripción del vídeo. Un buen win-win).
Las alternativas: Open Source y más allá
Hay mucha vida fuera de estas dos grandes opciones, y vale la pena tenerlas en el radar:
- Descript: Excelente si ya editas dentro de su entorno, permitiendo corregir palabras en locuciones con la función Overdub.
- Cartesia Sonic 3.5: Tiene una latencia bajísima (menos de 100 ms), ideal para agentes de IA en tiempo real.
- Epidemic Sound Voices: Muy cómoda por su integración nativa para DaVinci Resolve y Premiere Pro.
- Flexclip: Accesible y en la nube, más orientada a contenido social rápido.
Y luego está mi parte favorita: el ecosistema Open Source. Totalmente gratuito, en local y sin depender de terceros.
- Fish Speech 1.5: Multilingüe y con excelentes resultados de similitud. Corre perfectamente en un Mac con Apple Silicon.
- CosyVoice 2: Genial para streaming y automatizaciones con muy baja latencia.
- Index TTS: Diseñado para doblaje de vídeo. Te permite controlar la duración exacta de la locución generada para cuadrarla con la imagen. Requiere manejarse un poco con Python o tener paciencia con la terminal, pero para un perfil técnico es una auténtica joya.
El Veredicto de Rico
Al final de todo el análisis técnico, yo quería un juez insobornable. Puse el jamón ibérico en juego y reproduje la misma frase llamándolo ("Rico...") con mi voz real y con las opciones clonadas, mientras él estaba solo en el plano.
¿El resultado? Ni se inmutó con las primeras pruebas. Pero cuando llegó el clon de calidad que capturaba mi timbre real, el engaño funcionó. Se giró buscando el origen del sonido, esperando su premio.
La clonación de voz ya no es ciencia ficción. Está aquí y es más accesible que nunca. Si produces contenido y necesitas calidad sin fricción, ElevenLabs es el camino; si priorizas la privacidad, apuesta por tu DaVinci o el Open Source.
Cuéntame en los comentarios qué herramienta encaja mejor en tu flujo de trabajo. ¡Nos vemos en el próximo vídeo!