Qué necesitas antes de empezar
Para usar ElevenLabs necesitas: una cuenta en elevenlabs.io. El plan gratuito da 10,000 caracteres al mes (~7 minutos de audio), suficiente para probar. El plan Starter ($5 USD/mes) da 30,000 caracteres y acceso a clonación de voz básica. El plan Creator ($22 USD/mes) incluye 100,000 caracteres, clonación instantánea de voz y descarga de archivos comercialmente.
Para proyectos de marketing serios, usa el plan Creator. Para podcasts o narración de video larga, el plan Pro ($99/mes) tiene 500K caracteres al mes.
Paso 1: Selecciona o crea tu voz
En la sección Voices, ElevenLabs tiene una biblioteca con cientos de voces. Para encontrar voces en español México:
- Filtra por Language: Spanish
- Filtra por Accent: Mexican o Latin American
- Prueba al menos 5-6 voces con el mismo texto antes de decidir
Las voces que mejor funcionan para marketing en México incluyen las etiquetadas como «conversational» o «narrative». Evita voces con acento neutral genérico — suenan más artificiales.
Si quieres una voz propia o de tu marca: ve a Add Voice → Instant Voice Cloning. Sube 1-3 minutos de audio limpio (sin ruido de fondo, sin música) y ElevenLabs clonará la voz en minutos. Calidad óptima con 5+ minutos de audio.
Paso 2: Genera tu primer audio
Ve a la sección Speech Synthesis. Pega tu texto en el campo de texto. Ajusta los controles:
- Stability: 50-65% para narración, 35-50% para conversacional. Más stability = más predecible, menos expresivo.
- Similarity Boost: 70-80% para máxima fidelidad a la voz seleccionada.
- Style Exaggeration: 10-20% para voz más expresiva, 0% para neutral.
Haz clic en Generate. El audio se genera en segundos. Si hay pronunciaciones incorrectas, usa el panel de Pronunciation Dictionary para corregirlas.
Paso 3: Optimiza para casos de uso específicos
Para anuncios de radio/digital: escribe el script con pausas indicadas (usa comas y puntos frecuentes), elige voz enérgica, usa Stability baja (30-40%) para más dinamismo.
Para narración de video: texto más pausado con párrafos cortos, voz narrativa con Stability alta (60-70%), descarga en MP3 o WAV.
Para podcasts: usa la función Projects de ElevenLabs para dividir el texto en secciones y mantener consistencia de voz a lo largo de episodios largos.
Para voiceovers de presentaciones: sincroniza el audio con tu presentación en PowerPoint usando marcas de tiempo.
Resultado final y métricas a trackear
Trackea: costo por minuto de audio vs locutor profesional (locutor típico en México: $800-2,000 MXN por spot; ElevenLabs: centavos), tiempo de producción, y retroalimentación de audiencia sobre naturalidad. El 70% de oyentes no detecta voz IA de calidad en pruebas ciegas.
Errores comunes y cómo evitarlos
- Textos demasiado largos sin pausas: el modelo genera mejor con oraciones de menos de 30 palabras. Divide textos largos en párrafos cortos con puntuación clara.
- Ignorar la pronunciación de marcas o nombres propios: el diccionario de pronunciación de ElevenLabs permite corregir cómo pronuncia palabras específicas. Configúralo para nombres de tu marca antes del primer proyecto.
- Usar la voz clonada sin permiso: clonar la voz de otra persona sin su consentimiento explícito viola los términos de ElevenLabs y puede tener implicaciones legales. Solo clona voces con permiso documentado.
- No guardar las configuraciones que funcionan: cuando encuentres la combinación de voz + parámetros ideal para tu marca, guarda esas configuraciones para uso futuro.
En Weblindrome ofrecemos marketing de contenidos para PyMEs mexicanas. Solicita un diagnóstico gratuito.