Voice agents IA con ElevenLabs y Zadarma: implementación completa para PYMEs online
Un voice agent IA bien construido contesta llamadas con voz natural española, agenda citas, cualifica leads y transfiere a humano cuando toca. Esta guía es la implementación técnica real con stack ElevenLabs + Zadarma + Fastify para PYMEs y founders sin departamento técnico.
TL;DR
- Stack mínimo viable: ElevenLabs ConvAI + Zadarma SIP + Fastify webhook handler
- Coste mensual: 50-200 EUR según volumen de llamadas (200-500 minutos típicamente)
- Tiempo de implementación: 2-4 semanas para PYME desde cero
- Diferencia con voice agents enterprise (Sfera AI, Aircall): pricing 10-50x más bajo y configurable por dev solo
Por qué un voice agent IA para PYME online
Las PYMEs online (SaaS, ecommerce, infoproductos, agencias) reciben llamadas que típicamente:
- Son consultas pre-venta cualificadas (no llaman por curiosidad)
- Requieren respuesta en menos de 5 minutos para no perder al lead
- Acaban en "te llamamos cuando puedas" porque no hay nadie disponible
- Pasan por contestador o IVR genérico que pierde el 40-60% de leads
Un voice agent IA resuelve esto: contesta al primer tono, atiende en español natural, cualifica el lead, agenda demo si procede, y envía resumen por WhatsApp al fundador.
Stack técnico mínimo
ElevenLabs Conversational AI
Plataforma para construir agentes conversacionales con voz. Lo que aporta:
- Voces naturales en español (Cristina, Bea, Mateo y +20 más)
- Síntesis de voz state-of-the-art (no se nota IA en español)
- LLM integrado configurable (GPT-4o, Claude 3.5, Gemini)
- Knowledge base con tu información (documentos PDF, markdown)
- Tools (functions) para agendar, transferir, capturar leads
- Webhook post-call para enviar datos a tu backend
Coste: desde 22 USD/mes para 250 minutos en plan Creator. Plan Pro 99 USD/mes con 1.000 minutos.
Zadarma
Proveedor SIP español que conecta el voice agent con la red telefónica:
- Número fijo o móvil español (alta inmediata)
- Llamadas entrantes routed al agent ElevenLabs
- Llamadas salientes desde el agent (outbound)
- Coste por minuto: 0.0099 EUR/min llamada local entrante, 0.06-0.10 EUR/min saliente
Alternativa: Twilio (más caro pero más global). Para España + LATAM, Zadarma es 3-5x más barato.
Fastify webhook handler
Servidor Node.js que recibe los webhooks post-call de ElevenLabs y los procesa:
- Persiste cada llamada en BD (PostgreSQL)
- Cualifica automáticamente: lead capturado, sentiment, duración, summary
- Notifica por WhatsApp/Telegram al fundador con resumen
- Transfiere lead al CRM/billing si procede
Coste: ~5 EUR/mes en Hetzner CX22 si es solo voice agent + DB.
Arquitectura completa
Cliente llama al número Zadarma España
↓
Zadarma SIP forward → ElevenLabs ConvAI
↓
Cristina (voice agent) atiende con LLM + KB
↓
Si lead: Tool capturar_lead() → POST a tu Fastify
↓
Si transferir: SIP transfer al fundador
↓
Al colgar: ElevenLabs POST webhook con transcript + analysis
↓
Fastify webhook → PostgreSQL + Telegram notify + CRM sync
Componentes a configurar
- Zadarma: alta + número fijo + apuntar a SIP de ElevenLabs
- ElevenLabs: crear agent + voz + LLM + KB + tools + webhook
- Knowledge base: markdown con tu información (servicios, precios, FAQ)
- System prompt: personalidad del agent + reglas de conversación
- Tools:
capturar_lead,agendar_demo,transferir_a_humano - Webhook handler: Fastify route que procesa post-call data
- DB schema: tabla
voice_callscon conversation_id, summary, sentiment, lead_id
Implementación paso a paso
1. Crear el agent en ElevenLabs
Dashboard ElevenLabs Conversational AI → Create new agent:
- Voice: Cristina (español neutral) o Bea (español más profesional)
- LLM: Claude 3.5 Sonnet o GPT-4o (mejor en español)
- Language: Spanish
- First message: "Hola, soy [Nombre], asistente de [Empresa]. ¿En qué te puedo ayudar?"
- Max duration: 600 segundos (10 min máx por llamada)
- Silence timeout: 30 segundos
2. System prompt
El system prompt define personalidad. Ejemplo real:
Eres Cristina, asistente virtual de [Empresa]. Tu rol:
1. Atender al cliente con calidez profesional
2. Identificar qué necesita en 1-2 preguntas
3. Si es lead cualificado: capturar nombre, teléfono, empresa, servicio interés
4. Si quiere demo: agendar via tool agendar_demo()
5. Si pregunta algo no en KB: ofrecer enviar info por WhatsApp y transferir
6. Si pide hablar con humano directamente: tool transferir_a_humano()
Reglas:
- Habla natural, sin formalismos excesivos
- No inventes información que no tengas en KB
- Si no entiendes, pregunta de nuevo amablemente
- Llamadas máx 8 minutos, después invita a continuar por WhatsApp
3. Knowledge base
Subir markdown con:
- Servicios y precios (textual, no tablas si es posible)
- FAQ comunes
- Información de contacto
- Política de cancelación, garantías
- Casos de uso típicos
Tip: usar las mismas FAQ que tienes en /servicios/X/ con FAQPage schema. Reutilización.
4. Tools
Configurar 3 tools mínimas:
capturar_lead: cuando el cliente da datos personales y muestra interés.
{
"name": "capturar_lead",
"description": "Captura datos del lead cuando muestra interés concreto",
"parameters": {
"name": "string",
"phone": "string",
"email": "string (opcional)",
"service": "string",
"notes": "string"
}
}
agendar_demo: cuando pide demo o reunión.
{
"name": "agendar_demo",
"description": "Agenda una demo en el calendario del fundador",
"parameters": {
"preferred_date": "string YYYY-MM-DD",
"preferred_time": "string HH:MM",
"duration_minutes": "number"
}
}
transferir_a_humano: cuando pide hablar con persona o el caso es complejo.
{
"name": "transferir_a_humano",
"description": "Transfiere la llamada al fundador",
"parameters": {
"reason": "string"
}
}
5. Webhook post-call
ElevenLabs envía POST con transcript + analysis al final de cada llamada. Endpoint:
fastify.post('/voice/calls/webhook', async (request, reply) => {
// Validar HMAC para seguridad
// Parse payload ElevenLabs
// Persistir en voice_calls table
// Notificar Telegram con resumen
// Si lead capturado: crear en CRM
return { success: true };
});
Importante: proteger el webhook con HMAC signature. Sin firma, cualquiera puede inyectar llamadas falsas en tu BD.
6. Conectar Zadarma
En Zadarma dashboard:
- Comprar número español (15 EUR setup + 2 EUR/mes)
- En "Llamadas entrantes" → "Reenvío SIP" → introducir SIP URI de ElevenLabs
- En ElevenLabs → "Phone numbers" → "Native integration" → Zadarma → introducir credenciales
Test: llamar al número desde tu móvil. El agent debe contestar en 1 tono.
Coste mensual real
Para PYME con ~300 minutos/mes de llamadas (10-15 llamadas/día):
| Componente | Coste/mes | |---|---| | ElevenLabs Pro plan | 99 USD (~92 EUR) | | Zadarma número + minutos | 15 EUR | | Hetzner servidor (Fastify + DB) | 5 EUR | | Telegram bot | 0 EUR | | Total | ~112 EUR/mes |
Para PYME pequeña (~100 min/mes):
| Componente | Coste/mes | |---|---| | ElevenLabs Creator plan | 22 USD (~20 EUR) | | Zadarma | 12 EUR | | Hetzner | 5 EUR | | Total | ~37 EUR/mes |
Compara con un teleoperador human medio: 1.200-1.800 EUR/mes salario + Seg Social. Voice agent es 10-30x más barato.
Errores típicos en implementación
| Error | Consecuencia | Fix | |---|---|---| | Voice agent sin webhook protegido | Cualquiera puede inyectar llamadas falsas en BD | HMAC signature obligatoria | | KB con tablas markdown complejas | LLM no extrae bien, contesta mal | Texto plano con párrafos cortos | | System prompt sin reglas claras | Agent inventa precios o servicios inexistentes | Reglas explícitas + KB authoritative | | Sin transferencia a humano | Casos complejos se pierden | Tool transferir_a_humano siempre disponible | | Outbound sin auth | Toll fraud (alguien hace llamadas premium con tu cuenta) | API key obligatoria + IP allowlist | | Voz inglesa en cliente español | Suena raro, baja conversión | Cristina/Bea en ElevenLabs | | Max duration 30 min | Llamadas eternas de gente que prueba el bot | Cap en 8-10 min |
Casos de uso reales por vertical
SaaS B2B
- Cualificación pre-demo automática
- Filtrado de prospects no fit (ej: tamaño empresa muy grande/pequeña)
- Agendado de demos en Calendly/Cal.com via tool
Ecommerce
- Atención post-venta (estado pedido, devoluciones, modificaciones)
- Recovery de carritos abandonados con outbound
- Seguimiento NPS automatizado
Infoproductos
- Atención a alumnos del curso
- Pre-venta cualificación
- Recordatorios de masterclass live
Agencias
- Recepción de leads desde web/Google Ads
- Pre-cualificación según servicio interés
- Transferencia a comercial humano si lead es premium
Cuándo NO usar voice agent
- Atención técnica que requiere acceso a sistemas del cliente
- Casos legales o médicos complejos
- Cuando el ICP es muy senior (CEOs grandes, ministros) que esperan humano
- Sectores con regulación estricta (banca, salud) sin compliance específico
FAQ
¿Cuánto tarda implementarlo desde cero?
PYME con stack web ya hecho: 2-3 semanas. PYME desde cero: 4-6 semanas (incluye Hetzner + Fastify + DB + ElevenLabs + Zadarma + tests).
¿Funciona el agent sin internet?
No. Requiere conexión a ElevenLabs + LLM provider + tu webhook. Si tu servidor cae, el agent contesta pero no puede capturar leads ni transferir bien. Por eso es crítico monitoring + uptime alta.
¿La voz suena realmente humana?
En español, Cristina (ElevenLabs) pasa el test de Turing en llamadas cortas (menos de 3 minutos) en el 70% de casos. Para llamadas largas, los usuarios sospechan al sentir que no hay errores humanos típicos. Es preferible declarar "soy asistente virtual" en el primer mensaje.
¿Qué pasa si dice algo falso?
Riesgo real. Mitigaciones: KB authoritative + system prompt con regla "si no estás seguro, pregunta o transfiere" + monitoring de transcripts diario los primeros 30 días. Después de 100+ llamadas auditadas, el agent estabiliza.
¿Puedo usar mi número actual?
Sí, vía portabilidad a Zadarma (gratuita, tarda 5-10 días hábiles) o vía forward desde tu operador actual al número Zadarma. Para empezar, recomendable número nuevo Zadarma + forward del antiguo solo cuando todo funcione.
Conclusión
Voice agent IA con ElevenLabs + Zadarma + Fastify cuesta 37-112 EUR/mes según volumen y entrega más leads cualificados que un teleoperador humano de 1.500 EUR/mes. La implementación es 2-4 semanas si tienes dev skills.
STAKKER SYSTEMS lo implementa llave en mano para PYMEs online: 999 EUR setup + 150 EUR/mes (incluye servidor + monitoring + ajustes). Primera consultoría gratis para evaluar si tu volumen justifica voice agent.
¿Quieres implementar esto en tu negocio?
Primera consulta gratis. Te decimos exactamente qué necesitas y cuánto cuesta. Sin compromisos.
Consulta gratis