Saltar al contenido
Volver al blog
|11 min lectura|Samuel Martínez

Como elegir un agente de voz IA para tu negocio: 7 criterios

Los agentes de voz con IA ya atienden llamadas en recepcion, soporte, reservas y ventas. Pero entre una demo que suena bien y un sistema que funciona en produccion hay 7 decisiones tecnicas que determinan si vas a ahorrar tiempo o a heredar un problema. Este articulo desglosa los criterios que importan cuando evaluas proveedores: latencia, voces, integraciones, idiomas, escalabilidad, privacidad y coste real.

Si estas comparando plataformas o recibiste una propuesta y no sabes que preguntar, aqui tienes la lista de verificacion que usan equipos tecnicos antes de firmar.

Esta pagina es informativa, no es asesoramiento vinculante. Cada caso se ajusta tras diagnostico.

TL;DR

  • La latencia por debajo de 1,5 segundos es critica; por encima de 2 segundos la experiencia se degrada.
  • Las voces sinteticas de alta gama (ElevenLabs, OpenAI) suenan naturales; clona voz solo si la identidad de marca lo justifica.
  • Integra el agente con tu CRM, centralita y base de conocimiento via webhook o API REST; sin integraciones es un silo.
  • El agente debe manejar tu idioma y variantes regionales (castellano, catalan, gallego) con precision > 95% en transcripcion.
  • Escalabilidad: el sistema debe soportar picos de 10x sin degradar latencia ni calidad de voz.
  • Privacidad y cumplimiento RGPD exigen grabaciones encriptadas, TTL configurables y data residency en UE.
  • Coste tipico de mercado: 0,10-0,40 EUR/minuto + cuota plataforma; soluciones custom desde 800 EUR/mes.

Latencia: el cuello de botella invisible

La latencia es el tiempo entre que el cliente termina de hablar y el agente empieza a responder. Una conversacion natural exige menos de 1,5 segundos; por encima de 2 segundos se siente robotica y aumenta el abandono.

La cadena completa incluye:

  • Transcripcion de voz a texto (STT): 200-500 ms con Whisper o Deepgram.
  • Procesamiento del LLM (respuesta): 400-1200 ms segun modelo y contexto.
  • Sintesis de texto a voz (TTS): 300-800 ms con voces neuronales.
  • Red y jitter: 100-300 ms segun proveedor de telefonia.

Un buen proveedor mide latencia P95 (percentil 95) y te la muestra en dashboard. Si no hay metrica publica, pidela. Si la demo no la menciona, es senal de alerta.

Como verificar latencia en pruebas

  1. Haz 10 llamadas de prueba en horarios distintos.
  2. Graba tu experiencia y mide tiempo de silencio con un cronometro.
  3. Si supera 2 segundos en 3 de 10 llamadas, descarta el proveedor.

La latencia no se arregla con "optimizaciones futuras". Es arquitectura. Un agente telefonico IA bien disenado arranca con latencia < 1,2 s en P95.

Voces naturales vs voces clonadas

Las voces sinteticas de 2026 (ElevenLabs Turbo v2.5, OpenAI Alloy, Azure Neural) suenan humanas, manejan entonacion y respetan pausas. Las voces clonadas de tu equipo aportan identidad pero suman complejidad.

Cuando usar voces sinteticas

  • Arrancas rapido, sin captura de muestras.
  • Necesitas multiples idiomas o acentos.
  • El coste por minuto es predecible (0,05-0,15 EUR).

Cuando clonar voz

  • Tu marca tiene identidad vocal fuerte (radio, podcast, TV).
  • El cliente reconoce la voz del fundador o portavoz.
  • Tienes 30-60 minutos de audio limpio y consentimiento RGPD del hablante.

La clonacion cuesta entre 200 y 800 EUR setup segun proveedor, mas 0,10-0,20 EUR adicionales por minuto de sintesis. Si no tienes caso de negocio claro, empieza con sinteticas.

Integraciones: CRM, centralita y base de conocimiento

Un agente aislado es un callejon sin salida. Debe leer datos de tu CRM, escribir resultados y transferir llamadas a humanos cuando no puede resolver.

Integraciones basicas

  • CRM (Salesforce, HubSpot, Pipedrive): el agente lee ficha del cliente por telefono entrante, escribe nota post-llamada.
  • Centralita (Asterisk, 3CX, Twilio): transferencia en caliente o frio a extension humana.
  • Base de conocimiento (Notion, Confluence, Google Drive): el agente busca respuestas via RAG antes de responder.

Como verificar capacidad de integracion

  1. Pide documentacion de API o webhook.
  2. Pregunta por ejemplos de payload JSON.
  3. Solicita caso de uso de integracion con tu stack actual.

Si el proveedor no tiene API documentada o solo ofrece "integraciones nativas" con 3 herramientas, la flexibilidad es nula. Una plataforma seria expone webhook HTTP POST en cada evento de llamada. Asi tu equipo puede conectar cualquier sistema via automatizacion.

Idiomas y variantes regionales

Los modelos STT entrenados en ingles fallan con castellano de Andalucia, catalan o gallego. La precision de transcripcion debe superar 95% en tu idioma y acento objetivo.

Checklist de idioma

  • Castellano de Espana: verifica que entiende "vale", "anda", "guay", "ostras".
  • Catalan: si tu negocio opera en Catalunya, exige test con hablantes nativos.
  • Vocabulario sectorial: medicina, legal, inmobiliaria tienen jerga especifica. El modelo debe fine-tunearse o recibir glosario custom.

Algunos proveedores ofrecen fine-tuning de STT por 500-2000 EUR. Si tu negocio usa terminos tecnicos (codigos de producto, marcas propias, siglas), el fine-tuning reduce errores del 15% al 3%.

Escalabilidad: de 10 a 1000 llamadas diarias

Un agente que funciona con 50 llamadas/dia puede colapsar en Black Friday o campana de marketing. La escalabilidad no es solo agregar servidores; es latencia estable bajo carga.

Escenarios de estres

  • Pico 10x: tu negocio recibe 500 llamadas en 2 horas. El agente debe mantener latencia < 1,5 s y 0% de caidas.
  • Llamadas simultaneas: 20 clientes llaman a la vez. El proveedor debe tener pool de instancias o autoscaling.

Preguntas para el proveedor

  1. Cual es el limite de llamadas simultaneas en tu plan?
  2. Como escala el sistema en picos? (autoscaling, instancias reservadas, cola).
  3. Que pasa si supero el limite? (cola, busy tone, caida).

Los proveedores SaaS serios publican SLA de disponibilidad (99,5% o superior) y latencia P95. Si no hay SLA escrito, el sistema no esta listo para produccion.

Privacidad y cumplimiento RGPD

Las llamadas contienen datos personales. El agente debe cumplir RGPD: consentimiento, encriptacion, data residency en UE y TTL de grabaciones.

Requisitos minimos

  • Consentimiento: el agente informa al inicio que la llamada se graba.
  • Encriptacion: audio y transcripciones encriptados en reposo (AES-256) y transito (TLS 1.3).
  • Data residency: servidores en UE (Frankfurt, Amsterdam, Paris). No AWS us-east.
  • TTL: grabaciones se borran tras 30, 60 o 90 dias segun politica de retencion.

Si el proveedor no menciona RGPD o dice "cumplimos con GDPR" sin documentacion, pide DPA (Data Processing Agreement) y anexo tecnico. Un proveedor serio tiene DPA plantilla lista para firmar.

Para mas contexto legal, consulta IA y proteccion de datos.

Coste real: variables ocultas

Los precios publicos de proveedores SaaS suelen omitir costes variables. Un negocio con 200 llamadas de 3 minutos al mes puede pagar entre 110 y 400 EUR segun proveedor y plan.

Estructura de coste tipica de mercado

  • Cuota base: 50-200 EUR/mes (plataforma, dashboard, soporte).
  • Minutos de llamada: 0,10-0,40 EUR/minuto.
  • Transcripcion: incluida o 0,006 EUR/minuto extra.
  • Voz clonada: +0,10 EUR/minuto si usas custom voice.
  • LLM premium: +0,05 EUR/minuto si usas GPT-4 en lugar de modelo base.

Ejemplo de coste mensual orientativo

Negocio con 200 llamadas/mes de 3 minutos promedio:

  • 600 minutos × 0,20 EUR = 120 EUR (llamadas).
  • 100 EUR (cuota base).
  • Total: 220 EUR/mes.

Si el volumen crece a 1000 llamadas (3000 min), el coste puede saltar a 700 EUR/mes. Las soluciones custom con infraestructura propia arrancan desde 800 EUR/mes pero reducen coste variable a 0,05-0,10 EUR/minuto una vez amortizada la inversion inicial.

STAKKER trabaja con diagnostico gratuito y propuesta a medida; cada proyecto se ajusta a volumen y stack del cliente. Si necesitas proyeccion de coste, contacta aqui.

Transferencia a humanos: el plan B necesario

El agente debe reconocer cuando no puede resolver y transferir la llamada a un humano sin que el cliente repita su problema.

Tipos de transferencia

  • Transferencia en caliente: el agente resume el caso al operador humano antes de conectar al cliente.
  • Transferencia en frio: el agente pasa la llamada directamente; el cliente explica de nuevo.

La transferencia en caliente reduce tiempo de resolucion y mejora CSAT. Requiere integracion con centralita via SIP trunk o API de Twilio/3CX. Si tu negocio usa agentes de IA para soporte L1, esta funcionalidad es critica.

Como probar transferencia

  1. En la demo, pide un caso que el agente no pueda resolver (por ejemplo, devolucion fuera de politica).
  2. Verifica que el agente detecta el limite y ofrece transferencia.
  3. Confirma que la llamada llega a la cola correcta y el operador recibe contexto.

Si el proveedor no tiene transferencia o es "roadmap", el agente es un MVP, no una solucion de produccion.

Metricas y dashboard: mide lo que importa

Sin metricas, no sabes si el agente funciona. Un dashboard util muestra:

  • Tasa de resolucion: % de llamadas cerradas sin humano.
  • CSAT: puntuacion del cliente post-llamada (1-5).
  • Latencia P95: percentil 95 de tiempo de respuesta.
  • Tasa de abandono: % de clientes que cuelgan antes de terminar.
  • Duracion promedio: minutos por llamada.

Benchmarks tipicos

  • Resolucion > 75%: el agente maneja 3 de cada 4 llamadas.
  • CSAT > 4/5: el cliente queda satisfecho.
  • Latencia P95 < 1,5 s: conversacion natural.
  • Abandono < 10%: el flujo no frustra.

Si el proveedor no expone estas metricas en dashboard, pidelas en CSV o API. La falta de metricas es senal de que el sistema no esta instrumentado para produccion.

Preguntas frecuentes

Que latencia es aceptable en un agente de voz IA?

Entre 800 ms y 1,5 segundos desde que el cliente termina de hablar hasta que el agente responde. Por debajo de 800 ms la conversacion se siente natural; por encima de 2 segundos la experiencia se degrada y aumentan los abandonos. La latencia depende de la cadena completa: transcripcion, LLM, sintesis de voz y red.

Son mejores las voces sinteticas o las clonadas?

Las voces sinteticas de alta gama (ElevenLabs Turbo v2.5, OpenAI Alloy) suenan naturales, manejan emociones y cuestan menos por llamada. Las voces clonadas de tu equipo aportan autenticidad de marca pero exigen mas muestras de audio, gestion de consentimiento RGPD y coste adicional. Empieza con sinteticas; clona solo si la identidad de voz es critica.

Puedo integrar el agente de voz con mi CRM?

Si el proveedor expone webhook en tiempo real o API REST, si. Los agentes bien disenados envian eventos de llamada (inicio, fin, transcripcion, resultado) a tu CRM via HTTP POST o integran directamente con Salesforce, HubSpot o Pipedrive. Pregunta por la documentacion de API y ejemplo de payload antes de contratar.

Cuanto cuesta un agente de voz IA al mes?

Los proveedores SaaS tipicos cobran entre 0,10 y 0,40 EUR por minuto de llamada, mas cuota de plataforma (50-200 EUR/mes). Una pyme con 200 llamadas de 3 minutos promedio paga entre 110 y 290 EUR/mes. Las soluciones custom con infraestructura propia arrancan desde 800 EUR/mes pero reducen el coste variable por llamada.

El agente puede transferir llamadas a un humano?

Los buenos si. Busca transferencia en caliente (el agente resume el caso antes de pasar la llamada) o en frio (transfiere directamente). La transferencia requiere integracion con tu centralita (Asterisk, 3CX, Twilio) via SIP o API. Sin esta funcionalidad, el agente es un callejon sin salida cuando no puede resolver.

Como se mide si el agente funciona bien?

Tres metricas clave: tasa de resolucion (porcentaje de llamadas cerradas sin humano), puntuacion CSAT del cliente (encuesta post-llamada) y tasa de abandono (clientes que cuelgan antes de terminar). Un agente bien configurado supera 75% de resolucion, 4/5 en CSAT y mantiene abandono bajo 10%. Exige dashboard con estas metricas antes de contratar.

Siguiente paso

Si estas comparando proveedores o ya tienes una propuesta sobre la mesa, estos 7 criterios te ayudan a separar demos de marketing de sistemas listos para produccion. La decision correcta depende de tu volumen, stack tecnologico y caso de uso.

STAKKER construye agentes telefonicos IA custom con latencia < 1 s, integraciones nativas con CRM y centralita, y dashboard de metricas en tiempo real. Cada proyecto arranca con un diagnostico gratuito donde auditamos tu flujo de llamadas actual y disenamos la arquitectura que encaja.

Si quieres evaluar si un agente de voz IA tiene sentido en tu caso, contacta aqui.

¿Quieres implementar esto en tu negocio?

Primera consulta gratis. Te decimos exactamente qué necesitas y cuánto cuesta. Sin compromisos.

Consulta gratis