Saltar al contenido
IA aplicada

Qué es RAG en inteligencia artificial

Definición

RAG (Retrieval-Augmented Generation) es una técnica que combina un modelo de lenguaje (LLM) con un sistema de búsqueda sobre tu propia base de conocimiento. Antes de responder, el sistema busca documentos relevantes en tu corpus (FAQs, productos, pricing, contratos) y se los pasa al LLM como contexto, para que responda apoyado en datos verificables y no en lo que el modelo recuerde de su entrenamiento.

Para qué sirve

Sin RAG, un LLM responde con lo que aprendió en el entrenamiento. Eso significa: información posiblemente desactualizada, hechos genéricos no específicos de tu negocio, y riesgo alto de alucinar (inventar precios, políticas o productos que no existen). Con RAG, el modelo cita lo que tú le has dado y puede mostrar la fuente.

El stack típico de RAG en 2026 usa una base de datos vectorial (pgvector, Pinecone, Weaviate, Qdrant) donde se almacenan embeddings de tus documentos. Cuando llega una pregunta, se transforma en embedding, se buscan los chunks más similares y se inyectan en el prompt del LLM. Bien implementado, las respuestas son específicas y verificables.

Ejemplo aplicado

Una asesoría fiscal sube todos sus contratos de servicio, FAQs reales del último año y normativa actualizada a una base vectorial. Cuando un cliente pregunta por WhatsApp "qué pasa si llego tarde al modelo 130", el agente IA busca los chunks relevantes, encuentra la respuesta exacta del despacho (no respuestas genéricas de internet) y contesta citando el documento interno. El cliente recibe información correcta y específica de su contrato.

Cuándo merece la pena

  • Tienes documentación interna que cambia poco (FAQs, manuales, productos, pricing) que la IA puede usar como fuente.
  • Tus clientes hacen preguntas específicas de tu negocio que un LLM genérico contestaría mal.
  • Necesitas trazabilidad: poder explicar de dónde sale cada respuesta.
  • Tu volumen de consultas justifica el setup técnico (RAG simple desde 400-600 EUR de implementación).

Errores comunes

  • Subir documentos en formatos malos (PDFs escaneados, Word con tablas raras) sin preprocesar. La búsqueda vectorial saca basura.
  • Chunks demasiado grandes (4000+ tokens) o demasiado pequeños (50 tokens). Tamaño óptimo suele ser 200-800 tokens según contenido.
  • No re-rankear los resultados antes de pasarlos al LLM. La similitud coseno es ruidosa para distinciones finas.
  • No filtrar por metadatos (categoría, fecha, autor). Sin filtros, la IA puede mezclar contenido nuevo con obsoleto.
  • Pretender que RAG arregla un LLM mal entrenado o un prompt mal diseñado. RAG es solo una pieza del sistema.

Cómo lo usa STAKKER SYSTEMS

STAKKER SYSTEMS implementa RAG sobre pgvector (Postgres con extensión vectorial). Lo usamos en producción para chatbots web y WhatsApp en Pack Crecimiento y Total. Incluye preprocesamiento de documentos, chunking inteligente, re-ranking y observabilidad de qué chunks se sirvieron en cada respuesta.

Preguntas frecuentes

¿RAG evita completamente las alucinaciones?

Reduce mucho el riesgo pero no lo elimina. Si el documento citado contiene información incorrecta, la IA la repetirá. RAG mejora trazabilidad, no calidad de la fuente.

¿Hay que re-indexar cuando cambian los documentos?

Sí. Si cambia el pricing o un proceso, hay que actualizar el documento y reindexar el embedding. Con n8n se puede automatizar (cron diario o trigger por edición).

¿Qué base vectorial conviene en 2026?

Para volúmenes pequeños y medianos, pgvector sobre Postgres es lo más sensato (sin vendor lock-in, gratis, fácil de operar). Para escalar a millones de chunks, Qdrant o Weaviate.

¿Cuánto cuesta operar un RAG en producción?

Para una pyme con 1.000-10.000 chunks: 0 EUR de licencia (todo open-source) y 10-30 EUR/mes de infraestructura. El coste real es el preprocesamiento inicial y el mantenimiento de la calidad de los documentos.

Términos relacionados

¿Quieres aplicar RAG a tu negocio?

Diagnóstico gratuito de 30 min. Te decimos exactamente qué encaja con tu caso, qué cuesta y qué tarda.