RAG with Postgres and pgvector in production: from PoC to SLO
Embeddings, HNSW indexing, reranking, evaluation, context window, latency under load. Full stack with code and measurable SLOs.
Tag
Embeddings, HNSW indexing, reranking, evaluation, context window, latency under load. Full stack with code and measurable SLOs.
Tres años después del boom inicial, el RAG en producción ha convergido en patrones híbridos que combinan búsqueda densa, léxica y reranking. Estos son los que sobreviven al paso del tiempo.
Redis 8.2 incorpora búsqueda vectorial como tipo de dato nativo. La pregunta no es si funciona, sino si sustituye a un motor dedicado como Qdrant, Weaviate o pgvector en cargas reales con millones de vectores y latencias exigentes.
El RAG de 2023 era búsqueda vectorial con un LLM detrás. El de 2025 es un sistema híbrido que combina vectores, búsqueda léxica y grafos de conocimiento. Qué ha cambiado, dónde funciona cada pieza y qué decisiones marcan la diferencia entre un RAG útil y uno decepcionante.
Nomic liberó un modelo de embeddings con pesos, datos y código abiertos que rivaliza con text-embedding-3-small de OpenAI. Por qué importa y dónde encaja.
OpenAI liberó text-embedding-3 con calidad superior y dimensiones variables. Cómo aprovechar lo nuevo sin rehacer toda la pila RAG ni presupuestar mal el reindexado.
pgvector maduró en 2023-2024 con HNSW y construcción paralela. Cuándo PostgreSQL basta para RAG, cómo indexar bien y dónde empieza a sufrir.
Cohere Embed v3 añadió señales de calidad de documento y mantuvo su foco multilingüe. Cómo compara con OpenAI y cuándo encaja mejor en un pipeline RAG.
Las bases vectoriales han pasado de ser experimentales a base de productos LLM. Comparativa pragmática entre las tres opciones más usadas en 2023.
pgvector convierte PostgreSQL en una base vectorial competente. Por qué la búsqueda semántica necesita índices especializados y cuándo basta con extender Postgres.
Los embeddings convierten texto en vectores con significado semántico. Cómo se generan, qué modelos elegir y para qué casos sirven realmente.
Chroma es la opción más simple para empezar con embeddings y búsqueda semántica. Cuándo brilla, cuándo se queda corta y cómo desplegarla.
Qdrant, Pinecone y Weaviate comparados en búsqueda semántica, escalabilidad y modelo de despliegue. Cuál elegir según tu caso de uso.