Gemini 1.5: Millions of Tokens of Context in Production
Gemini 1.5 Pro demostró que el contexto de un millón de tokens es real. Qué cambia en RAG y arquitecturas cuando el modelo puede procesar un libro entero.
Category
Artificial intelligence without the hype: models, agents, and use cases that work in production.
Gemini 1.5 Pro demostró que el contexto de un millón de tokens es real. Qué cambia en RAG y arquitecturas cuando el modelo puede procesar un libro entero.
Elegir LLM abierto ya no es solo Llama 2. Mistral, Qwen, Yi, DeepSeek y varios más compiten. Criterios prácticos para empresas más allá del benchmark.
OpenAI liberó text-embedding-3 con calidad superior y dimensiones variables. Cómo aprovechar lo nuevo sin rehacer toda la pila RAG ni presupuestar mal el reindexado.
pgvector maduró en 2023-2024 con HNSW y construcción paralela. Cuándo PostgreSQL basta para RAG, cómo indexar bien y dónde empieza a sufrir.
Cohere Embed v3 añadió señales de calidad de documento y mantuvo su foco multilingüe. Cómo compara con OpenAI y cuándo encaja mejor en un pipeline RAG.
Text Generation Inference es la pila de servicio de Hugging Face para LLM abiertos. Cuándo tiene sentido, qué optimizaciones aporta gratis y sus límites reales.
Claude 2 ofrece contexto largo (100K tokens) y un enfoque distinto a la seguridad. Cómo se compara realmente con GPT-4 en uso práctico.
Las bases vectoriales han pasado de ser experimentales a base de productos LLM. Comparativa pragmática entre las tres opciones más usadas en 2023.
Con cuantización y llama.cpp se puede ejecutar Llama 2 7B/13B en un portátil moderno. Cómo funciona y qué calidad esperar realmente.
pgvector convierte PostgreSQL en una base vectorial competente. Por qué la búsqueda semántica necesita índices especializados y cuándo basta con extender Postgres.
LangChain unifica la construcción de aplicaciones con LLM: prompts, retrievers, agentes y memoria. Cuándo ayuda y cuándo añade complejidad innecesaria.
Los embeddings convierten texto en vectores con significado semántico. Cómo se generan, qué modelos elegir y para qué casos sirven realmente.