Gemini 1.5: Millions of Tokens of Context in Production

Gemini 1.5 Pro demostró que el contexto de un millón de tokens es real. Qué cambia en RAG y arquitecturas cuando el modelo puede procesar un libro entero.

99 9 min February 26, 2024 4.4

Inteligencia Artificial

Choosing an Open LLM for Enterprise in 2024

Elegir LLM abierto ya no es solo Llama 2. Mistral, Qwen, Yi, DeepSeek y varios más compiten. Criterios prácticos para empresas más allá del benchmark.

121 9 min February 20, 2024 4.5

Inteligencia Artificial

OpenAI text-embedding-3: What Changes vs the Previous One

OpenAI liberó text-embedding-3 con calidad superior y dimensiones variables. Cómo aprovechar lo nuevo sin rehacer toda la pila RAG ni presupuestar mal el reindexado.

127 10 min January 27, 2024 4.5

Arquitectura

pgvector in 2024: HNSW Indexes and Real Scaling

pgvector maduró en 2023-2024 con HNSW y construcción paralela. Cuándo PostgreSQL basta para RAG, cómo indexar bien y dónde empieza a sufrir.

127 12 min January 21, 2024 4.4

Inteligencia Artificial

Cohere Embed v3: Multilingual and Enterprise-Oriented

Cohere Embed v3 añadió señales de calidad de documento y mantuvo su foco multilingüe. Cómo compara con OpenAI y cuándo encaja mejor en un pipeline RAG.

122 9 min January 9, 2024 4.2

Inteligencia Artificial

Hugging Face TGI: Serving Open Models at Scale

Text Generation Inference es la pila de servicio de Hugging Face para LLM abiertos. Cuándo tiene sentido, qué optimizaciones aporta gratis y sus límites reales.

159 9 min January 3, 2024 4.4

Inteligencia Artificial

Claude 2: Anthropic’s Alternative to GPT-4

Claude 2 ofrece contexto largo (100K tokens) y un enfoque distinto a la seguridad. Cómo se compara realmente con GPT-4 en uso práctico.

97 9 min November 16, 2023 4.5

Arquitectura

Vector Databases: Qdrant, Pinecone, and Weaviate

Las bases vectoriales han pasado de ser experimentales a base de productos LLM. Comparativa pragmática entre las tres opciones más usadas en 2023.

143 10 min November 13, 2023 4.4

Herramientas

Model Quantization and llama.cpp on Your Laptop

Con cuantización y llama.cpp se puede ejecutar Llama 2 7B/13B en un portátil moderno. Cómo funciona y qué calidad esperar realmente.

138 10 min November 4, 2023 4.5

Arquitectura

pgvector: Semantic Search Without Leaving Postgres

pgvector convierte PostgreSQL en una base vectorial competente. Por qué la búsqueda semántica necesita índices especializados y cuándo basta con extender Postgres.

122 12 min November 1, 2023

Desarrollo de Software

LangChain: The Framework for Orchestrating LLM Applications

LangChain unifica la construcción de aplicaciones con LLM: prompts, retrievers, agentes y memoria. Cuándo ayuda y cuándo añade complejidad innecesaria.

148 10 min October 29, 2023 4.4

Inteligencia Artificial

Text Embeddings: Turning Words Into Useful Vectors

Los embeddings convierten texto en vectores con significado semántico. Cómo se generan, qué modelos elegir y para qué casos sirven realmente.

133 10 min October 26, 2023 4.8