Frameworks de evaluación para retrieval: Ragas y similares

Evaluar RAG sin métricas es intuición. Ragas, TruLens y similares cuantifican faithfulness, relevance y correctness. Cómo integrar sin drama.

110 8 min junio 16, 2024 4,6

Desarrollo de Software

SGLang: control fino sobre la ejecución de LLM

SGLang añade un DSL para controlar la generación de LLM con decoding restringido, branching y caché de prefijos. Cuándo supera a vLLM y por qué RadixAttention cambia la aritmética.

100 9 min junio 10, 2024 4,5

Inteligencia Artificial

GPT-4o: multimodalidad nativa de OpenAI

OpenAI presentó GPT-4o con texto, audio y visión integrados nativamente. Qué cambia en aplicaciones, latencia y precio frente a GPT-4 Turbo.

112 6 min junio 1, 2024

Inteligencia Artificial

Llama 3: el nuevo estándar abierto de Meta

Llama 3 en 8B y 70B llevó a Meta a competir con frontier cerrados. Qué mejora sobre Llama 2, benchmarks clave y cuándo usarlo.

104 6 min mayo 20, 2024 4,5

Inteligencia Artificial

nomic-embed-text: embeddings abiertos competitivos

Nomic liberó un modelo de embeddings con pesos, datos y código abiertos que rivaliza con text-embedding-3-small de OpenAI. Por qué importa y dónde encaja.

124 9 min mayo 5, 2024 4,5

Desarrollo de Software

LangGraph: grafos de estados para agentes más robustos

LangGraph modela agentes LLM como grafos de estados explícitos. Cuándo supera al bucle tradicional de LangChain y cómo estructurar flujos que no se desmoronan en producción.

95 9 min mayo 2, 2024 4,4

Desarrollo de Software

Decodificación restringida para salidas estructuradas en LLM

Outlines, Guidance e Instructor obligan al modelo a emitir JSON válido en el propio paso de generación. Cuándo ganan frente a reintentos y function calling.

169 11 min abril 26, 2024 4,8

Inteligencia Artificial

Familia Claude 3: Haiku, Sonnet y Opus comparados

Anthropic lanzó tres modelos Claude 3 el mismo día. Qué diferencia entre Haiku, Sonnet y Opus, cuándo elegir cada uno y cómo encajan con OpenAI.

127 7 min abril 14, 2024 4,5

Inteligencia Artificial

Mixtral 8x22B: mixture of experts abierto y potente

Mistral liberó Mixtral 8x22B por magnet link sin fanfarria. Qué aporta técnicamente, cómo se compara con 8x7B y GPT-4, y qué hardware necesita.

264 7 min abril 11, 2024

Herramientas

LM Studio: explorar modelos de IA desde el escritorio

LM Studio convierte cualquier portátil moderno en laboratorio de LLMs locales. Para quién es y cuándo supera a Ollama u OpenWebUI.

110 7 min abril 8, 2024 4,6

Inteligencia Artificial

ONNX Runtime en el edge: inferencia portable y rápida

Un modelo, muchos destinos. ONNX Runtime resuelve la fragmentación de runtimes ML a costa de ceder algo de techo en cada plataforma concreta.

183 8 min marzo 18, 2024

Herramientas

LiteLLM: un proxy para unificar proveedores de modelos

Cuando una aplicación habla con dos o más proveedores de LLM, antes o después aparece un proxy entre medias. LiteLLM propone uno concreto, y esta es la lectura honesta de qué gana y qué cuesta.

188 12 min marzo 3, 2024 4,1