vLLM: servir LLM en producción con altísimo throughput

vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.

158 13 min octubre 5, 2024 4,5

Inteligencia Artificial

Claude 3.5 Sonnet: el modelo que reescribió el equilibrio precio-calidad

Claude 3.5 Sonnet llegó en junio de 2024 y forzó a todos a repensar. Qué lo hace especial en coding y cómo compara con GPT-4o.

211 9 min octubre 2, 2024 4,6

Inteligencia Artificial

Mistral Large: el contendiente europeo frente a GPT-4

Mistral Large 2 cierra la brecha con GPT-4 y Claude desde Europa. Residencia EU, precios, y cuándo elegirlo frente a las alternativas.

115 10 min septiembre 29, 2024 4,7

Arquitectura

RAG en producción: patrones que funcionan y los que no

Tras dos años de RAG en producción, patrones claros emergen: chunking inteligente, hybrid search, re-ranking, evaluación continua. Qué evitar.

145 12 min septiembre 26, 2024 4,4

Inteligencia Artificial

CrewAI: orquestar equipos de agentes de IA

CrewAI modela agentes como un equipo con roles y tareas. Cómo se compara con LangGraph y AutoGen, y cuándo merece la pena adoptar un patrón multi-agente.

132 12 min septiembre 23, 2024 4,6

Desarrollo de Software

OpenAI Assistants API: agentes con estado sin infraestructura propia

La Assistants API ofrece threads persistentes, tool calling y file search gestionados por OpenAI. Analizamos cuándo compensa frente a Chat Completions más lógica propia.

116 12 min septiembre 17, 2024 4,4

Inteligencia Artificial

Ley de IA de la Unión Europea: lo que cambia para tu empresa

La Ley de IA de la UE entró en vigor en agosto de 2024. Qué significa para productos con IA, categorías de riesgo y plazos de cumplimiento reales.

117 10 min septiembre 8, 2024

Cómo Instalar

Cómo instalar Ollama en macOS con Apple Silicon

Instalar Ollama en un Mac con Apple Silicon, elegir el modelo adecuado según la RAM disponible y exponer la API local para integrarla con tus aplicaciones.

486 11 min agosto 6, 2024 4,1

Herramientas

GitLab Duo: asistentes de IA integrados en tu pipeline

GitLab Duo añade IA al flujo devops completo: code completion, chat, explicación de vulnerabilidades. Cuándo compensa frente a Copilot más tooling separado.

112 8 min julio 31, 2024 4,5

Inteligencia Artificial

Llama 3.1 405B: cuando lo abierto alcanza al top cerrado

Meta lanzó Llama 3.1 405B con 128k de contexto y calidad cercana a GPT-4o. Qué cambia para los equipos y qué hardware hace falta para servirlo.

132 8 min julio 25, 2024

Inteligencia Artificial

Re-ranking en RAG: la pieza que sube la calidad de verdad

Los embeddings recuperan rápido, pero ordenan mal. Un reranker sobre el top-100 sube precisión entre un 15 y un 30 por ciento. Cuándo compensa y cuándo no.

256 11 min julio 10, 2024 4,7

Inteligencia Artificial

GPT-4 Turbo: contexto largo y costes más razonables

GPT-4 Turbo duplicó el contexto de GPT-4 y redujo el precio 3x. Dónde sigue siendo relevante frente a GPT-4o y cómo migrar sin sorpresas.

106 9 min julio 4, 2024 4,6