vLLM: Serving LLMs in Production with Very High Throughput
vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.
Category
Artificial intelligence without the hype: models, agents, and use cases that work in production.
vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.
Claude 3.5 Sonnet llegó en junio de 2024 y forzó a todos a repensar. Qué lo hace especial en coding y cómo compara con GPT-4o.
Mistral Large 2 cierra la brecha con GPT-4 y Claude desde Europa. Residencia EU, precios, y cuándo elegirlo frente a las alternativas.
Tras dos años de RAG en producción, patrones claros emergen: chunking inteligente, hybrid search, re-ranking, evaluación continua. Qué evitar.
CrewAI modela agentes como un equipo con roles y tareas. Cómo se compara con LangGraph y AutoGen, y cuándo merece la pena adoptar un patrón multi-agente.
La Assistants API ofrece threads persistentes, tool calling y file search gestionados por OpenAI. Analizamos cuándo compensa frente a Chat Completions más lógica propia.
La Ley de IA de la UE entró en vigor en agosto de 2024. Qué significa para productos con IA, categorías de riesgo y plazos de cumplimiento reales.
Instalar Ollama en un Mac con Apple Silicon, elegir el modelo adecuado según la RAM disponible y exponer la API local para integrarla con tus aplicaciones.
GitLab Duo añade IA al flujo devops completo: code completion, chat, explicación de vulnerabilidades. Cuándo compensa frente a Copilot más tooling separado.
Meta lanzó Llama 3.1 405B con 128k de contexto y calidad cercana a GPT-4o. Qué cambia para los equipos y qué hardware hace falta para servirlo.
Embeddings retrieve fast but rank poorly. A reranker over the top-100 lifts precision 15–30 %. When it pays off and when it does not.
GPT-4 Turbo duplicó el contexto de GPT-4 y redujo el precio 3x. Dónde sigue siendo relevante frente a GPT-4o y cómo migrar sin sorpresas.