vLLM: servir LLM en producción con altísimo throughput
vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.
Categoría
Inteligencia artificial sin hype: modelos, agentes y casos de uso que funcionan en producción.
vLLM se ha convertido en la referencia para servir LLM en GPU. PagedAttention, batching continuo y API compatible con OpenAI. Cómo desplegarlo bien y cuándo compensa.
Claude 3.5 Sonnet llegó en junio de 2024 y forzó a todos a repensar. Qué lo hace especial en coding y cómo compara con GPT-4o.
Mistral Large 2 cierra la brecha con GPT-4 y Claude desde Europa. Residencia EU, precios, y cuándo elegirlo frente a las alternativas.
Tras dos años de RAG en producción, patrones claros emergen: chunking inteligente, hybrid search, re-ranking, evaluación continua. Qué evitar.
CrewAI modela agentes como un equipo con roles y tareas. Cómo se compara con LangGraph y AutoGen, y cuándo merece la pena adoptar un patrón multi-agente.
La Assistants API ofrece threads persistentes, tool calling y file search gestionados por OpenAI. Analizamos cuándo compensa frente a Chat Completions más lógica propia.
La Ley de IA de la UE entró en vigor en agosto de 2024. Qué significa para productos con IA, categorías de riesgo y plazos de cumplimiento reales.
Instalar Ollama en un Mac con Apple Silicon, elegir el modelo adecuado según la RAM disponible y exponer la API local para integrarla con tus aplicaciones.
GitLab Duo añade IA al flujo devops completo: code completion, chat, explicación de vulnerabilidades. Cuándo compensa frente a Copilot más tooling separado.
Meta lanzó Llama 3.1 405B con 128k de contexto y calidad cercana a GPT-4o. Qué cambia para los equipos y qué hardware hace falta para servirlo.
Los embeddings recuperan rápido, pero ordenan mal. Un reranker sobre el top-100 sube precisión entre un 15 y un 30 por ciento. Cuándo compensa y cuándo no.
GPT-4 Turbo duplicó el contexto de GPT-4 y redujo el precio 3x. Dónde sigue siendo relevante frente a GPT-4o y cómo migrar sin sorpresas.