How to build a production-ready agent with the Anthropic SDK, step by step
Full tutorial: tool use, streaming, prompt caching, observability, and your own MCP server. Reference repo included.
Category
Full tutorial: tool use, streaming, prompt caching, observability, and your own MCP server. Reference repo included.
Three production coding agents, five real tasks measured by time, tokens, and PR quality. No marketing — the actual measurement.
After eighteen months of multi-vendor adoption, MCP is the de facto standard for connecting models to tools. The complete guide: architecture, servers, policies, authentication, composition, and the antipatterns we've already seen in production.
Direct Preference Optimization and its relatives have displaced RLHF as the preferred alignment method in much of the ecosystem. This is the practical state of the field in 2026.
La idea de que la UI se genere sobre la marcha en lugar de ser prediseñada llegó a producción en 2025. Tras un año de casos reales, el balance es más matizado que el entusiasmo inicial.
Mientras OpenAI y Anthropic acaparan titulares con rondas gigantes, un conjunto creciente de startups de IA de nicho factura millones con equipos de tres a diez personas. Estos son los patrones que comparten.
La primera factura de un agente en producción suele ser más alta de lo que el equipo esperaba. Este artículo recoge las palancas reales para controlar el coste sin sacrificar calidad.
Opus 4.7 se lanzó como el modelo más capaz de Anthropic con énfasis en trabajo agéntico de horizonte largo. Tras dos meses de uso intensivo, estos son los cambios prácticos frente a Opus 4.6.
Tres años después del boom inicial, el RAG en producción ha convergido en patrones híbridos que combinan búsqueda densa, léxica y reranking. Estos son los que sobreviven al paso del tiempo.
Sonnet 4.6 es el modelo por defecto de la mayoría de cargas de trabajo en 2026. Estos son los casos donde brilla, dónde no basta y por qué sigue siendo el sweet spot.
Using an LLM to judge another LLM became widespread in 2024 and remains the only scalable way to evaluate qualitative quality. The mature question is when to trust those numbers.
The Model Context Protocol, proposed by Anthropic in late 2024 and adopted through 2025-2026 by every major vendor, has proven operational patterns. This is the state of the art.