Inteligencia Artificial

#anthropic #claude #claude-code #ia #llm #razonamiento

Claude 3.7 Sonnet: el paso intermedio hacia la familia 4

7 de marzo de 2025 7 min 177

Índice de contenidos

Puntos clave
El modelo híbrido y el pensamiento extendido
Claude Code como acompañante de terminal
Qué mejora en la práctica frente a 3.5 Sonnet
Lo que queda pendiente
Mi lectura

Actualizado: 2026-06-20

Anthropic publicó Claude 3.7 Sonnet el 24 de febrero y, diez días después, empieza a quedar claro qué encaja este modelo dentro de la familia Claude y qué no. No es un salto mayor al estilo 3 a 3.5, sino un refinamiento cuidadoso con dos novedades importantes: un modo de pensamiento extendido que se activa bajo demanda y una herramienta de consola llamada Claude Code pensada para programadores. Conviene leerlo como el escalón intermedio que prepara el camino a una eventual familia 4, no como una revolución en sí mismo.

Puntos clave

El mismo modelo puede responder de dos maneras: modo estándar (rápido, bajo coste) o modo pensamiento extendido (más tokens, más latencia, mejor en problemas complejos).
Tres áreas de mejora clara frente a 3.5: programación (SWE-bench mejora sustancialmente), razonamiento formal, y seguimiento de instrucciones en conversaciones largas.
Claude Code funciona bien para tareas acotadas sobre codebases conocidas; flaquea ante arquitecturas no definidas o tareas abiertas.
La ventana de contexto sigue en 200K tokens, en desventaja frente al millón de Gemini.
No hay tier Opus en 3.7, lo que sugiere que la familia 4 llegará con su propia estructura.

El modelo híbrido y el pensamiento extendido

La decisión de diseño más interesante de 3.7 es que el mismo modelo puede responder de dos maneras. En modo estándar se comporta como un Sonnet normal: contesta rápido, con poca latencia, bueno para la mayoría de tareas. En modo pensamiento extendido, el modelo genera internamente una cadena de razonamiento más larga antes de la respuesta final, cobra más tokens y tarda más, pero mejora claramente en:

Matemáticas de nivel competición.
Depuración de lógica compleja.
Planificación de tareas con varios requisitos simultáneos.

La elegancia del diseño es que la decisión queda del lado del usuario. En el endpoint de API se puede pedir un presupuesto de tokens de pensamiento, y en claude.ai se activa con un interruptor. No hay modelo «o1» y modelo «o» separados; hay un modelo con dos modos. Esto simplifica la arquitectura de las aplicaciones: no necesitas enrutar entre variantes, mantener credenciales múltiples ni gestionar caídas de un modelo frente a otro.

Lo que he observado en uso es que el modo extendido rinde mejor en un subconjunto de tareas relativamente claro: problemas de programación con varios archivos implicados, diseños algorítmicos no triviales, análisis de código de terceros con dependencias enredadas. Fuera de ese tipo de tareas (escribir un correo, generar una consulta SQL sencilla, resumir un documento), el modo estándar rinde igual o mejor porque es más rápido y no divaga.

La forma en que Anthropic ha implementado el pensamiento extendido contrasta con el enfoque de OpenAI en o3. Para una comparativa directa de rendimiento en razonamiento, ver nuestro análisis de o3 en público.

Claude Code como acompañante de terminal

La segunda novedad es Claude Code, una herramienta de línea de comandos que abre una sesión interactiva con acceso al código del proyecto, capaz de leer archivos, proponer cambios y ejecutar comandos bajo supervisión. Está en vista previa y se instala con npm.

En las pruebas, su punto fuerte es operar sobre bases de código que conoces bien:

Refactorizar funciones concretas.
Escribir tests para código existente.
Explorar un proyecto ajeno y entender cómo fluyen los datos.

Su punto débil es cuando la tarea no está acotada o implica decisiones de arquitectura. Pedirle «mejora la calidad de este repositorio» termina en una larga lista de cambios superficiales. Pedirle «añade un endpoint que haga X, siguiendo el patrón de los endpoints que ya existen» funciona muy bien.

Tiene dos elementos de diseño que me parecen correctos:

Cada acción modificadora pide confirmación explícita por defecto. Puedes dar permisos granulares si te fías, pero por defecto la herramienta no se desboca.
El contexto del proyecto se maneja leyendo archivos bajo demanda en lugar de cargar el repositorio entero. Esto evita que el coste en tokens se dispare y obliga al modelo a razonar sobre qué partes necesita ver.

Para un análisis de cómo Claude Code encaja en el flujo de pair programming más amplio, ver pair programming con IA en 2025.

Qué mejora en la práctica frente a 3.5 Sonnet

Hay tres áreas donde 3.7 supera claramente a la versión anterior:

Programación: las puntuaciones en SWE-bench reflejan una mejora sustancial, y en uso se nota en que el código generado necesita menos correcciones sobre la marcha.
Razonamiento formal: tanto con pensamiento extendido como sin él.
Seguimiento de instrucciones en conversaciones largas: 3.7 respeta mejor las restricciones que se le han dado muchos turnos atrás.

Hay también áreas donde no hay diferencia apreciable: redacción creativa, conversación casual, traducción, resumen de textos. Para flujos de trabajo que no pasan por razonamiento complejo, actualizar es defendible pero no urgente.

La ventana de contexto sigue siendo de 200K tokens. No ha crecido, lo cual contrasta con el millón de tokens que ofrece Gemini y con los movimientos de OpenAI hacia contextos más largos. Para tareas que necesitan ingerir un repositorio grande o una base de conocimiento completa, Anthropic sigue en desventaja comparativa.

Lo que queda pendiente

Pensando en qué pediría a una familia 4, hay varias cosas que 3.7 no resuelve:

La gestión de contextos muy largos: la ventana de 200K sigue siendo el límite más visible.
La capacidad de trabajar de forma más autónoma durante horas, sin supervisión continua, sin derivar en cambios que el humano no quería. Los agentes actuales, Claude Code incluido, siguen necesitando atención frecuente.
La calibración de la incertidumbre: el modelo sigue respondiendo con confianza aparente en casos donde debería decir «no lo sé». En modo pensamiento extendido esto mejora algo, pero no es todavía el comportamiento fiable que uno desearía de un compañero de programación.
La integración con herramientas externas: el ecosistema de MCP introducido a finales de 2024 avanza, pero en Claude Code la interacción con servicios ajenos requiere trabajo manual de configuración.

Mi lectura

Claude 3.7 Sonnet es un lanzamiento bien pensado que mueve el estado del arte en programación e introduce dos patrones arquitectónicos que creo que van a quedarse. El modelo híbrido con pensamiento opcional es una manera razonable de dar acceso a razonamiento profundo sin obligar a mantener modelos separados, y Claude Code marca una dirección clara para herramientas de desarrollo asistido que van más allá del autocompletado en el editor.

Lo que no es es un salto generacional. Anthropic ha preferido consolidar lo que 3.5 ya hacía bien y añadir capacidades específicas donde había margen. Para quien usa Sonnet a diario, migrar a 3.7 es sencillo y vale la pena; para quien está construyendo una aplicación sobre la API, la compatibilidad se mantiene y el coste es similar.

No hay tier Opus en 3.7, algo que me resulta llamativo y que sugiere que la familia 4 llegará con su propia estructura.

Por ahora, 3.7 Sonnet en modo estándar cubre la mayoría de usos del día a día, el pensamiento extendido se reserva para problemas que lo necesitan, y Claude Code es una herramienta que merece probar si programas a menudo. Es el escalón intermedio honesto, no la promesa del siguiente salto.

Claude 3.7 Sonnet: el paso intermedio hacia la familia 4

Puntos clave

El modelo híbrido y el pensamiento extendido

Claude Code como acompañante de terminal

Qué mejora en la práctica frente a 3.5 Sonnet

Lo que queda pendiente

Mi lectura

Comparte este artículo

¿Te ha resultado útil este artículo?

Entradas relacionadas

RAG con Postgres y pgvector en producción: del PoC al SLO

EU AI Act 2026: checklist técnica para CTOs españoles

Observabilidad de agentes con OpenTelemetry GenAI semconv en 2026

Cómo instalar oMLX en M5 Max 128 GB y exprimirlo al máximo