Cómo instalar oMLX en M5 Max 128 GB y exprimirlo al máximo

Receta probada en mayo de 2026: oMLX 0.3.8 en Mac M5 Max con 128 GB, TurboQuant a 3,5-bit, stack Qwen 3.6 35B-A3B, wiring para Claude Code y benchmarks reales.

17 de mayo de 2026 14 min 2,7K 5,0

Experiencia de Usuario

UI generada en tiempo real: primer año en serio

La idea de que la UI se genere sobre la marcha en lugar de ser prediseñada llegó a producción en 2025. Tras un año de casos reales, el balance es más matizado que el entusiasmo inicial.

28 de abril de 2026 4 min 396 4,2

Inteligencia Artificial

DPO y alternativas a RLHF: estado práctico en 2026

Direct Preference Optimization y sus primas han desplazado a RLHF como alineamiento preferido en gran parte del ecosistema. Este es el estado práctico del campo en 2026.

28 de abril de 2026 3 min 1,2K 4,6

Inteligencia Artificial

Datos sintéticos para entrenamiento en 2026: cuándo funcionan

Los datos sintéticos han dejado de ser sustituto precario de datos reales para convertirse en componente central del entrenamiento moderno. Estos son los patrones probados y los que todavía fallan.

28 de abril de 2026 3 min 239 4,3

Arquitectura

RAG híbrido en 2026: los patrones que siguen ganando

Tres años después del boom inicial, el RAG en producción ha convergido en patrones híbridos que combinan búsqueda densa, léxica y reranking. Estos son los que sobreviven al paso del tiempo.

28 de abril de 2026 3 min 519 4,6

Inteligencia Artificial

FinOps de tokens en agentes: la cuenta que sorprende

La primera factura de un agente en producción suele ser más alta de lo que el equipo esperaba. Este artículo recoge las palancas reales para controlar el coste sin sacrificar calidad.

28 de abril de 2026 4 min 263 4,2

Inteligencia Artificial

LLM red teaming: manual práctico

El red teaming de modelos de lenguaje ha pasado de actividad esotérica a práctica obligatoria. Con OWASP Agentic Top 10 y CSA Agentic AI Red Teaming Guide convergiendo en un vocabulario común, este es el manual operativo que cualquier equipo que despliegue agentes necesita tener.

26 de abril de 2026 7 min 195 4,2

Inteligencia Artificial

Prompt engineering: de truco a disciplina madura

Prompt engineering ha pasado de ser una colección de trucos virales a una disciplina con patrones reproducibles, librerías dedicadas y herramientas de observabilidad.

17 de abril de 2026 5 min 244 4,7

Inteligencia Artificial

FinOps para cargas de IA en 2026: el dolor real

La factura de IA en las empresas ha dejado de ser anecdótica. Entre tokens de modelos frontera, GPUs reservadas que nadie usa y pipelines RAG con cachés mal configuradas, muchos equipos pagan diez veces lo que deberían. Guía de FinOps específico para IA sin relatos promocionales.

5 de marzo de 2026 7 min 255 4,4

Inteligencia Artificial

Renacimiento del grafo de conocimiento con LLM

Los grafos de conocimiento llevaban dos décadas esperando su momento. Con los LLM como puente entre texto y ontología, y el patrón GraphRAG ya maduro, la tecnología vuelve al primer plano. Toca revisar por qué ahora sí encaja y dónde conviene usarla.

31 de enero de 2026 8 min 214 4,4

Inteligencia Artificial

Documentación automática con LLM: cuándo aporta y cuándo molesta

Los modelos grandes de lenguaje llevan dos años prometiendo documentar código, APIs y arquitecturas sin esfuerzo. Después de ver docenas de proyectos intentarlo, hay patrones claros de dónde funciona y dónde acaba siendo una deuda más.

17 de diciembre de 2025 7 min 211 4,3

Inteligencia Artificial

Guardrails en LLM: frameworks y su coste real

Los frameworks de guardrails prometen filtrar entradas y salidas de modelos de lenguaje para bloquear fugas de datos, contenido dañino o alucinaciones. Tras evaluar cuatro de los más populares en producción, repaso qué hacen realmente, qué coste en latencia y factura añaden y cuándo compensan frente a controles más simples.

11 de diciembre de 2025 9 min 326 4,4

Inteligencia Artificial

Observabilidad de agentes de IA: qué instrumentar primero

Los agentes que encadenan llamadas a modelos, herramientas y memoria son difíciles de depurar sin una instrumentación pensada para ellos. Después de un año largo operando agentes en producción, repaso qué hay que medir primero, qué estándares están consolidándose y qué errores caros evita tener trazas bien hechas desde el inicio.

8 de diciembre de 2025 9 min 220

Arquitectura

Cachés para LLM: ahorrar tokens sin tirar la calidad

Un proxy con caché delante de un modelo de lenguaje puede reducir la factura de tokens de forma significativa, pero introduce riesgos sutiles si el diseño no es cuidadoso. Qué tipos de caché funcionan en producción, dónde están las trampas habituales y cómo integrarlos sin degradar la experiencia.

29 de noviembre de 2025 6 min 205

Arquitectura

Enrutadores de inferencia: elegir modelo según la petición

Un enrutador de inferencia decide qué modelo atiende cada petición en función de coste, latencia y complejidad. Bien diseñados reducen la factura de tokens sin que el usuario perciba degradación; mal diseñados introducen fallos sutiles difíciles de depurar.

26 de noviembre de 2025 6 min 209 4,1

Inteligencia Artificial

Testing con IA: el problema del determinismo

Probar sistemas que incluyen modelos de lenguaje rompe la primera regla del testing: la misma entrada da la misma salida. Analizo las estrategias que han funcionado tras un año largo integrando IA en productos reales, por qué los tests deterministas tradicionales no bastan y cómo plantear un cinturón de pruebas que capture regresiones sin bloquearse en la varianza.

11 de noviembre de 2025 8 min 193

Arquitectura

Agent OS: el concepto que está moldeando la nueva capa

El término Agent OS lleva un año ganando tracción entre investigación y producto. Describe una capa que va más allá de una biblioteca de agentes: planificador, gestión de contexto, memoria persistente y aislamiento. Una lectura del estado real de ese concepto.

12 de octubre de 2025 6 min 279 4,5

Arquitectura

Model Context Protocol en 2025: del anuncio al ecosistema

Model Context Protocol cumple diez meses desde su anuncio de Anthropic y ya no es una propuesta: hay cientos de servidores, implementaciones cruzadas entre proveedores y un registro público. Repaso de qué ha funcionado, qué sigue flojo y por qué 2025 marca el paso de curiosidad a infraestructura básica.

21 de septiembre de 2025 8 min 268 4,4

Inteligencia Artificial

GPT-5: disponibilidad pública y primeras impresiones

Tras meses de rumores, OpenAI publicó GPT-5 a principios de agosto. Las primeras semanas de uso real dejan una imagen menos espectacular que el marketing y más útil que lo que muchos esperaban. Vale la pena separar lo nuevo de lo incremental.

28 de agosto de 2025 6 min 194 4,4

Industria 4.0

SLM en el edge industrial: cuando el modelo pequeño es mejor

Los modelos pequeños de lenguaje se han vuelto útiles de verdad. Phi-3.5, Gemma 2 o Llama 3.2 caben en dispositivos modestos y resuelven tareas acotadas sin salir a la nube. Repaso de dónde encajan en planta y cuándo compensa saltarse el modelo grande.

1 de agosto de 2025 8 min 194 4,2

Inteligencia Artificial

RAG 2.0: grafos de conocimiento, vectores e híbrido

El RAG de 2023 era búsqueda vectorial con un LLM detrás. El de 2025 es un sistema híbrido que combina vectores, búsqueda léxica y grafos de conocimiento. Qué ha cambiado, dónde funciona cada pieza y qué decisiones marcan la diferencia entre un RAG útil y uno decepcionante.

17 de julio de 2025 8 min 305 4,2

Inteligencia Artificial

Gemini 2.5: escalado de contexto y multimodalidad

Google publicó Gemini 2.5 Pro en vista previa en marzo y la versión general llegó en junio. El salto respecto a Gemini 2.0 no está solo en puntuaciones sino en dos frentes prácticos: ventana de contexto utilizable en serio y multimodalidad que deja de ser demostración para convertirse en herramienta.

29 de junio de 2025 7 min 262 4,3

Inteligencia Artificial

Familia Claude 4 inicial: primeras pruebas de calidad

Anthropic presentó Claude Opus 4 y Claude Sonnet 4 el 22 de mayo de 2025, el primer salto grande de nomenclatura desde la serie 3.5. Un mes de uso real en código, documentación técnica y agentes para separar lo que ha mejorado de lo que sigue igual.

23 de junio de 2025 6 min 200 4,3

Inteligencia Artificial

La era del grafo de conocimiento renace con los LLM

Durante una década los grafos de conocimiento fueron una idea académica con pocos casos vivos. Los LLM han cambiado esa ecuación: ahora sirven para anclar respuestas, auditar razonamiento y sostener agentes sin alucinar.

21 de mayo de 2025 6 min 214 4,5

Inteligencia Artificial

Evaluación continua de RAG: cuadros de mando que importan

Un sistema RAG sin evaluación continua se degrada en silencio. Los índices cambian, los modelos se actualizan, los usuarios preguntan cosas nuevas. Este es un repaso práctico de qué métricas vigilar y cómo montar el cuadro de mando que avisa antes del incidente.

9 de mayo de 2025 7 min 210 4,3

Inteligencia Artificial

Agentes de IA en empresa: de demo a valor medible

Los agentes de IA han pasado de ser un tema de laboratorio a tener SDKs serios en tres grandes proveedores. Reflexión sobre cómo pasar de la demo llamativa a un caso de uso interno que mueva una métrica real.

31 de marzo de 2025 7 min 226 4,4

Arquitectura

Aplicar RAG con grafos a un producto real

Desde que Microsoft abrió GraphRAG, el patrón de usar grafos sobre tus propios datos ha pasado de experimento académico a técnica con aplicaciones prácticas. Reflexión sobre cuándo compensa, cómo se monta y qué errores se repiten.

28 de marzo de 2025 7 min 224 4,7

Inteligencia Artificial

Claude 3.7 Sonnet: el paso intermedio hacia la familia 4

Anthropic publicó Claude 3.7 Sonnet a finales de febrero con pensamiento extendido opcional y un compañero de consola llamado Claude Code. Reflexión sobre qué cambia de verdad y qué queda para la próxima familia.

7 de marzo de 2025 7 min 192

Inteligencia Artificial

vLLM en 2025: las mejoras que importan a quien sirve LLM

vLLM se ha consolidado como el motor de serving de LLM más adoptado en producción. Repaso de las mejoras recientes, qué cambia para quien lo opera y qué sigue siendo punto débil.

14 de febrero de 2025 7 min 187 4,4

Arquitectura

GraphRAG de Microsoft en empresa: patrones que funcionan

GraphRAG lleva un año en uso empresarial real. Balance de qué tipos de preguntas resuelve mejor que el RAG clásico, qué cuesta operarlo y cuándo la complejidad extra compensa.

11 de febrero de 2025 7 min 177 4,4

Inteligencia Artificial

Evaluación de alineamiento: RLHF, DPO y alternativas recientes

Tres años después de que RLHF se hiciera popular, el paisaje del alineamiento de modelos es más rico. Repaso de RLHF, DPO y los métodos más recientes como KTO o ORPO, con criterios para elegir.

8 de febrero de 2025 7 min 366

Inteligencia Artificial

Gemma 2: el modelo abierto de Google un año después

Google publicó Gemma 2 a mediados de 2024 y ya lleva tiempo en uso real. Balance de cómo compite en el ecosistema de modelos abiertos, qué tamaños tienen sentido y dónde ha cuajado su adopción.

5 de febrero de 2025 6 min 195 4,2

Inteligencia Artificial

o3 en público: el salto en razonamiento se confirma

La serie o3 de OpenAI empieza a estar disponible y marca un cambio real en razonamiento complejo. Análisis de dónde brilla, dónde sigue fallando y qué cambia para quien construye productos con LLMs.

2 de febrero de 2025 6 min 197 4,4

Inteligencia Artificial

Gemini 2.0: herramientas integradas y modo agente

Google ha lanzado Gemini 2.0 con un énfasis claro en uso de herramientas y agentes. Repaso de qué aporta, dónde está por detrás de la competencia y en qué tipo de aplicaciones encaja mejor.

30 de enero de 2025 6 min 190 4,5

Inteligencia Artificial

NPU en el PC: IA local más rápida y barata

Los procesadores Copilot+ de Qualcomm, Intel y AMD han normalizado la presencia de una NPU en el PC doméstico. Qué cambia realmente para ejecutar modelos en local y cuándo merece la pena.

6 de enero de 2025 6 min 191 4,5

Inteligencia Artificial

LoRA y QLoRA: fine-tuning eficiente al alcance de un solo portátil

LoRA reduce el coste del fine-tuning de forma dramática. QLoRA va aún más allá combinando cuantización y adaptadores de bajo rango. Cómo funcionan, cuándo usarlos y qué calidad esperar.

29 de octubre de 2024 7 min 255 4,6

Inteligencia Artificial

Claude 3.5 Sonnet: el modelo que reescribió el equilibrio precio-calidad

Claude 3.5 Sonnet llegó en junio de 2024 y forzó a todos a repensar. Qué lo hace especial en coding y cómo compara con GPT-4o.

2 de octubre de 2024 6 min 429 4,6

Inteligencia Artificial

Mistral Large: el contendiente europeo frente a GPT-4

Mistral Large 2 cierra la brecha con GPT-4 y Claude desde Europa. Residencia EU, precios, y cuándo elegirlo frente a las alternativas.

29 de septiembre de 2024 6 min 201 4,7

Inteligencia Artificial

GPT-4 Turbo: contexto largo y costes más razonables

GPT-4 Turbo duplicó el contexto de GPT-4 y redujo el precio 3x. Dónde sigue siendo relevante frente a GPT-4o y cómo migrar sin sorpresas.

4 de julio de 2024 5 min 189 4,6

Desarrollo de Software

Decodificación restringida para salidas estructuradas en LLM

Outlines, Guidance e Instructor obligan al modelo a emitir JSON válido en el propio paso de generación. Cuándo ganan frente a reintentos y function calling.

26 de abril de 2024 7 min 303 4,7

Inteligencia Artificial

Mixtral 8x22B: mixture of experts abierto y potente

Mistral liberó Mixtral 8x22B por magnet link sin fanfarria. Qué aporta técnicamente, cómo se compara con 8x7B y GPT-4, y qué hardware necesita.

11 de abril de 2024 5 min 525

Inteligencia Artificial

Claude 2: la alternativa de Anthropic a GPT-4

Claude 2 ofrece contexto largo (100K tokens) y un enfoque distinto a la seguridad. Cómo se compara realmente con GPT-4 en uso práctico.

16 de noviembre de 2023 5 min 172 4,5

Desarrollo de Software

LangChain: el framework para orquestar aplicaciones con LLM

LangChain unifica la construcción de aplicaciones con LLM: prompts, retrievers, agentes y memoria. Cuándo ayuda y cuándo añade complejidad innecesaria.

29 de octubre de 2023 5 min 232 4,4

Desarrollo de Software

Function calling en OpenAI: estructurando salidas del modelo

Function calling convierte el LLM en un componente que devuelve datos estructurados. Cómo funciona, casos de uso reales y errores comunes.

20 de octubre de 2023 5 min 189 4,5

Inteligencia Artificial

GPT-4 en profundidad: capacidades reales frente a expectativas

Cinco meses después del lanzamiento de GPT-4, es momento de separar capacidades reales de hype. Dónde destaca y dónde sigue fallando.

6 de agosto de 2023 5 min 199 4,7

Inteligencia Artificial

Bard y PaLM 2: la apuesta de Google en IA generativa

Google lanzó Bard con PaLM 2 como respuesta directa a ChatGPT. Análisis de capacidades, comparativa con GPT-4 y estrategia de integración con su ecosistema.

16 de julio de 2023 5 min 275 4,5

Desarrollo de Software

Fine-tuning de LLM: cuándo merece la pena entrenar el tuyo

Fine-tuning sigue siendo caro y operativamente complejo. Guía para decidir entre RAG, prompt engineering y entrenamiento propio.

13 de julio de 2023 5 min 244 4,6

Herramientas

Cerebras-GPT: 7 Modelos LLM Open-Source listos para su uso

Cerebras-GPT libera 7 modelos de lenguaje open-source entrenados sobre hardware especializado. Qué los diferencia, dónde descargarlos y para qué son útiles.

30 de marzo de 2023 5 min 289

Tecnología

Microsoft 365 Copilot: La Herramienta de Asistencia Técnica

Microsoft 365 Copilot integra modelos de lenguaje grande en Word, Excel, Teams y Outlook. Qué puede hacer realmente, cómo funciona y qué deben saber los equipos antes de desplegarlo.

18 de marzo de 2023 6 min 191 4,4

Tecnología

GitHub Copilot: El futuro de la programación AI

GitHub Copilot usa IA para sugerir código en tiempo real mientras programas. Cómo funciona, cuándo ayuda de verdad, cuándo no, y qué implica para el oficio de programar.

18 de marzo de 2023 6 min 154