Cómo Instalar Inteligencia Artificial

#cómo instalar #ia generativa #llama 2 #llm local #ollama #privacidad

Cómo instalar Ollama para ejecutar LLM en tu ordenador

21 de agosto de 2023 6 min 387 4,3

Diagrama de Venn de la relación entre inteligencia artificial, modelos generativos y LLMs de ejecución local

Índice de contenidos

Puntos clave
Por qué la inferencia local se volvió práctica
Qué se puede y qué no, siendo honesto
Instalación en macOS, Linux y Windows
Modelos que merecen la pena
Hardware, sin mitos
Qué viene después
Conclusión
Fuentes

Actualizado: 2026-07-07

Ollama^[1] es la forma menos dolorosa de ejecutar un modelo de lenguaje grande en tu propio ordenador. Básicamente envuelve llama.cpp^[2] con una experiencia de usuario cercana a docker run: un binario, una orden, y un modelo cuantizado descargándose al disco. Hasta hace poco, montar esto a mano implicaba compilar flags de CPU, buscar pesos filtrados y reconciliar formatos de fichero que cambiaban cada quince días.

Puntos clave

Ollama disponible para macOS (Apple Silicon y x86), Linux y Windows (vía Docker o WSL2).
Llama 2 fue el primer modelo con licencia comercial clara; antes los pesos eran material filtrado con estatus legal turbio.
En macOS con 16 GB de memoria unificada, un modelo de 7B es fluido sin tarjeta gráfica dedicada.
La API REST expone un endpoint compatible con la biblioteca openai de Python: cambiar de api.openai.com a localhost:11434 es trivial.
No sustituye a los modelos frontera en razonamiento complejo, código no trivial ni matemáticas; sí es competente en resumen, reescritura, RAG y chat offline.

Por qué la inferencia local se volvió práctica

En febrero de ese año se filtraron los pesos originales de LLaMA y la comunidad demostró en días que un modelo de 7B podía correr en un portátil con cuantización de 4 bits. llama.cpp nació de ahí. Pero el estatus legal de esos pesos era turbio y cada tutorial empezaba con "primero consigues el torrent".

El 18 de julio Meta publicó Llama 2 con una licencia que permite uso comercial, y la pregunta dejó de ser "¿puedo descargar esto?" para pasar a "¿cómo lo ejecuto bien?". Ollama apareció justo cuando había pesos limpios, un formato en vías de estabilización y suficientes optimizaciones de kernel para que un M2 de 16 GB fuera una plataforma de inferencia viable.

Hay también una motivación económica: la factura de las APIs de OpenAI empieza a escocer cuando se prototioa. Un script que evalúa 10.000 prompts contra GPT-3.5 cuesta dinero real; contra un Llama 2 7B local cuesta electricidad.

Qué se puede y qué no, siendo honesto

Con los modelos abiertos disponibles no se puede sustituir a GPT-4. La distancia en razonamiento complejo, seguimiento de instrucciones largas y código no trivial es notable. Tampoco se resuelven matemáticas de competición ni se construyen agentes fiables con bucles de herramientas.

Lo que sí funciona razonablemente bien:

Resumir un documento que cabe en el contexto.
Reescribir y traducir texto.
Generar código boilerplate.
Responder preguntas factuales sencillas.
Actuar como asistente de chat offline.
Alimentar pipelines RAG donde la calidad del retriever importa más que la del generador.

Mistral 7B y Llama 2 13B son sorprendentemente competentes en estas tareas, y lo son sin enviar un solo byte a un servidor ajeno.

Instalación en macOS, Linux y Windows

macOS con Apple Silicon es donde Ollama brilla más: la memoria unificada permite cargar modelos de 13B sin tarjeta dedicada y sin paginación. Se instala con un script de una línea o descargando el .dmg que deja un icono en la barra de menús.

Linux: el mismo script detecta la distribución (Ubuntu, Debian, Fedora, Arch), descarga el binario, crea un usuario de sistema ollama y arranca un servicio systemd. Si hay una GPU NVIDIA con drivers y CUDA ya instalados, la detecta y la usa automáticamente.

Windows: todavía sin instalador nativo. La vía limpia es WSL2 (Ubuntu dentro de Windows con acceso a la GPU NVIDIA del host); la alternativa sin fricción es la imagen oficial de Docker exponiendo el puerto 11434.

# Linux/macOS
curl -fsSL https://ollama.ai/install.sh | sh
ollama run llama2

La primera ejecución descarga los pesos cuantizados (unos 4 GB para Llama 2 7B en 4 bits), los cachea bajo ~/.ollama/models y abre un chat interactivo. Cambiar de modelo es tan simple como ollama run mistral o ollama run llama2:13b. Para listar lo descargado, ollama list; para borrarlo, ollama rm.

El servicio arranca un demonio en localhost:11434 con una API REST propia y un endpoint compatible con la API de OpenAI, que permite apuntar la biblioteca openai de Python o LangChain al servidor local cambiando solo la URL base.

Comparativa de hardware para inferencia local de LLMs: tabla de requisitos de RAM por tamaño de modelo y velocidad esperada

Modelos que merecen la pena

La biblioteca oficial tiene ya varias docenas de variantes. Las opciones razonables son:

llama2 (7B, 3.8 GB): el caballo de trabajo, funciona en cualquier máquina con 8 GB.
llama2:13b: si tienes 16 GB de RAM o más y quieres mejor coherencia.
Modelos derivados con fine-tuning de instrucciones como los de WizardLM: mejoran el seguimiento de instrucciones sobre la base original.
El 70b existe pero requiere al menos 48 GB de RAM; más curiosidad que herramienta práctica.

Evita perseguir cada novedad: el ecosistema publica variantes semanalmente y la mayoría son iteraciones marginales sobre las mismas bases.

Hardware, sin mitos

Como guía orientativa:

8 GB de RAM: un 7B cuantizado corre pero lento, el equipo está al límite.
16 GB: un 7B es fluido y un 13B es usable.
32 GB: territorio cómodo para 13B y experimentos con 34B.
64 GB o GPU con mucha VRAM: necesario para 70B.

Una NVIDIA con 8 GB o más acelera por un factor de 5-10 frente a CPU pura. En Mac, toda la RAM cuenta como VRAM efectiva, que es el motivo por el que un MacBook Pro de 32 GB es hoy una de las mejores máquinas de inferencia por euro gastado.

Qué viene después

Ollama es el primer escalón. Para uso serio se combina con:

Una UI como Open WebUI^[3] para chat con historial.
Un plugin de editor como Continue.dev^[4] para autocompletado estilo Copilot.
Un stack RAG sobre LangChain para consultar documentos propios.

La compatibilidad con la API de OpenAI significa que cambiar api.openai.com por localhost:11434 en aplicaciones existentes es casi trivial — lo que transforma el cálculo económico de cualquier prototipo.

Ver también regulación de IA generativa para el contexto de cumplimiento que acompaña a los modelos propietarios, y code-interpreter de OpenAI como punto de comparación con los modelos en la nube.

Conclusión

La inferencia local pasó de ser un ejercicio académico a ser una opción de ingeniería legítima. No sustituye a los modelos frontera, pero abre un carril paralelo donde la privacidad, el coste marginal cero y la latencia de red nula son propiedades garantizadas por construcción, no promesas contractuales. Para quien trabaje con datos sensibles, o simplemente quiera entender por dentro cómo funcionan estos sistemas, es un buen momento para empezar.

Cómo instalar Ollama para ejecutar LLM en tu ordenador

Puntos clave

Por qué la inferencia local se volvió práctica

Qué se puede y qué no, siendo honesto

Instalación en macOS, Linux y Windows

Modelos que merecen la pena

Hardware, sin mitos

Qué viene después

Conclusión

Fuentes

Recibe cada nueva guía de self-hosting

Comparte este artículo

¿Te ha resultado útil este artículo?

Entradas relacionadas

Qué añade PegaProx sobre la GUI de Proxmox VE 9

Cómo instalar Coolify en Docker (guía paso a paso 2026)

Cómo instalar Portainer con Docker Compose v2

Cómo instalar un servidor MCP local para tu editor