Cómo instalar Ollama para ejecutar LLM en tu ordenador
Índice de contenidos
- Puntos clave
- Por qué la inferencia local se volvió práctica
- Qué se puede y qué no, siendo honesto
- Instalación en macOS, Linux y Windows
- Modelos que merecen la pena
- Hardware, sin mitos
- Qué viene después
- Conclusión
- Preguntas frecuentes
- ¿Cuáles son los requisitos mínimos para ejecutar Ollama?
- ¿Puedo ejecutar Ollama sin GPU?
- ¿Cómo actualizo Ollama a la última versión?
- ¿Dónde se almacenan los modelos descargados con Ollama?
Actualizado: 2026-05-03
Ollama[1] es la forma menos dolorosa de ejecutar un modelo de lenguaje grande en tu propio ordenador. Básicamente envuelve llama.cpp[2] con una experiencia de usuario cercana a docker run: un binario, una orden, y un modelo cuantizado descargándose al disco. Hasta hace poco, montar esto a mano implicaba compilar flags de CPU, buscar pesos filtrados y reconciliar formatos de fichero que cambiaban cada quince días.
Puntos clave
- Ollama disponible para macOS (Apple Silicon y x86), Linux y Windows (vía Docker o WSL2).
- Llama 2 fue el primer modelo con licencia comercial clara; antes los pesos eran material filtrado con estatus legal turbio.
- En macOS con 16 GB de memoria unificada, un modelo de 7B es fluido sin tarjeta gráfica dedicada.
- La API REST expone un endpoint compatible con la librería
openaide Python: cambiar deapi.openai.comalocalhost:11434es trivial. - No sustituye a los modelos frontera en razonamiento complejo, código no trivial ni matemáticas; sí es competente en resumen, reescritura, RAG y chat offline.
Por qué la inferencia local se volvió práctica
En febrero de ese año se filtraron los pesos originales de LLaMA y la comunidad demostró en días que un modelo de 7B podía correr en un portátil con cuantización de 4 bits. llama.cpp nació de ahí. Pero el estatus legal de esos pesos era turbio y cada tutorial empezaba con “primero consigues el torrent”.
El 18 de julio Meta publicó Llama 2 con una licencia que permite uso comercial, y la pregunta dejó de ser “¿puedo descargar esto?” para pasar a “¿cómo lo ejecuto bien?”. Ollama apareció justo cuando había pesos limpios, un formato en vías de estabilización y suficientes optimizaciones de kernel para que un M2 de 16 GB fuera una plataforma de inferencia viable.
Hay también una motivación económica: la factura de las APIs de OpenAI empieza a escocer cuando se prototioa. Un script que evalúa 10.000 prompts contra GPT-3.5 cuesta dinero real; contra un Llama 2 7B local cuesta electricidad.
Qué se puede y qué no, siendo honesto
Con los modelos abiertos disponibles no se puede sustituir a GPT-4. La distancia en razonamiento complejo, seguimiento de instrucciones largas y código no trivial es notable. Tampoco se resuelven matemáticas de competición ni se construyen agentes fiables con bucles de herramientas.
Lo que sí funciona razonablemente bien:
- Resumir un documento que cabe en el contexto.
- Reescribir y traducir texto.
- Generar código boilerplate.
- Responder preguntas factuales sencillas.
- Actuar como asistente de chat offline.
- Alimentar pipelines RAG donde la calidad del retriever importa más que la del generador.
Mistral 7B y Llama 2 13B son sorprendentemente competentes en estas tareas, y lo son sin enviar un solo byte a un servidor ajeno.
Instalación en macOS, Linux y Windows
macOS con Apple Silicon es donde Ollama brilla más: la memoria unificada permite cargar modelos de 13B sin tarjeta dedicada y sin paginación. Se instala con un script de una línea o descargando el .dmg que deja un icono en la barra de menús.
Linux: el mismo script detecta la distribución (Ubuntu, Debian, Fedora, Arch), descarga el binario, crea un usuario de sistema ollama y arranca un servicio systemd. Si hay una GPU NVIDIA con drivers y CUDA ya instalados, la detecta y la usa automáticamente.
Windows: todavía sin instalador nativo. La vía limpia es WSL2 (Ubuntu dentro de Windows con acceso a la GPU NVIDIA del host); la alternativa sin fricción es la imagen oficial de Docker exponiendo el puerto 11434.
# Linux/macOS
curl -fsSL https://ollama.ai/install.sh | sh
ollama run llama2La primera ejecución descarga los pesos cuantizados (unos 4 GB para Llama 2 7B en 4 bits), los cachea bajo ~/.ollama/models y abre un chat interactivo. Cambiar de modelo es tan simple como ollama run mistral o ollama run llama2:13b. Para listar lo descargado, ollama list; para borrarlo, ollama rm.
El servicio arranca un demonio en localhost:11434 con una API REST propia y un endpoint compatible con la API de OpenAI, que permite apuntar la librería openai de Python o LangChain al servidor local cambiando solo la URL base.

Modelos que merecen la pena
La biblioteca oficial tiene ya varias docenas de variantes. Las opciones razonables son:
llama2(7B, 3.8 GB): el caballo de trabajo, funciona en cualquier máquina con 8 GB.llama2:13b: si tienes 16 GB de RAM o más y quieres mejor coherencia.- Modelos derivados con fine-tuning de instrucciones como los de WizardLM: mejoran el seguimiento de instrucciones sobre la base original.
- El
70bexiste pero requiere al menos 48 GB de RAM; más curiosidad que herramienta práctica.
Evita perseguir cada novedad: el ecosistema publica variantes semanalmente y la mayoría son iteraciones marginales sobre las mismas bases.
Hardware, sin mitos
Como guía orientativa:
- 8 GB de RAM: un 7B cuantizado corre pero lento, el equipo está al límite.
- 16 GB: un 7B es fluido y un 13B es usable.
- 32 GB: territorio cómodo para 13B y experimentos con 34B.
- 64 GB o GPU con mucha VRAM: necesario para 70B.
Una NVIDIA con 8 GB o más acelera por un factor de 5-10 frente a CPU pura. En Mac, toda la RAM cuenta como VRAM efectiva, que es el motivo por el que un MacBook Pro de 32 GB es hoy una de las mejores máquinas de inferencia por euro gastado.
Qué viene después
Ollama es el primer escalón. Para uso serio se combina con:
- Una UI como Open WebUI[3] para chat con historial.
- Un plugin de editor como Continue.dev[4] para autocompletado estilo Copilot.
- Un stack RAG sobre LangChain para consultar documentos propios.
La compatibilidad con la API de OpenAI significa que cambiar api.openai.com por localhost:11434 en aplicaciones existentes es casi trivial — lo que transforma el cálculo económico de cualquier prototipo.
Ver también regulación de IA generativa para el contexto de cumplimiento que acompaña a los modelos propietarios, y code-interpreter de OpenAI como punto de comparación con los modelos en la nube.
Conclusión
La inferencia local pasó de ser un ejercicio académico a ser una opción de ingeniería legítima. No sustituye a los modelos frontera, pero abre un carril paralelo donde la privacidad, el coste marginal cero y la latencia de red nula son propiedades garantizadas por construcción, no promesas contractuales. Para quien trabaje con datos sensibles, o simplemente quiera entender por dentro cómo funcionan estos sistemas, es un buen momento para empezar.
Preguntas frecuentes
¿Cuáles son los requisitos mínimos para ejecutar Ollama?
Ollama funciona en macOS, Linux y Windows. En Linux se recomienda un procesador de 64 bits y al menos 8 GB de RAM para modelos de 7B. Con GPU NVIDIA o AMD compatible se acelera significativamente la inferencia.
¿Puedo ejecutar Ollama sin GPU?
Sí. Ollama puede ejecutar modelos únicamente en CPU, aunque la velocidad de generación es mucho más baja. Para uso práctico en CPU, los modelos cuantizados a 4-bit como llama3.2:3b ofrecen el mejor equilibrio.
¿Cómo actualizo Ollama a la última versión?
En Linux vuelve a ejecutar el script oficial: curl -fsSL https://ollama.com/install.sh | sh. Detecta la instalación existente y la actualiza sin eliminar los modelos descargados.
¿Dónde se almacenan los modelos descargados con Ollama?
En Linux los modelos se guardan en ~/.ollama/models. Puedes cambiar la ubicación con la variable de entorno OLLAMA_MODELS antes de arrancar el servicio.