Mascota Jacar — leyendo contigo Un portátil cuyos ojos siguen el cursor mientras lees.
Cómo Instalar Inteligencia Artificial Mac

Cómo instalar Ollama en macOS con Apple Silicon

Cómo instalar Ollama en macOS con Apple Silicon

Actualizado: 2026-05-03

Ollama[1] es la forma más directa de ejecutar modelos de lenguaje grandes en un Mac con Apple Silicon. Un único comando basta para tener Llama 3.1 8B o Mistral 7B respondiendo dentro de tu portátil, sin cuentas, sin claves de API y sin que una palabra de tu conversación salga del disco. Esta guía cubre la instalación desde cero, la elección de modelo según la RAM disponible y la integración con las aplicaciones que ya usas.

Puntos clave

  • Apple Silicon tiene ventaja arquitectónica sobre PC tradicional: memoria unificada elimina el cuello de botella de transferencia PCIe; llama.cpp explota Metal para aceleración de GPU.
  • La regla de elección de modelo: un modelo cuantizado en 4 bits ocupa aproximadamente la mitad de GB que miles de millones de parámetros tiene; reserva 2-4 GB para el sistema.
  • El endpoint compatible con OpenAI en localhost:11434/v1/chat/completions hace que cualquier cliente pensado para GPT funcione sin modificar código.
  • Ollama no es la solución para producción seria (ahí están vLLM o TGI); es la mejor puerta de entrada para desarrollo y uso personal.
  • Para abogados, médicos o periodistas que manejan documentos sensibles, la garantía de que nada sale del dispositivo es una propiedad verificable del sistema, no una promesa de un proveedor.

Por qué Ollama funciona tan bien en Apple Silicon

La ventaja no es anecdótica, es arquitectónica. Los chips M1, M2 y M3 comparten memoria entre CPU y GPU en lugar de tenerla separada como en un PC con tarjeta gráfica dedicada. Esa memoria unificada significa que un Llama 3.1 de 8B parámetros no necesita copiarse por el bus PCIe para que la GPU lo procese: los mismos bytes son visibles para ambas y la inferencia se acelera sin peajes de transferencia. A ello se suma Metal, la capa gráfica de Apple, sobre la que llama.cpp tiene un backend muy pulido desde 2023.

El resultado: un MacBook Air M2 silencioso, sin ventilador, puede servir un modelo de 7-8B parámetros a velocidades perfectamente usables, mientras el consumo apenas supera al de un navegador con varias pestañas. El ancho de banda de memoria de estos chips (100 GB/s en modelos base, hasta 800 GB/s en un M2 Ultra) es el cuello de botella que domina la inferencia de un LLM cuantizado.

Instalación

Dos caminos al mismo resultado:

Instalador gráfico: descarga desde la web oficial, arrastra a Aplicaciones, en la primera ejecución pide permiso para lanzarse como servicio de fondo.

Homebrew (preferido para perfiles técnicos):

bash
brew install ollama
brew services start ollama

Verificación:

bash
ollama --version
curl http://localhost:11434
# Debe devolver: Ollama is running

El daemon escucha en el puerto 11434 y cualquier comando ollama se comunica con él.

Elegir el modelo según la RAM disponible

La regla simple: un modelo cuantizado en 4 bits ocupa aproximadamente la mitad de GB que miles de millones de parámetros tiene, más 2-4 GB para el sistema operativo y la aplicación que estés usando.

8 GB (MacBook Air M1/M2 base):

  • Phi-3 mini (~2,3 GB): útil para reescritura, resumen, traducción. Limitado en razonamiento complejo.
  • Gemma 2B (~1,5 GB): similar.

16 GB (MacBook Pro M2 Pro, Air M3):

  • Llama 3.1 8B instruct Q4_K_M (~4,7 GB): el mejor equilibrio general disponible. Deja margen para el resto del workflow.
  • Mistral 7B instruct: alternativa fuerte, especialmente en código.
  • Code Llama 7B: para uso específico de programación.

32 GB (MacBook Pro Max):

  • Llama 3.1 70B cuantizado (~40 GB): calidad cercana a frontier cerrado, latencia mayor.
  • Mixtral 8x7B (~26 GB): fuerte en multilingüe.

64+ GB (M3 Max tope de gama, Mac Studio M2 Ultra):

  • Llama 3.1 405B cuantizado: solo viable en M2 Ultra con 192 GB, a velocidad de exploración más que de producción.

Uso interactivo y API local

Modo conversacional:

bash
ollama run llama3.1:8b

Comandos útiles dentro del chat: /set parameter temperature 0.7, /set parameter num_ctx 8192 para ampliar la ventana de contexto, /show info, /bye.

La parte más interesante es la API HTTP en localhost:11434. El endpoint compatible con OpenAI en /v1/chat/completions hace que cualquier cliente pensado para GPT funcione apuntándolo al Mac:

python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="not-needed",
)

response = client.chat.completions.create(
    model="llama3.1:8b",
    messages=[{"role": "user", "content": "Explícame RAG en tres frases."}],
)
print(response.choices[0].message.content)

El mismo patrón funciona desde Node, desde una extensión de VS Code o desde cualquier utilería que antes usabas con OpenAI. Para pipelines RAG locales, Ollama puede servir tanto el modelo de embedding como el de generación, eliminando dependencias externas del pipeline.

Modelfiles: personalizar el comportamiento

Cuando repites el mismo system prompt en varios proyectos, conviene fijarlo en un Modelfile:

dockerfile
FROM llama3.1:8b
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
SYSTEM "Eres un asistente técnico en español, conciso y directo."
bash
ollama create mi-asistente -f Modelfile
ollama run mi-asistente

Es el equivalente local a un “GPT personalizado”.

Ecosistema de integraciones

Herramientas que hablan con el mismo servicio Ollama local:

  • OpenWebUI: interfaz web tipo ChatGPT que se conecta al Ollama local.
  • Continue (VS Code): asistencia de código con el modelo local.
  • Aider: refactoring desde la terminal con --model ollama/llama3.1:70b.
  • Raycast: consultas rápidas desde la barra de menús.
  • Plugin Copilot de Obsidian: para razonar sobre notas.

Operación

  • RAM en reposo: ~100 MB.
  • Exposición a la LAN: OLLAMA_HOST=0.0.0.0 antes de iniciar.
  • Parar el servicio: brew services stop ollama.
  • Modelos descargados: ~/.ollama/models/, gestionados con ollama list, ollama pull, ollama rm.

Rendimientos orientativos:

  • M1 base con Phi-3: ~30 tokens/s.
  • M2 Pro con Llama 3.1 8B: 40-50 tokens/s.
  • M3 Max con Llama 3.1 70B Q4: ~15 tokens/s (conversacional, perfectamente usable).

Conclusión

Que un portátil sin tarjeta gráfica dedicada pueda ejecutar modelos equivalentes al GPT-3.5 del año pasado con total privacidad, sin conexión y con una API familiar, es una de las cosas más sorprendentes de 2024. Ollama no es la solución para producción seria —ahí viven vLLM o TGI, pensados para concurrencia y throughput— pero sí es la mejor puerta de entrada al desarrollo y al uso personal. Para cualquier profesional que maneje documentos sensibles, la garantía de que nada se envía a un tercero deja de ser una promesa para convertirse en una propiedad verificable del sistema.

¿Te ha resultado útil?
[Total: 11 · Media: 4.1]
  1. Ollama

Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.