Herramientas Inteligencia Artificial

#apple silicon #desktop ai #gguf #llm local #lm studio #ollama

LM Studio: explorar modelos de IA desde el escritorio

8 de abril de 2024 4 min 276 4,6

Captura genérica de una pantalla de escritorio con un sistema operativo moderno, que ilustra el entorno local en el que se instala y ejecuta LM Studio para correr modelos de lenguaje sin depender de la nube

Índice de contenidos

Puntos clave
Qué hace LM Studio
Instalación y primeros modelos
API compatible OpenAI: el gran valor oculto
RAG local con tus documentos
Rendimiento por hardware
LM Studio vs Ollama vs OpenWebUI
Performance tuning
Limitaciones honestas
Conclusión
Fuentes

Actualizado: 2026-07-07

LM Studio^[1] es una aplicación desktop (Mac, Windows, Linux) que descarga y ejecuta LLMs locales con UI pulida: sin terminal, sin setup complicado. Abres, eliges modelo, chateas. Para desarrolladores exploratorios, analistas de datos, periodistas que manejan datos sensibles y cualquiera que quiera probar LLMs sin enviar queries a la nube.

Puntos clave

LM Studio ejecuta LLMs locales (llama.cpp bajo el hood) con una UI de chat pulida y sin terminal.
La API local compatible con OpenAI permite que el código existente funcione sin cambios apuntando a localhost:1234.
El RAG integrado con documentos (PDF, TXT, DOCX) lo mantiene todo en tu propio equipo, sin exponer nada a la nube.
Para uso personal y de un solo usuario, LM Studio es superior a Ollama en experiencia de uso. Para equipos, Ollama + OpenWebUI es más flexible.
Para producción o con muchos usuarios simultáneos, ni LM Studio ni Ollama valen: mejor recurrir a vLLM^[2] o TGI.

Qué hace LM Studio

Funcionalidades principales:

Descarga de modelos desde Hugging Face^[3] con un clic.
Ejecución local sobre llama.cpp^[4], el motor de inferencia que trabaja por dentro.
Interfaz de chat pulida.
API local compatible con OpenAI que otras apps pueden consumir.
RAG con tus documentos (PDF, TXT, DOCX): puedes chatear directamente con tus archivos.
Comparación side-by-side de modelos.
GPU offloading configurable (CPU+GPU híbrido).

Todo en un binario desktop, sin terminal, sin config YAML.

Instalación y primeros modelos

Descarga desde lmstudio.ai^[1]. DMG para Mac, MSI para Windows, AppImage para Linux. Primera vez, el asistente pide seleccionar un modelo. Recomendados para empezar:

Mac Apple Silicon: Llama 3 8B Q4_K_M (~5 GB) o Phi-3 Mini (3 GB).
PC con 16 GB RAM: Mistral 7B Q4 (~4 GB) o Phi-3.
PC con 32 GB+ RAM: Mixtral 8x7B Q4 (~25 GB) o Llama 3 70B cuantizado.

Para hardware modesto: Phi-3 Mini (3.8B) tiene excelente relación calidad/tamaño; Gemma 2B es muy ligero.

API compatible OpenAI: el gran valor oculto

LM Studio expone una API compatible con la de OpenAI^[5] en localhost:1234. El código existente funciona sin cambios:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="local-model",
    messages=[{"role": "user", "content": "Hola"}]
)

Útil para desarrollo offline, apps con datos privados o como fallback si la API cloud cae. También permite experimentar localmente con decodificación restringida para salidas estructuradas antes de decidir si el modelo justifica el coste de inferencia en nube.

RAG local con tus documentos

LM Studio integra ingesta y RAG directamente en la UI:

Arrastrar PDFs/docs al chat.
El sistema extrae texto y genera embeddings locales.
El chat usa contexto relevante de tus docs.

Para abogados, médicos y periodistas que manejan datos confidenciales la ventaja es clara: nada sale de tu equipo. El almacén de documentos se queda en tu propio disco. Esta capacidad conecta bien con la gestión de modelos de lenguaje locales con TGI de Hugging Face para entornos de mayor volumen.

Rendimiento por hardware

En Apple Silicon M2/M3:

Llama 3 8B Q4: 30-50 tokens/s en M2 Pro.
Mixtral 8x7B Q4: 15-25 tokens/s en M3 Max 64 GB.
Llama 3 70B Q4: 5-10 tokens/s si cabe en memoria unificada.

En Windows con GPU NVIDIA:

RTX 4090: Llama 3 70B Q4 a ~15 tokens/s.
RTX 4070/4080: 7B-13B son el sweet spot.
Laptop con 3050/4050: limitado, mejor CPU inference.

LM Studio vs Ollama vs OpenWebUI

Aspecto	LM Studio	Ollama	OpenWebUI + Ollama
UI	Rica desktop	Mínima (CLI)	Muy buena (web)
Instalación	DMG/MSI	Binario CLI	Docker container
Multi-usuario	No	No	Sí
RAG built-in	Sí	Via OpenWebUI	Sí
Open-source	No	Sí (MIT)	Sí
Target audience	Usuario individual + devs	Devs	Equipos

LM Studio gana en experiencia de uso para usuarios no técnicos y uso individual. Ollama^[6] gana en integración con el stack dev/CLI y en ser abierto. OpenWebUI^[7] es la opción para equipos que quieren un panel multiusuario autoalojado.

Performance tuning

Tres ajustes clave para extraer el máximo:

GPU layers: cuántas capas del modelo van a GPU. Más es más rápido pero necesita VRAM.
Context length: tokens máximos. Menor es más rápido y usa menos memoria.
Thread count: para CPU inference, igualar cores físicos (no lógicos con HT).

Limitaciones honestas

Cerrado (no open-source), aunque gratuito. Lock-in potencial.
Update cadence depende del equipo LM Studio.
No integrable fácilmente en pipelines CI.
Single-machine: no distribuye inferencia entre nodos.
Telemetría opcional pero vale verificar los settings.

Conclusión

LM Studio es la mejor opción para quien quiere explorar LLMs locales con una interfaz pulida. Para equipos, Ollama + OpenWebUI ofrece más flexibilidad. Para producción, ninguno de los dos sirve: mejor usar vLLM o TGI. LM Studio ocupa un nicho específico pero importante: democratizar el acceso a los LLM locales para usuarios no técnicos. La gratuidad y el acabado cuidado la convierten en la opción obvia de su categoría. Para quien maneja datos privados o quiere experimentar sin pagar por APIs, merece la pena descargarla.

LM Studio: explorar modelos de IA desde el escritorio

Puntos clave

Qué hace LM Studio

Instalación y primeros modelos

API compatible OpenAI: el gran valor oculto

RAG local con tus documentos

Rendimiento por hardware

LM Studio vs Ollama vs OpenWebUI

Performance tuning

Limitaciones honestas

Conclusión

Fuentes

Comparte este artículo

¿Te ha resultado útil este artículo?

Entradas relacionadas

Qué añade PegaProx sobre la GUI de Proxmox VE 9

Claude Code vs Cursor vs GitHub Copilot en 2026: comparativa con tareas medidas

Software esencial para tu nuevo Mac M5 (guía 2026)

Editores con IA en 2026: comparativa después de un año usándolos