LM Studio es una aplicación desktop (Mac, Windows, Linux) que descarga y ejecuta LLMs locales con UI pulida. Sin terminal, sin setup complicado: abres, eliges modelo, chateas. Para desarrolladores exploratorios, analistas de datos, periodistas que manejan sensitive data, y cualquiera que quiera probar LLMs sin enviar queries a la nube.
Este artículo cubre qué ofrece, cuándo es mejor elección que Ollama u OpenWebUI, y dónde tiene límites.
Qué hace LM Studio
Features principales:
- Descarga de modelos desde Hugging Face con un click.
- Ejecución local sobre llama.cpp (bajo el hood).
- UI de chat pulida.
- API local compatible con OpenAI que otras apps pueden consumir.
- RAG con tus documentos (PDF, TXT, DOCX) — chat con tus archivos.
- Gestión de prompts guardados.
- Comparación side-by-side de modelos.
Todo en un binario desktop, sin terminal, sin config YAML.
Instalación
Descarga desde lmstudio.ai. DMG para Mac, MSI para Windows, AppImage para Linux. Abrir.
Primera vez pide seleccionar un modelo. Recomendado para empezar:
- Mac Apple Silicon: Llama 3 8B Q4_K_M (~5GB) o Phi-3 Mini (3GB).
- PC con 16GB RAM: Mistral 7B Q4 (~4GB) o Phi-3.
- PC con 32GB+ RAM: Mixtral 8x7B Q4 (~25GB) o Llama 3 70B cuantizado (~40GB).
Descarga y carga, listo para chat.
Experiencia de uso
Para un usuario no técnico:
- UI con modelo selector al inicio.
- Chat con parámetros visuales (temperature, top_p, context length).
- Upload de archivos para RAG local.
- Export/import de conversaciones.
- Prompt templates pre-configurados para casos comunes.
Para un desarrollador:
- API server en
localhost:1234compatible con OpenAI SDK. - Múltiples modelos cargados simultáneamente.
- Logs de cada query y tokens consumidos.
- GPU offloading configurable (CPU+GPU híbrido).
API compatible OpenAI
Una feature infravalorada: LM Studio expone API OpenAI-compatible. Tu código existente funciona:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="not-needed"
)
response = client.chat.completions.create(
model="local-model", # ignorado, LM Studio usa el cargado
messages=[{"role": "user", "content": "Hola"}]
)
Útil para desarrollo offline, privacy-sensitive apps, o como fallback si OpenAI cae.
RAG local con tus documentos
LM Studio integra ingesta y RAG:
- Arrastrar PDFs/docs al chat.
- Sistema extrae texto, genera embeddings locales.
- Chat usa contexto relevante de tus docs.
Para abogados, médicos, periodistas con data confidencial: zero cloud exposure. El document store queda en local.
Hardware y rendimiento
En Apple Silicon M2/M3:
- Llama 3 8B Q4: 30-50 tokens/s en M2 Pro.
- Mistral 7B Q4: similar.
- Mixtral 8x7B Q4: 15-25 tokens/s en M3 Max 64GB.
- Llama 3 70B Q4: 5-10 tokens/s si cabe en memoria unificada.
En Windows con GPU NVIDIA:
- RTX 4090: Llama 3 70B Q4 a ~15 tokens/s.
- RTX 4070/4080: 7B-13B son sweet spot.
- Laptop con 3050/4050: limited, mejor CPU inference.
CPU-only es viable para modelos pequeños (3B) con respuestas más lentas pero usable.
LM Studio vs Ollama
Comparación honesta:
| Aspecto | LM Studio | Ollama |
|---|---|---|
| UI | Rica desktop | Mínima (CLI + web opcional) |
| Instalación | DMG/MSI install | Binario CLI |
| Modelos | Direct Hugging Face | Registry propio + GGUF |
| API | OpenAI-compat | OpenAI-compat |
| RAG built-in | Sí | Via OpenWebUI |
| Multi-modelo loading | Sí | Sí |
| Linux | AppImage (beta) | Nativo maduro |
| Target audience | Usuarios no-tech + devs | Devs |
| Licencia | Cerrada (gratuita) | Abierta MIT |
LM Studio gana en UX para no-technical users. Ollama gana en integración con stack dev/CLI y open-source.
LM Studio vs OpenWebUI
OpenWebUI es UI web para Ollama/otros LLM backends.
| Aspecto | LM Studio | OpenWebUI + Ollama |
|---|---|---|
| Deploy | Desktop app local | Docker container |
| Multi-user | No (single-user) | Sí |
| UI calidad | Excelente | Muy buena |
| Self-hosted | Por usuario | Para equipo |
| Open-source | No | Sí |
LM Studio es personal / single-user. OpenWebUI es team / multi-user self-hosted.
Casos de uso reales
Donde vemos LM Studio:
- Desarrolladores probando modelos antes de deploy.
- Data scientists iterando con LLMs sin cloud.
- Periodistas y abogados con documentos confidenciales.
- Estudiantes aprendiendo sobre LLMs sin gastar en API.
- Empresas pequeñas con flota de laptops y compliance estricto.
Donde no encaja:
- Servidores productivos (use Ollama/vLLM).
- Multi-usuario simultáneo (use OpenWebUI).
- Escalado con múltiples concurrent sessions.
- Entornos sin GUI (servers SSH-only).
Limitaciones
Ser honesto:
- Cerrado (no open-source), aunque gratuito. Lock-in potencial.
- Update cadence depende del equipo LM Studio.
- No integrable fácilmente en pipelines CI.
- Single-machine: no distribuye inferencia.
- Telemetry opcional pero vale la pena verificar settings.
Performance tuning
Tres ajustes clave:
- GPU layers: cuántas capas del modelo van a GPU. Más = rápido pero necesita VRAM.
- Context length: tokens máximos. Menor = más rápido + menos memoria.
- Thread count: para CPU inference, igualar cores físicos (no lógicos con HT).
Jugar con estos hasta encontrar balance velocidad/memoria de tu hardware.
Modelos recomendados para empezar
Para Apple Silicon M2/M3:
- Chat general: Llama 3 8B Instruct Q4_K_M.
- Código: DeepSeek Coder 6.7B Q4.
- Español: Mixtral 8x7B si cabe.
- Razonamiento: Phi-3 Medium.
Para hardware modesto:
- Phi-3 Mini (3.8B): excelente para su tamaño.
- Gemma 2B: muy ligero.
- TinyLlama 1.1B: para experimentación solo.
Privacy y data
LM Studio ejecuta todo local:
- Modelos se descargan y quedan en disco.
- Chats quedan en
~/.cache/lm-studio/. - Documentos para RAG quedan locales.
- Telemetry opcional para analytics (revisar settings).
- Sin cloud obligatorio.
Para sensitive data, es garantía razonable — nothing leaves your machine a menos que tú lo habilites.
Conclusión
LM Studio es la mejor opción para individuos que quieren explorar LLMs locales con UI pulida. Para equipos, Ollama + OpenWebUI ofrece más flexibilidad. Para producción, ninguno de estos — usar vLLM o TGI. LM Studio ocupa un nicho específico pero importante: democratizar el acceso a LLMs locales para usuarios no-technical. La gratuidad y el polish la hacen la elección obvia en su categoría. Para gente que maneja data privada o quiere experimentar sin pagar APIs, vale la pena descargarla esta misma tarde.
Síguenos en jacar.es para más sobre LLMs locales, herramientas de IA y privacidad.