Inteligencia Artificial llama.cpp: optimizaciones que siguen sorprendiendo llama.cpp es la base silenciosa del LLM local. 2024 trajo speculative decoding, RPC distribuido y backends de GPU renovados. Cuándo usarlo directo y cuándo dejar que Ollama lo envuelva. 1 de diciembre de 2024 7 min 243 4,5
Herramientas Ollama en 2024: ejecutar LLM localmente sin dolor Ollama consolidó como estándar para LLMs locales. Catálogo curado, API compatible con OpenAI, soporte multiplataforma y cuándo usarlo frente a vLLM. 28 de noviembre de 2024 6 min 198 4,2
Herramientas Cuantización de modelos y llama.cpp en tu portátil Con cuantización y llama.cpp se puede ejecutar Llama 2 7B/13B en un portátil moderno. Cómo funciona y qué calidad esperar realmente. 4 de noviembre de 2023 6 min 239 4,5