Ollama

Ollama es una herramienta y plataforma diseñada para ejecutar modelos de lenguaje grandes (LLMs) de manera local en tu computadora, sin depender de servidores en la nube.
En términos simples, es una forma de usar modelos tipo ChatGPT o LLaMA directamente en tu máquina.
-
Permite descargar y correr modelos de IA (como LLaMA 2, Mistral, Gemma, Phi-3, etc.) en tu propio equipo.
-
Proporciona una interfaz de línea de comandos (CLI) y una API local, con la que puedes integrar los modelos en tus propias aplicaciones.
-
Se encarga de gestionar la descarga, ejecución y optimización del modelo, para que no tengas que configurar manualmente entornos complejos.
Ollama's documentation - Ollama
Características
-
Ejecución local: todos los cálculos se hacen en tu computadora (no se envían datos a la nube).
-
Compatibilidad multiplataforma: disponible para macOS, Windows y Linux.
-
Modelos variados: soporta modelos de código abierto como LLaMA 2, Mistral, Gemma, Phi-3, Command-R, entre otros.
-
Integración sencilla: se puede usar desde terminal o con peticiones HTTP a
http://localhost:11434. -
Privacidad y control: ideal si quieres mantener tus datos en local o experimentar con IA sin depender de OpenAI, Anthropic, etc.
Requisitos
- Servidor local con GPU
- Ubuntu 24.04 o superior instalado
- Drivers Nvidia instalados
- Docker Instalado (opcional)
Instalación
Baremetal
curl -fsSL https://ollama.com/install.sh | sh
# Arranca el servicio (si no arrancó solo):
sudo systemctl enable --now ollama
Docker
Creando el directorio para los servicios
mkdir -p ~/rag-stack/data/{ollama,qdrant,open-webui}
cd ~/rag-stack
# guarda aquí el docker-compose.yaml
docker-compose.yaml
services:
ollama:
image: ollama/ollama:latest # fija una versión si quieres reproducibilidad
ports: ["11434:11434"]
restart: unless-stopped
volumes:
- ~/.ollama:/root/.ollama
# ===== GPU NVIDIA) ===== (requiere nvidia-container-toolkit en el host)
deploy:
resources:
reservations:
devices:
- capabilities: ["gpu"]
environment:
- NVIDIA_VISIBLE_DEVICES=all
- NVIDIA_DRIVER_CAPABILITIES=compute,utility
CLI
# Lista los modelos instalados
ollama list
# Descarga un modelo sin ejecutarlo
ollama pull phi3
# Muestra información de un modelo
ollama show llama3.1
# ejecuta un modelo
ollama run llama3.1
# Elimina un modelo
ollama rm mistral