Ollama

Ollama es una herramienta y plataforma diseñada para ejecutar modelos de lenguaje grandes (LLMs) de manera local en tu computadora, sin depender de servidores en la nube.
En términos simples, es una forma de usar modelos tipo ChatGPT o LLaMA directamente en tu máquina.
-
Permite descargar y correr modelos de IA (como LLaMA 2, Mistral, Gemma, Phi-3, etc.) en tu propio equipo.
-
Proporciona una interfaz de línea de comandos (CLI) y una API local, con la que puedes integrar los modelos en tus propias aplicaciones.
-
Se encarga de gestionar la descarga, ejecución y optimización del modelo, para que no tengas que configurar manualmente entornos complejos.
Ollama's documentation - Ollama
Características
-
Ejecución local: todos los cálculos se hacen en tu computadora (no se envían datos a la nube).
-
Compatibilidad multiplataforma: disponible para macOS, Windows y Linux.
-
Modelos variados: soporta modelos de código abierto como LLaMA 2, Mistral, Gemma, Phi-3, Command-R, entre otros.
-
Integración sencilla: se puede usar desde terminal o con peticiones HTTP a
http://localhost:11434. -
Privacidad y control: ideal si quieres mantener tus datos en local o experimentar con IA sin depender de OpenAI, Anthropic, etc.
Requisitos
- Ubuntu 24.04 o superior instalado
- Drivers Nvidia instalados
Funcionamiento
-
Ollama instala un servidor local que gestiona los modelos.
-
Los modelos se descargan como archivos
.bino.ggufoptimizados para CPU o GPU. -
Puedes ejecutar comandos como:
Instalación
curl -fsSL https://ollama.com/install.sh | sh
# Arranca el servicio (si no arrancó solo):
sudo systemctl enable --now ollama
Prueba el modelo (descarga automática y usa la GPU si la detecta):
ollama run llama3.1
Open WebUI corre dentro de Docker y usa Ollama o PyTorch como backend IA.
Instalar
crea un fichero docker-compose.yaml con el contenido:
services:
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
restart: unless-stopped
network_mode: "host"
environment:
- OLLAMA_BASE_URL=http://127.0.0.1:11434
volumes:
- open-webui:/app/backend/data
deploy:
resources:
reservations:
devices:
- capabilities: [gpu]
volumes:
open-webui:
Levanta el contenedor:
docker compose up -d
Ahora ya puedes acceder a Open WebUI en http://IP-Host:8080
Elegir y preparar el modelo
Modelos conversacionales muy buenos y “ligeros”:
# Llama 3.1 Instruct (8B)
ollama pull llama3.1
# Mistral (7B)
ollama pull mistral
# (Opcional) Un modelo de embeddings para RAG
ollama pull nomic-embed-text
En Open WebUI → Settings → Models selecciona tu modelo por defecto (ej. llama3.1).