Ollama

Ollama es una herramienta y plataforma diseñada para ejecutar modelos de lenguaje grandes (LLMs) de manera local en tu computadora, sin depender de servidores en la nube.

En términos simples, es una forma de usar modelos tipo ChatGPT o LLaMA directamente en tu máquina.

Permite descargar y correr modelos de IA (como LLaMA 2, Mistral, Gemma, Phi-3, etc.) en tu propio equipo.
Proporciona una interfaz de línea de comandos (CLI) y una API local, con la que puedes integrar los modelos en tus propias aplicaciones.
Se encarga de gestionar la descarga, ejecución y optimización del modelo, para que no tengas que configurar manualmente entornos complejos.

Características

Ejecución local: todos los cálculos se hacen en tu computadora (no se envían datos a la nube).
Compatibilidad multiplataforma: disponible para macOS, Windows y Linux.
Modelos variados: soporta modelos de código abierto como LLaMA 2, Mistral, Gemma, Phi-3, Command-R, entre otros.
Integración sencilla: se puede usar desde terminal o con peticiones HTTP a http://localhost:11434.
Privacidad y control: ideal si quieres mantener tus datos en local o experimentar con IA sin depender de OpenAI, Anthropic, etc.

Requisitos

Ubuntu 24.04 o superior instalado
Drivers Nvidia instalados

Funcionamiento

Ollama instala un servidor local que gestiona los modelos.
Los modelos se descargan como archivos .bin o .gguf optimizados para CPU o GPU.
Puedes ejecutar comandos como:

Instalación

curl -fsSL https://ollama.com/install.sh | sh

# Arranca el servicio (si no arrancó solo):
sudo systemctl enable --now ollama

Prueba el modelo (descarga automática y usa la GPU si la detecta):

ollama run llama3.1

Consejo: si el prompt responde fluido y nvidia-smi muestra uso durante la generación, está usando GPU.Ejecuta el contenedor usando CPU solo

🏡 Home | Open WebUI

Open WebUI corre dentro de Docker y usa Ollama o PyTorch como backend IA.

Instalar

crea un fichero docker-compose.yaml con el contenido:

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: unless-stopped
    network_mode: "host"
    environment:
      - OLLAMA_BASE_URL=http://127.0.0.1:11434
    volumes:
      - open-webui:/app/backend/data
    deploy:
      resources:
        reservations:
          devices:
            - capabilities: [gpu]

volumes:
  open-webui:

Levanta el contenedor:

docker compose up -d

Ahora ya puedes acceder a Open WebUI en http://IP-Host:8080

Elegir y preparar el modelo

Modelos conversacionales muy buenos y “ligeros”:

# Llama 3.1 Instruct (8B)
ollama pull llama3.1

# Mistral (7B)
ollama pull mistral

# (Opcional) Un modelo de embeddings para RAG
ollama pull nomic-embed-text

En Open WebUI → Settings → Models selecciona tu modelo por defecto (ej. llama3.1).