Ollama

Ollama es una herramienta y plataforma diseñada para ejecutar modelos de lenguaje grandes (LLMs) de manera local en tu computadora, sin depender de servidores en la nube.

En términos simples, es una forma de usar modelos tipo ChatGPT o LLaMA directamente en tu máquina.

Permite descargar y correr modelos de IA (como LLaMA 2, Mistral, Gemma, Phi-3, etc.) en tu propio equipo.
Proporciona una interfaz de línea de comandos (CLI) y una API local, con la que puedes integrar los modelos en tus propias aplicaciones.
Se encarga de gestionar la descarga, ejecución y optimización del modelo, para que no tengas que configurar manualmente entornos complejos.

Enlaces

Características

Ejecución local: todos los cálculos se hacen en tu computadora (no se envían datos a la nube).
Compatibilidad multiplataforma: disponible para macOS, Windows y Linux.
Modelos variados: soporta modelos de código abierto como LLaMA 2, Mistral, Gemma, Phi-3, Command-R, entre otros.
Integración sencilla: se puede usar desde terminal o con peticiones HTTP a http://localhost:11434.
Privacidad y control: ideal si quieres mantener tus datos en local o experimentar con IA sin depender de OpenAI, Anthropic, etc.

Requisitos

Servidor local con GPU
Ubuntu 24.04 o superior instalado
Drivers Nvidia instalados
Docker Instalado (opcional)

Instalación

Baremetal

curl -fsSL https://ollama.com/install.sh | sh

# Arranca el servicio (si no arrancó solo):
sudo systemctl enable --now ollama

Docker

Creando el directorio para los servicios

mkdir -p ~/rag-stack/data/{ollama,qdrant,open-webui}
cd ~/rag-stack
# guarda aquí el docker-compose.yaml

docker-compose.yaml

services:
  ollama:
    container_name: ollama
    image: ollama/ollama:latest
    ports: ["11434:11434"]
    restart: unless-stopped
    volumes:
      - ~/.ollama:/root/.ollama
    #  ===== GPU NVIDIA) ===== (requiere nvidia-container-toolkit en el host)
    deploy:
      resources:
        reservations:
          devices:
            - capabilities: ["gpu"]
    environment:
      - NVIDIA_VISIBLE_DEVICES=all
      - NVIDIA_DRIVER_CAPABILITIES=compute,utility

CLI

# Conectar al shell del contenedor ollama
sudo docker exec -it ollama bash
# Lista los modelos instalados
ollama list
# Descarga un modelo sin ejecutarlo
ollama pull phi3
# Muestra información de un modelo
ollama show llama3.1
# ejecuta un modelo
ollama run llama3.1
# Elimina un modelo
ollama rm mistral