Ollama + Open WebUI : faire tourner un LLM en local sur son homelab

Avoir un LLM qui tourne sur ton propre serveur, sans envoyer tes questions à un tiers, c’est possible et plus simple qu’il n’y paraît. Ollama Docker gère l’exécution des modèles de langage en local, et Open WebUI fournit l’interface web. Sur le MS-01 avec ses ressources dédiées, les modèles 7B tournent sans problème pour une utilisation quotidienne.

Installer Ollama Docker et Open WebUI

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: unless-stopped
    ports:
      - "11434:11434"
    volumes:
      - /opt/stacks/ollama/data:/root/.ollama
    # Pour GPU NVIDIA : décommenter les lignes suivantes
    # deploy:
    #   resources:
    #     reservations:
    #       devices:
    #         - capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: unless-stopped
    ports:
      - "3030:8080"
    volumes:
      - /opt/stacks/open-webui/data:/app/backend/data
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    depends_on:
      - ollama

Télécharger un modèle

Une fois Ollama Docker démarré, tu pulls les modèles depuis le terminal :

docker exec -it ollama ollama pull llama3.2
docker exec -it ollama ollama pull mistral
docker exec -it ollama ollama pull phi3.5

Les modèles 7B (Mistral, Llama 3.2 3B, Phi 3.5) sont suffisants pour un usage quotidien sans GPU. Ils nécessitent environ 4-8 Go de RAM selon la quantisation. Sur une machine avec 16 Go de RAM, tu peux faire tourner un modèle 7B en parallèle d’autres services sans problème notable.

Ce que j’utilise vraiment

Open WebUI supporte les conversations multi-tours, les fichiers en pièce jointe et les RAG (Retrieval Augmented Generation) sur tes propres documents. Je l’utilise principalement pour analyser des logs Proxmox, rédiger des scripts bash, et tester des prompts sans faire fuiter mes configs serveurs vers des services tiers.

La différence avec ChatGPT : tes données ne quittent jamais ton réseau. Pour de l’analyse de logs contenant des IPs internes, des configs serveur ou des données sensibles, c’est une vraie différence.

Pour aller plus loin

Ollama Docker tourne sur le nœud MS-01 de mon homelab — c’est le nœud avec le plus de RAM dédié aux workloads lourds. Documentation complète et liste des modèles disponibles sur ollama.com.

Pourquoi Ollama Docker m’est utile à distance

Ce que j’apprécie particulièrement : accéder à un LLM local depuis n’importe où via mon accès distant, sans dépendre d’un service tiers. Si je suis en déplacement et que j’ai besoin d’analyser un fichier de config ou de générer un script bash avec des données de mon infrastructure, Open WebUI est disponible. Le modèle que j’utilise principalement en ce moment : Qwen3, qui offre un excellent rapport qualité/ressources pour une utilisation quotidienne sans GPU dédié.

💡 Le petit truc en plus

Expose Ollama uniquement sur le réseau interne (pas de port public) et utilise un reverse proxy avec authentification pour accéder à Open WebUI depuis l’extérieur. Les modèles LLM en local n’ont aucun intérêt si n’importe qui sur Internet peut les interroger. Traite ça comme n’importe quel service interne sensible.

👉 Pour aller plus loin : gérer ses containers avec Dockge, centraliser son homelab avec Glance et mon setup homelab 2026.