Decentraliserad LLM på Proxmox

Setup för LLM’s på Proxmox Virtualizer på Bee-link GTi15 med docka och ext. GPU
Intel Core Ultra 9 258H (Meteor Lake) → stark CPU + Intel Arc iGPU (Xe LPG)

Extern docka med Sapphire NITRO+ 8GB (AMD GPU) → via eGPU-docka

Ollama är ett program (runtime) som låter dig köra stora språkmodeller (LLM) lokalt på din egen dator eller server, t.ex. på en Proxmox-VM eller LXC. Det fungerar ungefär som Docker, men för AI-modeller.
Llama (Large Language Model Meta AI) är en serie språkmodeller utvecklade av Meta. De är öppna och effektiva, vilket gör dem väldigt populära att köra lokalt via just Ollama.
Hugging Face är en stor plattform där AI-modeller delas,Det fungerar som GitHub för AI-modeller.

Vad Ollama gör:

Hämtar modeller (t.ex. Llama, Mistral, Phi m.fl.).
Optimerar dem för din hårdvara (CPU/GPU).
Startar/stoppar modeller via kommandon som:Ger ett API du kan använda i appar eller script.
Du kan alltså köra avancerade AI-modeller offline, gratis och utan moln.

Hardware Spec: Intel Core Ultra9 285H , 64GB, 1TB Saphire Nitro 8GB AMD
Plattform: Proxmox, Debian 9

Host system: LXC Ubuntu 24.04 LTS, Privileged, GPU Passthrough,
Application: , Ollama, LLaMA 3.1 8B

<VMID> = 102 | Id för LXC container LLM

Funktion	LXC container	VM
Viktiga skillnader	Privileged containers: ✅ Bättre GPU/device support ✅ Enklare att köra Docker ✅ Bättre prestanda för vissa arbetsbelastningar ❌ Mindre säkra (kör som root på host) ❌ Kan komma åt host systemet mer Unprivileged containers: ✅ Mycket säkrare ✅ Isolerade UID/GID mappningar ❌ Begränsad hardware access ❌ Krångligare med GPU passthrough	För GPU + AI-arbete skulle jag rekommendera Lösning 4 (VM) eftersom: ✅ Bättre GPU passthrough support ✅ Enklare drivrutinsinstallation ✅ Bättre prestanda för AI-modeller ✅ Mindre krångel med privilegier
	🧩 Viktigt: Vilken GPU kan användas i LXC? ✔ CPU fungerar alltid (Intel Core Ultra 9) LLaMA 3.1 8B fungerar bra på CPU-only med 16–20 GB RAM. ✔ Intel iGPU (Xe) Intel har stöd i llama.cpp via Intel oneAPI. → Kan köras i LXC. ✔ AMD Sapphire Nitro 8GB (eGPU) AMD GPU fungerar inte direkt i LXC utan specialkonfig, men fungerar i KVM/VM utan problem. AMD ROCm i LXC fungerar endast på vissa kärnor och kräver privileged + device passthrough. Vi kan testa, men CPU eller Intel iGPU är enklare.

I Proxmox host


`pct set 102 -unprivileged 0 pct set 102 -features nesting=1 pct set 102 -features "keyctl=1,nesting=1,fuse=1"`

I LXC container

	Gemensamt
AI Container: Ollama	Ollama behöver Python 3.11+ och pip.
Språkmodell: LLaMa