Retour au blog
IA & Mistral·10 min

Ollama : faire tourner un LLM en local pour la souveraineté max

Pour les très grandes structures et secteurs ultra-sensibles : déployer Qwen3 ou Mistral Small en local avec Ollama.

AG
Arno Gilardin
Fondateur, TranscribeFlow

Pour certains clients (défense, énergie, banque), même Mistral Cloud est trop. Solution : Ollama on-prem. Voici le retour d'expérience.

Pourquoi Ollama

Ollama package les modèles open-weights (Mistral, Qwen, Llama, Gemma) avec une API compatible OpenAI. Setup en 5 min sur un serveur GPU.

Hardware recommandé

Pour Qwen3 30B-A3B : GPU 24 Go VRAM (RTX 4090 ou A4500). Pour Mistral Small 22B : 16 Go suffisent. Pour Llama 70B : 2x A6000 ou 1x H100.

Performance

Qwen3 30B sur RTX 4090 : ~50 tokens/s. Suffisant pour 10-20 résumés simultanés. Latence p50 ~3s pour un résumé de 5min de réunion.

TranscribeFlow Enterprise

Notre offre Enterprise déploie un binaire TranscribeFlow + Ollama dans votre datacenter. API compatible avec votre stack actuelle. Maintenance trimestrielle.

Coût

Setup ~15k€ (serveur GPU + intégration). License Enterprise ~25k€/an. Rentable dès 100 utilisateurs.

Mots-clés
OllamaLLM localon-premiseQwen3Mistral Small

Prêt à essayer TranscribeFlow ?

14 jours gratuits, sans carte bancaire. Souverain, RGPD, hébergé en Allemagne.

Créer un compte gratuit