Ollama : faire tourner un LLM en local pour la souveraineté max

Pour certains clients (défense, énergie, banque), même Mistral Cloud est trop. Solution : Ollama on-prem. Voici le retour d'expérience.

Pourquoi Ollama

Ollama package les modèles open-weights (Mistral, Qwen, Llama, Gemma) avec une API compatible OpenAI. Setup en 5 min sur un serveur GPU.

Hardware recommandé

Pour Qwen3 30B-A3B : GPU 24 Go VRAM (RTX 4090 ou A4500). Pour Mistral Small 22B : 16 Go suffisent. Pour Llama 70B : 2x A6000 ou 1x H100.

Performance

Qwen3 30B sur RTX 4090 : ~50 tokens/s. Suffisant pour 10-20 résumés simultanés. Latence p50 ~3s pour un résumé de 5min de réunion.

TranscribeFlow Enterprise

Notre offre Enterprise déploie un binaire TranscribeFlow + Ollama dans votre datacenter. API compatible avec votre stack actuelle. Maintenance trimestrielle.

Coût

Setup ~15k€ (serveur GPU + intégration). License Enterprise ~25k€/an. Rentable dès 100 utilisateurs.

Ollama : faire tourner un LLM en local pour la souveraineté max

Pourquoi Ollama

Hardware recommandé

Performance

TranscribeFlow Enterprise

Coût

Prêt à essayer TranscribeFlow ?

Articles liés

Mistral Large 2 vs GPT-4o : benchmark sur résumé en français