Pour certains clients (défense, énergie, banque), même Mistral Cloud est trop. Solution : Ollama on-prem. Voici le retour d'expérience.
Pourquoi Ollama
Ollama package les modèles open-weights (Mistral, Qwen, Llama, Gemma) avec une API compatible OpenAI. Setup en 5 min sur un serveur GPU.
Hardware recommandé
Pour Qwen3 30B-A3B : GPU 24 Go VRAM (RTX 4090 ou A4500). Pour Mistral Small 22B : 16 Go suffisent. Pour Llama 70B : 2x A6000 ou 1x H100.
Performance
Qwen3 30B sur RTX 4090 : ~50 tokens/s. Suffisant pour 10-20 résumés simultanés. Latence p50 ~3s pour un résumé de 5min de réunion.
TranscribeFlow Enterprise
Notre offre Enterprise déploie un binaire TranscribeFlow + Ollama dans votre datacenter. API compatible avec votre stack actuelle. Maintenance trimestrielle.
Coût
Setup ~15k€ (serveur GPU + intégration). License Enterprise ~25k€/an. Rentable dès 100 utilisateurs.
Prêt à essayer TranscribeFlow ?
14 jours gratuits, sans carte bancaire. Souverain, RGPD, hébergé en Allemagne.
Créer un compte gratuit