Mistral Large 2 vs GPT-4o : benchmark sur résumé en français

Nous avons benchmarké les deux modèles sur 50 réunions clients réelles (anonymisées). Voici les résultats détaillés.

Méthodologie

50 transcripts FR (5 à 60 min), prompt système identique, évaluation par 3 humains (notes 1-5 sur fidélité, concision, structure, lisibilité).

Mistral Large 2 : 2$/M in, 6$/M out. GPT-4o : 5$/M in, 15$/M out. Soit 2,5x moins cher à qualité équivalente.

Depuis Hetzner Falkenstein : Mistral 1.2s p50 / 3.8s p99. GPT-4o 2.5s p50 / 7s p99. Mistral est ~2x plus rapide pour nous.

Mistral SAS française, RGPD natif, DPA self-service. OpenAI : Cloud Act, DPA via Microsoft Azure (complexe).

Pour le français business : Mistral Large 2 gagne sur tous les axes. C'est notre choix par défaut.