Voxtral chez Lex4u : reconnaissance vocale RGPD-compliant en 2026
Jordan Van Walleghem
28/04/2026
voxtral
stt
souveraineté
7 minutes
Ajouter un bouton micro à un chat input, c'est une journée de code, côté code pur, rien de compliqué.
Le vrai travail s'est passé en amont. Pas dans l'éditeur, mais dans un tableau où on a passé en revue une dizaine de fournisseurs de speech-to-text (STT) pour cocher des cases : hébergement, droit applicable, secret professionnel, biaisage du vocabulaire métier, multi-navigateur, ouverture du modèle. Plusieurs heures pour aboutir à une seule conclusion solide : pour un produit qui parle aux avocats en France et en Belgique, l'essentiel du marché STT mainstream est inutilisable.
Cet article raconte ce qu'on a appris, et pourquoi on a fini par retenir Voxtral, le modèle de transcription de Mistral. Pas un manifeste anti-Cloud Act, pas un guide juridique : un retour d'expérience d'agence dev qui livre un produit régulé.
Pourquoi le marché STT exploitable rétrécit pour un produit juridique européen
Le RGPD seul ne suffit pas à qualifier un fournisseur. Sur le papier, beaucoup d'acteurs US se présentent comme "GDPR-compliant" ou "EU-hosted". En pratique, dès qu'une société est immatriculée aux États-Unis ou détenue par une maison-mère américaine, le Cloud Act de 2018 permet aux autorités américaines de réclamer ses données, même quand les serveurs physiques sont en Allemagne ou en Irlande. C'est précisément le conflit que la décision Schrems II de la Cour de justice de l'Union européenne a acté en 2020 : les clauses contractuelles types ne suffisent plus sans mesures techniques complémentaires.
Pour un cabinet d'avocats, la contrainte est encore plus dure. Le secret professionnel n'est pas une simple obligation contractuelle, c'est une infraction pénale en cas de violation. En Belgique, l'article 458 du Code pénal prévoit jusqu'à six mois d'emprisonnement, doublé d'un risque de radiation du Barreau. En France, l'article 226-13 du Code pénal joue le même rôle. Aucun consentement éclairé de l'utilisateur final n'exonère l'avocat de cette responsabilité. Le Conseil des Barreaux Européens considère le Cloud Act comme une menace directe au secret professionnel dès qu'une autorité étrangère peut accéder aux données.
Concrètement, à la fin du filtrage, on regarde un marché STT divisé en gros en quatre familles. Le diagramme ci-dessous montre comment chacune sort.
Une fois ces filtres appliqués, on perd autour de 80 % de la liste de départ. Ce qui reste tient sur une demi-page.
Web Speech API n'est pas "locale" par défaut, et ça nous a piégés un instant
Dans la liste des candidats restants, l'option "tout dans le navigateur" via l'API Web Speech revient toujours en tête. C'est gratuit, c'est natif, c'est dans tous les manuels. Et c'est précisément là qu'on a failli se planter sur un raisonnement faux.
L'idée reçue chez beaucoup de développeurs : « si c'est dans le navigateur, c'est local au navigateur ». Faux pendant plus de dix ans. Entre 2013 et 2025, l'objet SpeechRecognition envoyait l'audio dans le cloud : Chrome vers les serveurs Google, Safari vers ceux d'Apple. Le code donnait l'illusion d'une API locale, l'audio partait quand même en transit.
Ce qui a changé, c'est Chrome 139, sorti le 5 août 2025, qui introduit la propriété processLocally: true sur l'objet SpeechRecognition. Quand on la passe à true, la transcription est effectuée entièrement sur l'appareil, avec un pack de langue téléchargé localement, sans aller au serveur. Sur le papier, c'est exactement ce qu'on cherchait.
Pourquoi on n'a quand même pas retenu Web Speech API en 2026
Web Speech API on-device est techniquement une bonne API. Elle ne convenait juste pas à notre cas d'usage, pour trois raisons précises.
La fragmentation cross-browser. Aujourd'hui, processLocally fonctionne sur Chrome desktop et Android. Safari n'a pas confirmé d'implémentation. Firefox n'a pas implémenté Web Speech API du tout. Notre clientèle d'avocats utilise massivement Safari sur Mac et iPhone : passer en production avec une fonctionnalité dégradée pour la moitié des utilisateurs n'est pas envisageable sur un outil professionnel.
L'absence de biaisage métier. Un modèle généraliste n'a jamais entendu parler de « Cass. crim., 3 juillet 2003 » ni de « article 1240 du Code civil ». Sans la possibilité d'injecter un lexique de termes attendus, ces fragments sont systématiquement massacrés. La documentation Chrome elle-même recommande, sur les termes techniques, un fallback vers une reconnaissance serveur quand la précision compte.
La taille du modèle on-device. Un modèle qui tient dans le navigateur est nécessairement plus petit qu'un modèle d'inférence côté serveur. Sur du français juridique avec ses citations, ses abréviations et ses noms propres, l'écart de word error rate avec un modèle frontière se voit à l'oreille.
Voxtral : pourquoi Mistral est arrivé pile au bon moment
Sur la poignée de candidats valides après filtrage, Voxtral Mini Transcribe V2 a coché toutes les cases. Sortie début 2026 par Mistral AI, c'est une famille de modèles de transcription pensée pour l'API et le batch, avec diarization native (qui parle quand), context biasing pour le vocabulaire métier, et 13 langues incluant le français, le néerlandais et l'anglais. Selon Mistral, le modèle atteint environ 4 % de word error rate sur le benchmark FLEURS, à 0,003 $ par minute.
Le tableau ci-dessous résume la comparaison qu'on a finalement faite, sur les seuls candidats qui passaient le premier filtre réglementaire.
| Critère | Voxtral Mini Transcribe V2 | Whisper auto-hébergé | Web Speech API on-device | Cloud STT US |
|---|---|---|---|---|
| Hébergement | Mistral, France | Scaleway ou OVH | Navigateur (Chrome 139+) | États-Unis |
| Cloud Act applicable | Non | Non | Non | Oui |
| Tarif d'inférence | 0,003 $ par minute | Coût compute UE | Gratuit | 0,003 à 0,01 $ par minute |
| Diarization native | Oui | À ajouter (Pyannote) | Non | Variable |
| Context biasing | Oui, lexique métier | Manuel via prompt | Phrases (expérimental) | Variable |
| Poids ouverts | Realtime : Apache 2.0 | Oui (MIT) | Non | Non |
| Multi-navigateur | Oui (API serveur) | Oui (API serveur) | Chrome principalement | Oui |
Le détail qui a pesé : les poids du modèle Voxtral Realtime sont publiés en Apache 2.0 sur Hugging Face. Si demain le besoin de durcir le contrôle apparaît (un client qui exige un déploiement on-premise, par exemple), on peut basculer sur du Whisper ou du Voxtral self-hosté sur notre cluster Kubernetes Scaleway en France, sans réécrire la couche applicative. La diarization peut être déléguée à Pyannote, projet open source porté par le CNRS à Toulouse. L'écosystème souverain est en place.
Ce que la cartographie réglementaire a vraiment coûté
Le bilan honnête, quelques semaines après la mise en production de la dictée vocale chez Lex4u : la partie code est triviale, la partie cartographie est l'investissement réel. Mais cet investissement se réutilise.
Le tableau de filtrage qu'on a construit pour la dictée sert maintenant de référence pour toutes les briques audio et vidéo qu'on évaluera : enregistrement de réunions, génération de notes vocales, dictée mobile. Pour le prochain produit qui touchera à de la data sensible chez Lex4u, le travail réglementaire est déjà fait à 80 %. Le coût marginal de la conformité tombe à chaque feature qu'on ajoute.
Deux autres take-aways en passant. Le premier : l'écosystème STT souverain a vraiment changé en 2025 et 2026. Voxtral, Whisper en open weights, Pyannote en open source, Scaleway et OVH côté infrastructure. Il y a dix-huit mois, ce dossier aurait été beaucoup plus pénible à boucler. Le second : la confusion « API navigateur égale calcul local au navigateur » mérite d'être désamorcée chez les équipes tech. Elle a tenu pendant douze ans, elle continuera à faire des audits embarrassants en 2027 si personne ne la verbalise clairement.
L'agence Platane (https://platane.io) construit Lex4u et son instance belge Jef pour le Barreau de Bruxelles. Notre standard est constant pour tous les projets IA verticalisés sur secteur régulé : infrastructure souveraine en France, conformité RGPD et secret professionnel intégrés dès la conception, choix de modèles documenté et opposable. Pour des contraintes similaires sur votre vertical, voir aussi nos solutions IA sur mesure.
Questions fréquentes sur la dictée vocale RGPD chez un SaaS européen
Q : Faut-il toujours faire ce travail de cartographie réglementaire avant d'ajouter du STT ?
A : Pas systématiquement. Si votre produit traite uniquement des contenus publics ou non sensibles (transcription de podcasts publics, par exemple), la conformité RGPD standard suffit et beaucoup d'API STT américaines conviennent. La cartographie devient indispensable dès que vos utilisateurs traitent des données qui relèvent du secret professionnel (avocats, médecins, notaires), de données de santé, ou de données soumises à des obligations sectorielles (finance, défense, secteur public).
Q : Voxtral peut-il être self-hosté sur une infrastructure européenne ?
A : Oui pour Voxtral Realtime, dont les poids sont publiés sous licence Apache 2.0 sur Hugging Face. Voxtral Mini Transcribe V2, en revanche, n'est accessible que via l'API Mistral, Le Chat ou le playground Mistral Studio. Pour un déploiement entièrement on-premise, l'alternative reste Whisper open source, qu'on déploie typiquement sur un cluster Kubernetes Scaleway en France.
Q : Web Speech API on-device est-il utilisable en production en 2026 ?
A : Techniquement oui sur Chrome 139 et plus récents, en passant processLocally: true et en s'assurant que le pack de langue est installé via la méthode install(). En pratique, deux limites bloquent l'usage production sur un SaaS B2B vertical : la fragmentation cross-browser (Safari et Firefox ne l'implémentent pas encore) et l'absence de biaisage vocabulaire métier qui dégrade la précision sur le jargon professionnel.
Q : Qu'est-ce qui change exactement avec le Cloud Act par rapport au RGPD ?
A : Le RGPD encadre la manière dont les données personnelles sont traitées dans l'UE et limite leurs transferts hors UE. Le Cloud Act, lui, donne aux autorités américaines le droit de demander à toute société sous juridiction américaine les données qu'elle contrôle, même quand ces données sont stockées physiquement en Europe. C'est ce conflit de droits que la décision Schrems II de 2020 a rendu opérationnellement bloquant pour beaucoup de transferts vers les hyperscalers américains.
Le BlogDes infos, des actus, du fun !
22/04/2026
pgvector en production : indexer un RAG d'1 To sans downtime
26/04/2026
Postgres pg_hint_plan : forcer GIN vs GiST trigram en prod RAG
13/04/2026
Plateforme off-market immobilier : architecture confidentielle d'un MVP
Nous contacterOui allo ?
Nous envoyer un message
Prendre rendez-vous
Vous préférez discuter de vive voix ? Nous aussi et c'est évidemment sans engagement !
Nous appeler
Une question, un besoin de renseignements ? N'hésitez pas à nous contacter.
Activateur France Num
Platane a rejoint l'initiative France Num pour accompagner les TPE PME dans leur transformation numérique : diagnostics, formations et aides financières.
Pourquoi faire appel à un expert du numérique référencé par France Num ? →