Analyser un plan architectural par IA en 2026 : SAM 2 et agents
Jordan Van Walleghem
01/05/2026
intelligence artificielle
vision par ordinateur
btp
12 minutes
Jordan Van Walleghem
01/05/2026
intelligence artificielle
vision par ordinateur
btp
12 minutes
Analyser automatiquement un plan architectural en 2026, ce n'est plus le même problème qu'en 2023. Pendant longtemps, les pipelines de vision par ordinateur sur plans reposaient sur des YOLO custom entraînés sur quelques centaines d'images annotées, complétés par un U-Net pour la segmentation des pièces. Ça marchait, mais ça coûtait cher à constituer et ça vieillissait mal dès qu'un nouveau symbole ou un nouveau format apparaissait dans le corpus.
L'arrivée de Segment Anything 2.1, de Florence-2 et surtout des LLM multimodaux de génération frontière (Claude Sonnet 4.5, Gemini 3.1 Pro, GPT-4.1) a redistribué les cartes. On peut aujourd'hui détecter des éléments sur un plan sans l'avoir jamais entraîné dessus, segmenter les pièces avec un IoU supérieur à 85 % après quelques milliers de pas de fine-tuning, et faire orchestrer toute la pipeline par un agent qui décide lui-même quand appeler quel outil.
Chez Platane, on construit ce type de pipeline pour des BET, des promoteurs immobiliers et des entreprises générales du BTP. On le fait sur-mesure, on l'héberge en France sur Scaleway, et on le rend conforme aux exigences de l'AI Act européen qui s'applique pleinement depuis le 2 août 2026. Cet article est la version 2026 de notre prise de position sur l'IA appliquée aux plans architecturaux : ce qui marche, ce qui ne marche plus, et ce qu'on évite.
Prérequis avant de se lancer
Avant d'investir dans un projet d'analyse automatique de plans par IA, vérifiez que vous cochez les cases suivantes. Ça vous évitera de signer un POC qui n'aboutira jamais à de la production.
- Un corpus représentatif : au minimum 200 à 500 plans réels de votre métier, dans la diversité des formats que vous traitez (PDF vectoriels, scans, exports CAO).
- Une convention de symboles documentée : quels symboles signalent une porte, un escalier, un ascenseur, une gaine technique. Si chaque architecte de votre BET utilise sa propre convention, vous devez d'abord normaliser ce vocabulaire.
- Un budget plancher : compter entre 6 et 14 semaines de prestation pour un MVP industrialisable. En deçà, c'est de la démo, pas de la production.
- Un référent métier dédié 1 à 2 jours par semaine pour annoter, arbitrer et valider. L'IA seule ne fait pas le travail : elle a besoin d'un expert qui tranche les cas ambigus pendant la phase de fine-tuning.
- Une cible d'usage métier précise : extraction de métrés DPGF, vérification PMR/SSI, géométrie DPE, ratio SHAB/SDP. Pas "voir ce que l'IA peut faire".
Si l'un de ces points est flou, commencez par un cadrage avant tout dev.
Comment fonctionne l'analyse automatique d'un plan en 2026
Une pipeline moderne d'analyse de plans architecturaux par IA repose sur quatre briques distinctes, qu'on combine selon le besoin :
- Ingestion et normalisation du PDF (extraction vectorielle si possible, sinon rendu image haute résolution à 300 à 600 DPI).
- Détection ouverte d'éléments par un modèle vision-langage type Florence-2 ou OWLv2 : on prompte "door", "window", "stair", "elevator" sans avoir à entraîner un détecteur dédié.
- Segmentation fine des zones (pièces, cloisons, espaces communs) par Segment Anything 2.1, en mode promptable ou zero-shot.
- Raisonnement spatial et arbitrage par un LLM multimodal (Claude Sonnet 4.5, Gemini 3.1 Pro, GPT-4.1) qui relit le plan annoté, croise avec les libellés OCR, et produit la donnée structurée finale.
Cette architecture remplace les pipelines monolithiques type "YOLO + U-Net + post-processing géométrique" qui dominaient encore en 2024. La différence majeure : chaque brique peut être remplacée indépendamment quand un meilleur modèle sort, et l'agent LLM qui orchestre peut décider de l'ordre des appels selon ce qu'il observe sur le plan.
Segment Anything 2.1 : la brique de segmentation qui change la donne
SAM 2.1, sorti par Meta FAIR en 2024 et stabilisé en 2025, est devenu le standard de fait pour la segmentation d'objets en zero-shot. Il accepte des prompts (points, boîtes, masques) et génère des masques pixel-précis sans avoir vu l'objet à l'entraînement.
Sur les plans architecturaux, plusieurs études publiées en 2025 confirment l'efficacité du fine-tuning :
- FloorSAM (arXiv 2509.15750) : reconstruction de plans à partir de nuages de points, precision 0,90 et recall 0,94 sur le dataset GibLayout.
- Building Segmentation with Multiprompts (Sensors and Materials, 2025) : SAM 2 fine-tuné atteint un IoU de 85,5 %, MSE 0,4 %, MAE 0,9 % sur la segmentation de bâtiments à partir d'orthoimages.
- Approche SAM ISPRS (2025) : segmentation correcte de 65 pièces sur 67 dans trois études de cas, avec un IoU dépassant 85 % pour la majorité.
Le fine-tuning de SAM 2.1 sur un corpus métier est étonnamment léger : un article référent de Towards Data Science montre une boucle complète en moins de 60 lignes de PyTorch, avec une amélioration significative dès 25 000 pas d'entraînement. Sur un GPU H100 loué chez Scaleway (autour de 2,50 € de l'heure à la demande), ça représente un coût d'entraînement initial inférieur à 200 € pour un POC.
Florence-2 et la détection ouverte des éléments du plan
YOLO custom-trained est en train de céder la place à des modèles vision-langage capables de détecter par prompt texte. Le bénéfice est immense pour les plans : on n'a plus besoin d'annoter 5 000 portes avant de pouvoir en détecter une nouvelle.
Florence-2 (Microsoft, MIT license) supporte nativement plusieurs tâches sur la même architecture : caption, détection d'objets, segmentation référentielle, OCR avec région, dense region caption. La variante Florence-2-DocLayNet-Fixed fine-tunée sur DocLayNet est particulièrement performante pour les annotations textuelles d'un plan (cartouche, échelle, nomenclature).
Grounded SAM 2 combine les deux : Florence-2 détecte les régions d'intérêt à partir d'un prompt texte, SAM 2.1 produit le masque pixel-précis derrière. C'est la pile actuelle de référence pour l'analyse de plans en zero-shot.
Le tournant agentique : un LLM orchestre la pipeline
Le changement le plus profond entre 2023 et 2026 n'est pas un meilleur modèle de vision. C'est l'apparition de LLM multimodaux assez fiables pour piloter eux-mêmes la pipeline.
Concrètement, au lieu d'une pipeline figée "rendu, détection, segmentation, OCR, calcul, export", on confie l'orchestration à un agent (Claude Sonnet 4.5 ou Gemini 3.1 Pro, par exemple), qui décide à chaque étape :
- "Ce plan est vectoriel, je peux extraire la géométrie sans rendre une image."
- "Le cartouche d'échelle est illisible, je relance l'OCR avec un crop différent."
- "Cette pièce n'a pas de libellé, je demande à l'humain de trancher avant de calculer la surface."
- "Le résultat surface global diffère de 12 % du DPGF saisi par l'utilisateur, je signale l'incohérence."
Ce schéma n'est pas théorique : c'est le squelette d'une pipeline qu'on a déployée chez plusieurs clients. L'agent gère lui-même les retries, la traçabilité des décisions (chaque appel est loggé), et le passage en relecture humaine quand sa confiance descend sous un seuil défini.
YOLO custom vs SAM 2 vs Grounded SAM 2 vs Agent LLM : la grille de décision
Toutes les approches ne se valent pas selon le projet. Voici comment on tranche en cadrage.
| Approche | Coût POC | Latence par plan | Robustesse aux nouveaux symboles | Précision sur corpus connu | Quand on la choisit |
|---|---|---|---|---|---|
| YOLO custom + U-Net | 12 à 25 k€ | 2 à 5 s | Faible (réentraînement requis) | Très élevée si bien annoté | Volume très élevé, corpus très stable |
| SAM 2.1 fine-tuné seul | 8 à 15 k€ | 4 à 10 s | Moyenne | Élevée (IoU 85 %+) | Segmentation prioritaire, détection simple |
| Grounded SAM 2 (zero-shot) | 5 à 10 k€ | 8 à 18 s | Très élevée | Bonne, dépend des prompts | MVP rapide, corpus hétérogène |
| Agent LLM multimodal orchestrateur | 10 à 20 k€ | 15 à 60 s | Très élevée | Très élevée avec humain dans la boucle | Cas métier complexes (PMR, SSI, DPE) |
Les coûts sont des ordres de grandeur observés sur nos cadrages 2025 à 2026, pas des engagements fermes. La latence est mesurée sur un plan A3 typique sur GPU H100 mutualisé.
Pourquoi on ne ferait pas tourner GPT-4 Vision sur des plans confidentiels
Une approche tentante consiste à envoyer le plan en JPEG à l'API d'un LLM multimodal généraliste (GPT-4.1 Vision, Gemini 3.1 Pro) en demandant directement "extrais les pièces et leurs surfaces". C'est rapide à prototyper, et ça donne des résultats spectaculaires en démo.
On ne le recommande pas pour de la production, pour quatre raisons concrètes :
- Aucune traçabilité géométrique. Le modèle estime les surfaces, il ne les calcule pas. Si le BET conteste une mesure, vous ne pouvez pas reconstituer comment l'IA est arrivée à ce chiffre.
- Dérive sur l'échelle. Sur des plans sans cotation explicite, GPT-4.1 Vision peut être à ±15 % sur les surfaces. C'est inacceptable pour du métré DPGF.
- Confidentialité. Les plans architecturaux sont souvent couverts par des NDA client. Un BET qui envoie en clair un plan d'opération de promoteur immobilier vers OpenAI ou Google est une faute professionnelle dans 9 cas sur 10.
- AI Act. Depuis le 2 août 2026, l'usage de système d'IA pour des décisions techniques sur du bâti (calculs de surface utilisée pour la commercialisation, vérifications de conformité) tombe dans une zone à risque qui exige traçabilité, hébergement contrôlé et logs auditables. Une API SaaS opaque ne répond pas à ces exigences.
C'est pour ces raisons qu'on construit nos pipelines sur du modèle open-source fine-tuné, hébergé en France, avec une couche d'orchestration LLM qu'on peut soit garder en cloud souverain (Mistral Large via Scaleway), soit isoler complètement.
Le piège qu'on a vraiment vu : l'échelle qui dérive de 8 %
Symptôme : sur un MVP d'analyse de plans pour un économiste de la construction, toutes les surfaces remontées par l'IA étaient à 7 à 9 % au-dessus des surfaces de référence saisies à la main. L'erreur était constante, pas aléatoire.
Diagnostic : l'OCR Tesseract appliqué au cartouche du plan extrayait l'échelle "1" comme "1" (avec deux O majuscules au lieu de zéros), ce qui faisait dériver le facteur de conversion pixel/mètre. Le problème n'était pas la segmentation SAM, qui était impeccable à l'IoU. Le problème était trois caractères mal lus dans un coin du plan.
Fix : on a remplacé l'extraction d'échelle Tesseract par un appel à un LLM multimodal (Claude Sonnet 4.5) sur un crop dédié du cartouche, avec un prompt structuré qui force une sortie JSON typée. Coût additionnel : 0,0006 € par plan analysé. Précision sur l'extraction d'échelle : passée de 92 % à 99,7 % sur 800 plans de test. Délai de mise en place : 1 jour de dev.
Ce genre de bug n'apparaît jamais dans les benchmarks académiques. Il apparaît la première fois que vous mettez votre pipeline en prod sur des plans hétérogènes du monde réel.
Souveraineté et AI Act : pourquoi héberger en France n'est plus une option
L'AI Act européen est entré en vigueur le 1er août 2024 et s'applique pleinement depuis le 2 août 2026. Pour un système d'analyse automatique de plans architecturaux, plusieurs articles s'appliquent directement, notamment l'article 12 sur la traçabilité des journaux et l'obligation de conservation des logs au sein d'une infrastructure que vous contrôlez.
En parallèle, Scaleway a été retenu en 2026 par la Commission Européenne dans son Cloud Sovereignty Framework comme l'un des quatre cloud souverains éligibles à supporter les institutions de l'UE. Concrètement, pour un projet IA sur des plans contenant des données clients sensibles (opérations immobilières confidentielles, données cadastrales, projets de défense), l'hébergement Scaleway France n'est plus un argument de différenciation : c'est devenu un prérequis crédible.
Notre stack par défaut sur ces projets :
- Cluster Kubernetes managé Scaleway en France, avec GPU H100/A100 à la demande pour le fine-tuning et l'inférence batch.
- PostgreSQL répliqué avec stream WAL "offshore" vers OVH (second hébergeur français) pour la continuité en cas d'incident fournisseur.
- Chiffrement at-rest sur tous les volumes, chiffrement en transit TLS 1.3 partout.
- Modèles open-source (Florence-2, SAM 2.1, Mistral Large) auto-hébergés sur Scaleway pour les workloads sensibles. Anthropic Claude utilisé uniquement quand le besoin justifie un modèle frontière, avec data processing agreement signé.
- Logs auditables stockés 12 mois minimum, exportables pour audit AI Act.
Ce niveau d'exigence, qu'on appliquerait pour un client CAC40, est inclus dans toutes nos prestations. Pas en option, pas en surfacturation. Notre CTO Jordan, AWS Certified Solutions Architect et Scaleway Expert, a fait le choix délibéré de Scaleway en connaissance de cause : on connaît AWS de l'intérieur, et on assume la souveraineté comme un standard technique, pas comme un argument marketing.
Comment on a livré Jef.chat au Barreau de Bruxelles
Pour valider qu'on sait construire de l'IA documentaire à fort enjeu, le projet de référence est Jef.chat : un assistant IA juridique déployé pour le Barreau de Bruxelles, utilisé par plus de 6 000 avocats, architecture RAG sur Anthropic Claude et embeddings Cohere, multi-tenant à isolation stricte, hébergé en Europe. Les défis de Jef (précision absolue, secret professionnel, conformité réglementaire) sont les mêmes que ceux d'un BET qui veut analyser ses plans confidentiels par IA.
Plus récemment, on a livré Raoul, une plateforme IA pour professions réglementées (avocats, notaires, experts-comptables, vétérinaires, experts immobiliers). Architecture RAG multi-LLM (Anthropic, Cohere, Mistral), connecteurs OneDrive/SharePoint, authentification à deux facteurs, validation par pentest externe. Le même socle technique se réutilise pour un projet d'analyse de plans : auth, multi-tenancy, observabilité, sécurité.
Sur-mesure plutôt que SaaS générique : quand ça se justifie
Plusieurs produits SaaS français de qualité existent sur ce marché. Si votre besoin est standard (extraction de métrés DPGF basique, identification pièces/portes/fenêtres sur des plans français standardisés), un abonnement à un outil existant peut être la meilleure réponse.
On vous oriente vers du sur-mesure quand au moins l'un des points suivants s'applique :
- Vous avez des symboles métier non-standards (plans industriels, plans hospitaliers, plans monuments historiques).
- Vous voulez intégrer profondément la pipeline dans vos outils existants (ERP, logiciel de chiffrage, CRM promoteur, BIM).
- Vous traitez des données sensibles que vous refusez d'envoyer dans un SaaS mutualisé (clients défense, opérations confidentielles, IP architecturale).
- Vous avez un volume suffisant (plus de 200 plans par mois) pour amortir l'investissement initial sur 18 à 24 mois.
- Vous voulez construire votre IP : un modèle entraîné sur votre corpus métier devient un actif de votre entreprise, pas une dépendance vendor.
Dans tous les autres cas, on vous le dit en cadrage : prenez un SaaS, ça vous coûtera moins cher.
Questions fréquentes
Quel modèle d'IA est le plus utilisé pour analyser un plan architectural en 2026 ?
La pile de référence en 2026 combine Segment Anything 2.1 pour la segmentation pixel-précise des pièces, Florence-2 pour la détection ouverte d'éléments (portes, fenêtres, symboles), et un LLM multimodal (Claude Sonnet 4.5, Gemini 3.1 Pro ou Mistral Large) pour orchestrer la pipeline et arbitrer les cas ambigus. Cette combinaison remplace les pipelines YOLO custom + U-Net dominants en 2023 à 2024.
Peut-on calculer automatiquement les surfaces d'un plan PDF ?
Oui, à condition d'extraire correctement l'échelle. Sur un plan vectoriel, l'extraction est exacte (la géométrie est dans le fichier). Sur un scan ou un PDF image, il faut détecter l'échelle dans le cartouche, ce qui peut être source d'erreur si elle est mal OCRisée. Une pipeline industrielle vise une précision de ±2 % sur les surfaces détectées correctement, et signale les plans dont l'échelle ne peut pas être extraite avec confiance.
Combien coûte un projet d'analyse automatique de plans par IA ?
Pour un MVP industrialisable, le budget se situe entre 15 et 30 k€ pour une pipeline Grounded SAM 2 zero-shot avec interface de validation. Pour une plateforme complète avec fine-tuning sur corpus métier, intégrations ERP/BIM et workflow humain dans la boucle, le budget peut atteindre 60 à 120 k€ selon la complexité. Ces fourchettes sont indicatives et dépendent fortement du volume de plans, du nombre de symboles à reconnaître et des intégrations système.
Quel est le niveau de précision atteignable ?
Sur des plans correctement standardisés et après fine-tuning, on observe en production :
- Détection de pièces : IoU 85 % à 92 % (selon complexité du plan).
- Classification des pièces par libellé : 88 % à 94 % quand le libellé textuel est lisible.
- Calcul de surface : ±2 % à ±5 % sur les pièces correctement segmentées.
- Détection portes/fenêtres : rappel 90 % à 95 % avec Grounded SAM 2.
Ces chiffres baissent significativement sur des plans manuscrits, des scans dégradés ou des conventions de symboles atypiques.
Mon BET peut-il auto-héberger une solution d'analyse de plans par IA ?
Oui, mais c'est rarement le bon arbitrage. SAM 2.1 et Florence-2 sont open-source et tournent sur un GPU A100 ou H100. En revanche, l'orchestration LLM (Claude, GPT-4.1, Mistral Large) reste en API sauf si vous self-hostez Llama 4 ou Mistral en infra. Pour la plupart des BET, le bon arbitrage est : auto-hébergement des modèles de vision sur Scaleway France + API Mistral Large via Scaleway + données et logs chez vous. Ça donne 90 % du contrôle pour 30 % du coût d'un setup full self-hosted.
Comment l'AI Act européen affecte un projet d'analyse de plans ?
Depuis le 2 août 2026, l'AI Act s'applique pleinement. Pour un système qui produit des décisions techniques (calcul de surface utilisée pour la commercialisation, vérification de conformité PMR/SSI), les obligations principales sont la traçabilité des logs (article 12), la documentation technique du système, et la transparence sur l'usage de l'IA auprès des utilisateurs finaux. Concrètement : journaliser chaque décision de l'IA, conserver les logs 6 à 12 mois minimum, et documenter le modèle, ses limites et ses biais connus.
Faut-il préférer une solution SaaS ou un développement sur-mesure ?
Le SaaS est le bon choix si vos besoins sont standards, votre volume modeste et vos données non-sensibles. Le sur-mesure devient justifié si vous avez des symboles métier non-standards, des intégrations profondes à faire avec votre ERP/BIM, des contraintes de confidentialité fortes, ou un volume qui amortit un investissement de 30 à 100 k€ sur 18 à 24 mois.
Quelle différence entre Segment Anything et YOLO sur un plan architectural ?
YOLO est un détecteur d'objets qui produit des boîtes englobantes pour des classes apprises pendant l'entraînement. Segment Anything 2.1 est un modèle de segmentation pixel-précise en zero-shot : il accepte un prompt (point, boîte ou texte via Grounded SAM 2) et produit un masque exact. Pour un plan architectural, YOLO est pertinent quand on a un nombre fixe de symboles bien définis et un dataset annoté. SAM est pertinent dès qu'on veut la délimitation exacte d'une pièce ou qu'on traite un corpus hétérogène où les nouveaux symboles arrivent en continu.
En conclusion
L'analyse automatique de plans architecturaux par IA est passée en 2026 d'un sujet de R&D à un sujet d'industrialisation. La stack technique est stabilisée (SAM 2.1 + Florence-2 + LLM multimodal). Les vrais sujets sont désormais : la qualité du corpus de fine-tuning, la robustesse de l'orchestration, la traçabilité conforme AI Act, et le choix entre SaaS générique et plateforme sur-mesure.
L'agence Platane (https://platane.io) construit ce type de pipeline pour des BET, des promoteurs immobiliers et des entreprises générales du BTP, avec un hébergement souverain Scaleway France et une stack technique alignée sur les exigences AI Act 2026. Pour échanger sur un cadrage, prendre rendez-vous en ligne ou nous écrire à bonjour@platane.io.
Le BlogDes infos, des actus, du fun !
13/10/2025
Extraction automatique de données PDF vers Excel : les défis de l'IA hors ligne et de la fiabilité
21/09/2025
Applications IA pour professionnels du bâtiment : créer des solutions métier intelligentes et conformes
02/09/2025
Automatiser le traitement des factures fournisseurs : enjeux et bonnes pratiques
Nous contacterOui allo ?
Nous envoyer un message
Prendre rendez-vous
Vous préférez discuter de vive voix ? Nous aussi et c'est évidemment sans engagement !
Nous appeler
Une question, un besoin de renseignements ? N'hésitez pas à nous contacter.
Activateur France Num
Platane a rejoint l'initiative France Num pour accompagner les TPE PME dans leur transformation numérique : diagnostics, formations et aides financières.
Pourquoi faire appel à un expert du numérique référencé par France Num ? →