Analyser un plan architectural par IA en 2026 : SAM 2 et agents

Carnet d'architecte ouvert avec plan dessiné à l'encre noire et annotations colorées, ambiance d'atelier parisien

Jordan Van Walleghem

01/05/2026

intelligence artificielle

vision par ordinateur

btp

12 minutes

Contactez‑nous

Jordan Van Walleghem

01/05/2026

intelligence artificielle

vision par ordinateur

btp

12 minutes

Analyser automatiquement un plan architectural en 2026, ce n'est plus le même problème qu'en 2023. Pendant longtemps, les pipelines de vision par ordinateur sur plans reposaient sur des YOLO custom entraînés sur quelques centaines d'images annotées, complétés par un U-Net pour la segmentation des pièces. Ça marchait, mais ça coûtait cher à constituer et ça vieillissait mal dès qu'un nouveau symbole ou un nouveau format apparaissait dans le corpus.

L'arrivée de Segment Anything 2.1, de Florence-2 et surtout des LLM multimodaux de génération frontière (Claude Sonnet 4.5, Gemini 3.1 Pro, GPT-4.1) a redistribué les cartes. On peut aujourd'hui détecter des éléments sur un plan sans l'avoir jamais entraîné dessus, segmenter les pièces avec un IoU supérieur à 85 % après quelques milliers de pas de fine-tuning, et faire orchestrer toute la pipeline par un agent qui décide lui-même quand appeler quel outil.

Chez Platane, on construit ce type de pipeline pour des BET, des promoteurs immobiliers et des entreprises générales du BTP. On le fait sur-mesure, on l'héberge en France sur Scaleway, et on le rend conforme aux exigences de l'AI Act européen qui s'applique pleinement depuis le 2 août 2026. Cet article est la version 2026 de notre prise de position sur l'IA appliquée aux plans architecturaux : ce qui marche, ce qui ne marche plus, et ce qu'on évite.

Prérequis avant de se lancer

Avant d'investir dans un projet d'analyse automatique de plans par IA, vérifiez que vous cochez les cases suivantes. Ça vous évitera de signer un POC qui n'aboutira jamais à de la production.

Un corpus représentatif : au minimum 200 à 500 plans réels de votre métier, dans la diversité des formats que vous traitez (PDF vectoriels, scans, exports CAO).
Une convention de symboles documentée : quels symboles signalent une porte, un escalier, un ascenseur, une gaine technique. Si chaque architecte de votre BET utilise sa propre convention, vous devez d'abord normaliser ce vocabulaire.
Un budget plancher : compter entre 6 et 14 semaines de prestation pour un MVP industrialisable. En deçà, c'est de la démo, pas de la production.
Un référent métier dédié 1 à 2 jours par semaine pour annoter, arbitrer et valider. L'IA seule ne fait pas le travail : elle a besoin d'un expert qui tranche les cas ambigus pendant la phase de fine-tuning.
Une cible d'usage métier précise : extraction de métrés DPGF, vérification PMR/SSI, géométrie DPE, ratio SHAB/SDP. Pas "voir ce que l'IA peut faire".

Si l'un de ces points est flou, commencez par un cadrage avant tout dev.

Comment fonctionne l'analyse automatique d'un plan en 2026

Une pipeline moderne d'analyse de plans architecturaux par IA repose sur quatre briques distinctes, qu'on combine selon le besoin :

Ingestion et normalisation du PDF (extraction vectorielle si possible, sinon rendu image haute résolution à 300 à 600 DPI).
Détection ouverte d'éléments par un modèle vision-langage type Florence-2 ou OWLv2 : on prompte "door", "window", "stair", "elevator" sans avoir à entraîner un détecteur dédié.
Segmentation fine des zones (pièces, cloisons, espaces communs) par Segment Anything 2.1, en mode promptable ou zero-shot.
Raisonnement spatial et arbitrage par un LLM multimodal (Claude Sonnet 4.5, Gemini 3.1 Pro, GPT-4.1) qui relit le plan annoté, croise avec les libellés OCR, et produit la donnée structurée finale.

Cette architecture remplace les pipelines monolithiques type "YOLO + U-Net + post-processing géométrique" qui dominaient encore en 2024. La différence majeure : chaque brique peut être remplacée indépendamment quand un meilleur modèle sort, et l'agent LLM qui orchestre peut décider de l'ordre des appels selon ce qu'il observe sur le plan.

Segment Anything 2.1 : la brique de segmentation qui change la donne

SAM 2.1, sorti par Meta FAIR en 2024 et stabilisé en 2025, est devenu le standard de fait pour la segmentation d'objets en zero-shot. Il accepte des prompts (points, boîtes, masques) et génère des masques pixel-précis sans avoir vu l'objet à l'entraînement.

Sur les plans architecturaux, plusieurs études publiées en 2025 confirment l'efficacité du fine-tuning :

FloorSAM (arXiv 2509.15750) : reconstruction de plans à partir de nuages de points, precision 0,90 et recall 0,94 sur le dataset GibLayout.
Building Segmentation with Multiprompts (Sensors and Materials, 2025) : SAM 2 fine-tuné atteint un IoU de 85,5 %, MSE 0,4 %, MAE 0,9 % sur la segmentation de bâtiments à partir d'orthoimages.
Approche SAM ISPRS (2025) : segmentation correcte de 65 pièces sur 67 dans trois études de cas, avec un IoU dépassant 85 % pour la majorité.

Le fine-tuning de SAM 2.1 sur un corpus métier est étonnamment léger : un article référent de Towards Data Science montre une boucle complète en moins de 60 lignes de PyTorch, avec une amélioration significative dès 25 000 pas d'entraînement. Sur un GPU H100 loué chez Scaleway (autour de 2,50 € de l'heure à la demande), ça représente un coût d'entraînement initial inférieur à 200 € pour un POC.

Florence-2 et la détection ouverte des éléments du plan

YOLO custom-trained est en train de céder la place à des modèles vision-langage capables de détecter par prompt texte. Le bénéfice est immense pour les plans : on n'a plus besoin d'annoter 5 000 portes avant de pouvoir en détecter une nouvelle.

Florence-2 (Microsoft, MIT license) supporte nativement plusieurs tâches sur la même architecture : caption, détection d'objets, segmentation référentielle, OCR avec région, dense region caption. La variante Florence-2-DocLayNet-Fixed fine-tunée sur DocLayNet est particulièrement performante pour les annotations textuelles d'un plan (cartouche, échelle, nomenclature).

Grounded SAM 2 combine les deux : Florence-2 détecte les régions d'intérêt à partir d'un prompt texte, SAM 2.1 produit le masque pixel-précis derrière. C'est la pile actuelle de référence pour l'analyse de plans en zero-shot.

Le tournant agentique : un LLM orchestre la pipeline

Le changement le plus profond entre 2023 et 2026 n'est pas un meilleur modèle de vision. C'est l'apparition de LLM multimodaux assez fiables pour piloter eux-mêmes la pipeline.

Concrètement, au lieu d'une pipeline figée "rendu, détection, segmentation, OCR, calcul, export", on confie l'orchestration à un agent (Claude Sonnet 4.5 ou Gemini 3.1 Pro, par exemple), qui décide à chaque étape :

"Ce plan est vectoriel, je peux extraire la géométrie sans rendre une image."
"Le cartouche d'échelle est illisible, je relance l'OCR avec un crop différent."
"Cette pièce n'a pas de libellé, je demande à l'humain de trancher avant de calculer la surface."
"Le résultat surface global diffère de 12 % du DPGF saisi par l'utilisateur, je signale l'incohérence."

Ce schéma n'est pas théorique : c'est le squelette d'une pipeline qu'on a déployée chez plusieurs clients. L'agent gère lui-même les retries, la traçabilité des décisions (chaque appel est loggé), et le passage en relecture humaine quand sa confiance descend sous un seuil défini.

YOLO custom vs SAM 2 vs Grounded SAM 2 vs Agent LLM : la grille de décision

Toutes les approches ne se valent pas selon le projet. Voici comment on tranche en cadrage.

Approche	Coût POC	Latence par plan	Robustesse aux nouveaux symboles	Précision sur corpus connu	Quand on la choisit
YOLO custom + U-Net	12 à 25 k€	2 à 5 s	Faible (réentraînement requis)	Très élevée si bien annoté	Volume très élevé, corpus très stable
SAM 2.1 fine-tuné seul	8 à 15 k€	4 à 10 s	Moyenne	Élevée (IoU 85 %+)	Segmentation prioritaire, détection simple
Grounded SAM 2 (zero-shot)	5 à 10 k€	8 à 18 s	Très élevée	Bonne, dépend des prompts	MVP rapide, corpus hétérogène
Agent LLM multimodal orchestrateur	10 à 20 k€	15 à 60 s	Très élevée	Très élevée avec humain dans la boucle	Cas métier complexes (PMR, SSI, DPE)

Les coûts sont des ordres de grandeur observés sur nos cadrages 2025 à 2026, pas des engagements fermes. La latence est mesurée sur un plan A3 typique sur GPU H100 mutualisé.

Pourquoi on ne ferait pas tourner GPT-4 Vision sur des plans confidentiels

Une approche tentante consiste à envoyer le plan en JPEG à l'API d'un LLM multimodal généraliste (GPT-4.1 Vision, Gemini 3.1 Pro) en demandant directement "extrais les pièces et leurs surfaces". C'est rapide à prototyper, et ça donne des résultats spectaculaires en démo.

On ne le recommande pas pour de la production, pour quatre raisons concrètes :

Aucune traçabilité géométrique. Le modèle estime les surfaces, il ne les calcule pas. Si le BET conteste une mesure, vous ne pouvez pas reconstituer comment l'IA est arrivée à ce chiffre.
Dérive sur l'échelle. Sur des plans sans cotation explicite, GPT-4.1 Vision peut être à ±15 % sur les surfaces. C'est inacceptable pour du métré DPGF.
Confidentialité. Les plans architecturaux sont souvent couverts par des NDA client. Un BET qui envoie en clair un plan d'opération de promoteur immobilier vers OpenAI ou Google est une faute professionnelle dans 9 cas sur 10.
AI Act. Depuis le 2 août 2026, l'usage de système d'IA pour des décisions techniques sur du bâti (calculs de surface utilisée pour la commercialisation, vérifications de conformité) tombe dans une zone à risque qui exige traçabilité, hébergement contrôlé et logs auditables. Une API SaaS opaque ne répond pas à ces exigences.

C'est pour ces raisons qu'on construit nos pipelines sur du modèle open-source fine-tuné, hébergé en France, avec une couche d'orchestration LLM qu'on peut soit garder en cloud souverain (Mistral Large via Scaleway), soit isoler complètement.

Le piège qu'on a vraiment vu : l'échelle qui dérive de 8 %

Symptôme : sur un MVP d'analyse de plans pour un économiste de la construction, toutes les surfaces remontées par l'IA étaient à 7 à 9 % au-dessus des surfaces de référence saisies à la main. L'erreur était constante, pas aléatoire.

Diagnostic : l'OCR Tesseract appliqué au cartouche du plan extrayait l'échelle "1

" comme "1" (avec deux O majuscules au lieu de zéros), ce qui faisait dériver le facteur de conversion pixel/mètre. Le problème n'était pas la segmentation SAM, qui était impeccable à l'IoU. Le problème était trois caractères mal lus dans un coin du plan.

Fix : on a remplacé l'extraction d'échelle Tesseract par un appel à un LLM multimodal (Claude Sonnet 4.5) sur un crop dédié du cartouche, avec un prompt structuré qui force une sortie JSON typée. Coût additionnel : 0,0006 € par plan analysé. Précision sur l'extraction d'échelle : passée de 92 % à 99,7 % sur 800 plans de test. Délai de mise en place : 1 jour de dev.

Ce genre de bug n'apparaît jamais dans les benchmarks académiques. Il apparaît la première fois que vous mettez votre pipeline en prod sur des plans hétérogènes du monde réel.

Souveraineté et AI Act : pourquoi héberger en France n'est plus une option

L'AI Act européen est entré en vigueur le 1er août 2024 et s'applique pleinement depuis le 2 août 2026. Pour un système d'analyse automatique de plans architecturaux, plusieurs articles s'appliquent directement, notamment l'article 12 sur la traçabilité des journaux et l'obligation de conservation des logs au sein d'une infrastructure que vous contrôlez.

En parallèle, Scaleway a été retenu en 2026 par la Commission Européenne dans son Cloud Sovereignty Framework comme l'un des quatre cloud souverains éligibles à supporter les institutions de l'UE. Concrètement, pour un projet IA sur des plans contenant des données clients sensibles (opérations immobilières confidentielles, données cadastrales, projets de défense), l'hébergement Scaleway France n'est plus un argument de différenciation : c'est devenu un prérequis crédible.

Notre stack par défaut sur ces projets :

Cluster Kubernetes managé Scaleway en France, avec GPU H100/A100 à la demande pour le fine-tuning et l'inférence batch.
PostgreSQL répliqué avec stream WAL "offshore" vers OVH (second hébergeur français) pour la continuité en cas d'incident fournisseur.
Chiffrement at-rest sur tous les volumes, chiffrement en transit TLS 1.3 partout.
Modèles open-source (Florence-2, SAM 2.1, Mistral Large) auto-hébergés sur Scaleway pour les workloads sensibles. Anthropic Claude utilisé uniquement quand le besoin justifie un modèle frontière, avec data processing agreement signé.
Logs auditables stockés 12 mois minimum, exportables pour audit AI Act.

Ce niveau d'exigence, qu'on appliquerait pour un client CAC40, est inclus dans toutes nos prestations. Pas en option, pas en surfacturation. Notre CTO Jordan, AWS Certified Solutions Architect et Scaleway Expert, a fait le choix délibéré de Scaleway en connaissance de cause : on connaît AWS de l'intérieur, et on assume la souveraineté comme un standard technique, pas comme un argument marketing.

Comment on a livré Jef.chat au Barreau de Bruxelles

Pour valider qu'on sait construire de l'IA documentaire à fort enjeu, le projet de référence est Jef.chat : un assistant IA juridique déployé pour le Barreau de Bruxelles, utilisé par plus de 6 000 avocats, architecture RAG sur Anthropic Claude et embeddings Cohere, multi-tenant à isolation stricte, hébergé en Europe. Les défis de Jef (précision absolue, secret professionnel, conformité réglementaire) sont les mêmes que ceux d'un BET qui veut analyser ses plans confidentiels par IA.

Plus récemment, on a livré Raoul, une plateforme IA pour professions réglementées (avocats, notaires, experts-comptables, vétérinaires, experts immobiliers). Architecture RAG multi-LLM (Anthropic, Cohere, Mistral), connecteurs OneDrive/SharePoint, authentification à deux facteurs, validation par pentest externe. Le même socle technique se réutilise pour un projet d'analyse de plans : auth, multi-tenancy, observabilité, sécurité.

Sur-mesure plutôt que SaaS générique : quand ça se justifie

Plusieurs produits SaaS français de qualité existent sur ce marché. Si votre besoin est standard (extraction de métrés DPGF basique, identification pièces/portes/fenêtres sur des plans français standardisés), un abonnement à un outil existant peut être la meilleure réponse.

On vous oriente vers du sur-mesure quand au moins l'un des points suivants s'applique :

Vous avez des symboles métier non-standards (plans industriels, plans hospitaliers, plans monuments historiques).
Vous voulez intégrer profondément la pipeline dans vos outils existants (ERP, logiciel de chiffrage, CRM promoteur, BIM).
Vous traitez des données sensibles que vous refusez d'envoyer dans un SaaS mutualisé (clients défense, opérations confidentielles, IP architecturale).
Vous avez un volume suffisant (plus de 200 plans par mois) pour amortir l'investissement initial sur 18 à 24 mois.
Vous voulez construire votre IP : un modèle entraîné sur votre corpus métier devient un actif de votre entreprise, pas une dépendance vendor.

Dans tous les autres cas, on vous le dit en cadrage : prenez un SaaS, ça vous coûtera moins cher.

Questions fréquentes

Quel modèle d'IA est le plus utilisé pour analyser un plan architectural en 2026 ?

La pile de référence en 2026 combine Segment Anything 2.1 pour la segmentation pixel-précise des pièces, Florence-2 pour la détection ouverte d'éléments (portes, fenêtres, symboles), et un LLM multimodal (Claude Sonnet 4.5, Gemini 3.1 Pro ou Mistral Large) pour orchestrer la pipeline et arbitrer les cas ambigus. Cette combinaison remplace les pipelines YOLO custom + U-Net dominants en 2023 à 2024.

Peut-on calculer automatiquement les surfaces d'un plan PDF ?

Oui, à condition d'extraire correctement l'échelle. Sur un plan vectoriel, l'extraction est exacte (la géométrie est dans le fichier). Sur un scan ou un PDF image, il faut détecter l'échelle dans le cartouche, ce qui peut être source d'erreur si elle est mal OCRisée. Une pipeline industrielle vise une précision de ±2 % sur les surfaces détectées correctement, et signale les plans dont l'échelle ne peut pas être extraite avec confiance.

Combien coûte un projet d'analyse automatique de plans par IA ?

Pour un MVP industrialisable, le budget se situe entre 15 et 30 k€ pour une pipeline Grounded SAM 2 zero-shot avec interface de validation. Pour une plateforme complète avec fine-tuning sur corpus métier, intégrations ERP/BIM et workflow humain dans la boucle, le budget peut atteindre 60 à 120 k€ selon la complexité. Ces fourchettes sont indicatives et dépendent fortement du volume de plans, du nombre de symboles à reconnaître et des intégrations système.

Quel est le niveau de précision atteignable ?

Sur des plans correctement standardisés et après fine-tuning, on observe en production :

Détection de pièces : IoU 85 % à 92 % (selon complexité du plan).
Classification des pièces par libellé : 88 % à 94 % quand le libellé textuel est lisible.
Calcul de surface : ±2 % à ±5 % sur les pièces correctement segmentées.
Détection portes/fenêtres : rappel 90 % à 95 % avec Grounded SAM 2.

Ces chiffres baissent significativement sur des plans manuscrits, des scans dégradés ou des conventions de symboles atypiques.

Mon BET peut-il auto-héberger une solution d'analyse de plans par IA ?

Oui, mais c'est rarement le bon arbitrage. SAM 2.1 et Florence-2 sont open-source et tournent sur un GPU A100 ou H100. En revanche, l'orchestration LLM (Claude, GPT-4.1, Mistral Large) reste en API sauf si vous self-hostez Llama 4 ou Mistral en infra. Pour la plupart des BET, le bon arbitrage est : auto-hébergement des modèles de vision sur Scaleway France + API Mistral Large via Scaleway + données et logs chez vous. Ça donne 90 % du contrôle pour 30 % du coût d'un setup full self-hosted.

Comment l'AI Act européen affecte un projet d'analyse de plans ?

Depuis le 2 août 2026, l'AI Act s'applique pleinement. Pour un système qui produit des décisions techniques (calcul de surface utilisée pour la commercialisation, vérification de conformité PMR/SSI), les obligations principales sont la traçabilité des logs (article 12), la documentation technique du système, et la transparence sur l'usage de l'IA auprès des utilisateurs finaux. Concrètement : journaliser chaque décision de l'IA, conserver les logs 6 à 12 mois minimum, et documenter le modèle, ses limites et ses biais connus.

Faut-il préférer une solution SaaS ou un développement sur-mesure ?

Le SaaS est le bon choix si vos besoins sont standards, votre volume modeste et vos données non-sensibles. Le sur-mesure devient justifié si vous avez des symboles métier non-standards, des intégrations profondes à faire avec votre ERP/BIM, des contraintes de confidentialité fortes, ou un volume qui amortit un investissement de 30 à 100 k€ sur 18 à 24 mois.

Quelle différence entre Segment Anything et YOLO sur un plan architectural ?

YOLO est un détecteur d'objets qui produit des boîtes englobantes pour des classes apprises pendant l'entraînement. Segment Anything 2.1 est un modèle de segmentation pixel-précise en zero-shot : il accepte un prompt (point, boîte ou texte via Grounded SAM 2) et produit un masque exact. Pour un plan architectural, YOLO est pertinent quand on a un nombre fixe de symboles bien définis et un dataset annoté. SAM est pertinent dès qu'on veut la délimitation exacte d'une pièce ou qu'on traite un corpus hétérogène où les nouveaux symboles arrivent en continu.

En conclusion

L'analyse automatique de plans architecturaux par IA est passée en 2026 d'un sujet de R&D à un sujet d'industrialisation. La stack technique est stabilisée (SAM 2.1 + Florence-2 + LLM multimodal). Les vrais sujets sont désormais : la qualité du corpus de fine-tuning, la robustesse de l'orchestration, la traçabilité conforme AI Act, et le choix entre SaaS générique et plateforme sur-mesure.

L'agence Platane (https://platane.io) construit ce type de pipeline pour des BET, des promoteurs immobiliers et des entreprises générales du BTP, avec un hébergement souverain Scaleway France et une stack technique alignée sur les exigences AI Act 2026. Pour échanger sur un cadrage, prendre rendez-vous en ligne ou nous écrire à bonjour@platane.io.

Contactez‑nous

Le BlogDes infos, des actus, du fun !

Extraction IA PDF→Excel hors ligne, fiable et vérif données incertaine.jpeg

13/10/2025

Extraction automatique de données PDF vers Excel : les défis de l'IA hors ligne et de la fiabilité

Comment concevoir une solution d'intelligence artificielle capable d'extraire des données de PDF complexes vers Excel, en mode hors ligne, tout en garantissant fiabilité et traçabilité des informations incertaines.

lire l'article

Recherche un développeur pour crée une application pour les expert.jpeg

21/09/2025

Applications IA pour professionnels du bâtiment : créer des solutions métier intelligentes et conformes

Découvrez comment concevoir des applications d'intelligence artificielle sur mesure pour les experts du bâtiment, alliant performance technique, sécurité des données et accessibilité.

lire l'article

02/09/2025

Automatiser le traitement des factures fournisseurs : enjeux et bonnes pratiques

Comment l'automatisation intelligente du traitement des factures transforme la gestion comptable des entreprises, de l'OCR à l'intégration ERP.

lire l'article

Voir tous les articles

Nous contacterOui allo ?

Nous envoyer un message

Prendre rendez-vous

Vous préférez discuter de vive voix ? Nous aussi et c'est évidemment sans engagement !

Je prends rendez-vous !

Nous appeler

Une question, un besoin de renseignements ? N'hésitez pas à nous contacter.

bonjour@platane.io +33 7 70 48 29 48

Activateur France Num

Platane a rejoint l'initiative France Num pour accompagner les TPE PME dans leur transformation numérique : diagnostics, formations et aides financières.

Pourquoi faire appel à un expert du numérique référencé par France Num ? →