Comment on estime le prix d'un logement : méthode et modèle
· 6 min
Cet article détaille la méthode derrière nos estimations : les données, le modèle, et ce qu'on assume comme limites. On cherche à approcher l'effet propre de chaque caractéristique d'un logement sur son prix — en sachant que les données publiques ne voient pas tout. Réponse courte à la question qui le motive — le DPE ne fait pas le prix à lui seul (la localisation, la surface et l'époque pèsent bien plus), mais à caractéristiques comparables il porte un signal réel, surtout sur les maisons. Pour le quantifier, on a croisé les ventes (DVF) et les diagnostics (DPE) sur des centaines de milliers de transactions dans toute la France.
- On estime le prix au m² à partir des seules données publiques (DVF × DPE), avec une erreur médiane d'environ 11.7 % (maisons).
- L'emplacement explique le plus gros du prix ; le DPE, l'âge et le terrain ne font qu'affiner.
- On cherche à approcher l'effet propre de chaque caractéristique, toutes choses égales par ailleurs — pas les corrélations brutes, qui mélangent tout.
- On valide dans le temps : entraînement sur le passé, test sur l'année récente jamais vue.
- Le plancher d'erreur (~11.7 %) reflète ce que les données publiques ne voient pas (état intérieur, travaux, vue…) — il ne baissera pas en complexifiant le modèle.
Les données : apparier DVF et DPE
Deux jeux publics : DVF (toutes les ventes depuis 2014, prix et surface) et le DPE (performance énergétique). Aucun ne référence l'autre. On les rapproche via la parcelle cadastrale, en exigeant le même type de bien, une surface compatible et un diagnostic proche de la vente. Après nettoyage (on écarte les ventes hors-marché : démembrements, cessions familiales), un peu plus d'une vente « propre » sur deux trouve un DPE fiable.
Combien d'information faut-il pour estimer un prix ?
On entraîne un même modèle en lui donnant des couches d'information croissantes, et on mesure l'erreur sur les ventes 2024 — jamais vues à l'entraînement.
La surface seule laisse ~20 % d'erreur. C'est l'ajout de la localisation (commune, puis quartier via les ventes voisines) qui fait l'essentiel du travail. Le DPE et le reste amènent au plancher : 11.7 % (maisons), 11.5 % (appartements).
À retenir : l'emplacement explique le plus gros du prix ; le DPE affine, il ne pilote pas.
Qu'est-ce qui compte vraiment ?
On mesure l'importance d'une variable par permutation — autrement dit : de combien le modèle se trompe en plus quand on « brouille » cette variable.
L'emplacement domine. Ensuite, la hiérarchie diffère selon le bien : pour une maison, l'énergie et le terrain ; pour un appartement, l'âge et la surface. Les détails fins (étage, duplex, traversant…) ne pèsent quasiment rien.
À retenir : ce qui compte n'est pas le même pour une maison (énergie + terrain) et un appartement (âge + surface).
Cet article se concentre sur la méthode. Pour le détail chiffré de deux effets que les propriétaires nous demandent le plus, voir les analyses dédiées : la décote d'un DPE F ou G et la valeur d'un jardin.
La méthode, en trois choix
1. Cible = le prix au m²
On modélise log(€/m²) plutôt que le prix total. L'erreur relative est identique (le total = €/m² × une surface connue), mais cela retire l'effet dominant de la taille.
2. On corrige la conjoncture
Un indice de prix trimestriel « déflate » chaque vente : le modèle apprend la valeur intrinsèque du bien, indépendamment du marché du moment — qu'on réinjecte ensuite à la date voulue. On y lit le cycle récent : pic mi-2022, correction en 2023-2024.
3. Validation « dans le temps »
On entraîne sur 2014-2023 et on teste sur 2024 — la situation réelle d'une estimation (on prédit l'avenir, pas un tirage au hasard qui aurait flatté les chiffres). Le modèle est un gradient boosting (un ensemble d'arbres de décision), qui découpe finement le prix selon les caractéristiques.
L'âge du logement
Toutes choses égales par ailleurs, le neuf se paie un peu plus que l'ancien — effet marqué sur les appartements (un appartement de 2020 vaut ~+11 % vs un équivalent 1990), faible sur les maisons. On remonte ici jusqu'à 1850.
Pour les maisons, l'effet de l'ancienneté dépend du lieu : une vieille maison décote davantage en zone rurale qu'en ville dense, où le charme de l'ancien (centre-ville, pierre) amortit la décote.
À retenir : « ancien » ne veut pas dire « moins cher » partout : en centre-ville, le cachet de l'ancien se paie.
Panneaux solaires : corrélation n'est pas causalité
Les logements équipés de solaire se vendent plus cher en données brutes (jusqu'à +12 % en appartement). Mais une fois l'âge et l'emplacement neutralisés, l'effet propre tombe à ~0 : le solaire est surtout un marqueur de logements récents et premium.
À retenir : une corrélation forte (solaire = plus cher) peut cacher un effet causal quasi nul.
Limites, et comment aller plus loin
L'erreur résiduelle (~11.7 %, médiane sur les maisons) est uniforme par département, surface et ancienneté : ce n'est pas un défaut local du modèle, c'est ce que les données publiques ne peuvent pas voir. Deux biens identiques sur le papier se vendent à 10-15 % d'écart selon l'état intérieur, les travaux récents, l'étage exact, la vue, la luminosité, ou ce qui s'est joué à la négociation.
Là où l'estimation se trompe le plus
Les biens atypiques (manoir, loft, maison d'architecte) et les marchés peu liquides (zones rurales à faible volume de ventes) sont mal cernés par un modèle qui apprend sur des moyennes. Une vente contrainte (divorce, succession pressée, défaut de paiement) tirera le prix vers le bas sans que le DPE ni la parcelle l'expliquent.
Ce qu'une estimation chiffrée ne remplace pas
Une estimation donne un ordre de grandeur sérieux, pas le prix final. Un agent local apportera ce que les données publiques n'ont pas : prestations, état réel après visite, demande du moment dans le secteur précis. Notre estimation est un point de départ chiffré et transparent — à confronter, pas à prendre au mot.
Ce qui pourrait faire baisser le plancher
À ce stade, améliorer le modèle passe surtout par les données, pas par la complexité de l'algorithme : intégrer descriptifs et photos d'annonces, des caractéristiques fines du cadastre, ou des signaux de demande locale. C'est en partie ce qu'on essaie déjà avec notre analyse de lien d'annonce, qui exploite texte et photos quand ils sont disponibles.