À propos de ce projet

Pourquoi la géolocalisation IP a besoin d'un référentiel indépendant

La géolocalisation IP est essentielle à une part considérable de l'internet moderne : localisation de contenu, détection des fraudes, ciblage publicitaire, conformité réglementaire. Ce marché englobe des milliers d'entreprises et des milliards d'appels API quotidiens. Pourtant, les utilisateurs de ces données ne disposent d'aucun moyen fiable et indépendant de comparer les fournisseurs.

Profils différents, problème partagé

Ceux qui dépendent des données de géolocalisation IP ne disposent pas des informations nécessaires pour prendre une décision éclairée :

L'utilisateur par défaut

Il prend un abonnement gratuit et espère que tout ira bien

On choisit la première API ou base de données gratuite venue, on l'intègre et on ne la valide jamais. L'hypothèse « ça suffira » ou « tous les fournisseurs se valent » n'est jamais vérifiée.

Le sceptique

Se méfie de tous les fournisseurs de la même manière

Après avoir constaté des erreurs de géolocalisation, certaines équipes se méfient de toute la catégorie. Elles mettent en place des solutions de contournement ou évitent les fonctionnalités dépendantes de la localisation. Aucune donnée ne permet de quantifier le risque réel.

L'acheteur entreprise

Verse des milliers de dollars sans possibilité de vérification

Les organisations soucieuses de conformité dépensent entre 10 000 et plus de 100 000 dollars par an en géolocalisation commerciale. Le choix du fournisseur repose sur l'engagement commercial et les livres blancs publiés par les entreprises elles-mêmes.

Ces trois profils partagent le même problème : l'absence de source de vérité neutre. Les affirmations concernant la précision proviennent des fournisseurs eux-mêmes, testées sur leurs propres ensembles de données, dans des conditions qu'ils contrôlent et selon une méthodologie qu'ils divulguent rarement.

Ce que disent les recherches

Les limites des bases de données de géolocalisation ne sont pas nouvelles. La littérature scientifique les documente depuis plus d'une décennie :

Première étude de terrain utilisant les données d'un fournisseur d'accès Internet d'un vaste réseau européen. Conclusion : les bases de données de géolocalisation peuvent prétendre à une précision à l'échelle nationale, mais certainement pas à l'échelle de la ville. Un niveau de détail plus fin diminue en réalité la précision.

Des bases de données évaluées à l'aide d'environ 100 000 adresses IP regroupées en points de présence ont été analysées. La cohérence entre les bases de données est faible au niveau des villes. MaxMind a signalé une perte de précision d'environ 1,5 % par mois en raison de la réattribution des blocs d'adresses IP.

Étude portant sur 1,64 million d'adresses IP de routeurs issues du jeu de données Ark de CAIDA. Cohérence de 95,8 % au niveau national entre les bases de données, mais seulement 71 % au niveau des villes. La précision varie considérablement selon les régions, ARIN (Amérique du Nord) affichant des résultats particulièrement faibles au niveau des villes.

Proposition d'une méthode d'évaluation basée sur le délai. Confirmation que la fiabilité des bases de données n'est pas uniforme selon les régions, et que des incohérences importantes persistent entre les principaux fournisseurs commerciaux.

Étude des geofeeds RFC 8805, un mécanisme permettant aux opérateurs de réseau de publier eux-mêmes leur géolocalisation IP. Même ces données autodéclarées contiennent des inexactitudes importantes.

Chaque étude a apporté des contributions importantes. Mais elles partagent des limitations structurelles : elles testent un ensemble fixe d'adresses IP à un seul moment donné, elles s'appuient sur des données de référence soit privées (données des FAI), soit synthétiques (WHOIS, noms d'hôtes DNS, points de repère connus), et elles se concentrent principalement sur les adresses IP d'infrastructure plutôt que sur le trafic des utilisateurs finaux.

Un article récent de l'Université de Chicago a exploré l'utilisation des données de localisation issues de tests de débit grand public comme vérité terrain — la première étude à valider la géolocalisation IP par rapport aux localisations réelles déclarées par les utilisateurs à grande échelle. Les chercheurs ont constaté que la précision varie considérablement selon la zone géographique, l'opérateur et le mode d'accès — des nuances uniquement visibles grâce à une référence de localisation utilisateur.

Comment fonctionne IP Accuracy Arena

L'Arena s'appuie sur l'approche de la localisation utilisateur comme vérité terrain, adaptée à la collecte continue de données participatives :

  1. Un contributeur se connecte à l'Arena et autorise l'accès à sa position via l'API de géolocalisation de son navigateur. Sur les appareils mobiles, cette autorisation utilise généralement le GPS (précision de 5 à 15 m). Sur les ordinateurs, le positionnement Wi-Fi ou d'autres signaux fournissent une position approximative — moins précise, mais suffisante pour les comparaisons à l'échelle d'une ville.
  2. Les coordonnées de l'appareil sont géocodées inversement pour obtenir une ville, une région et un pays de référence. Il s'agit de la vérité terrain.
  3. L'adresse IP publique du contributeur est envoyée simultanément à tous les fournisseurs testés. Nous enregistrons les coordonnées, la ville, la région et le pays renvoyés par chaque fournisseur.
  4. Les coordonnées de chaque fournisseur sont géocodées inversement à l'aide du même service que celui utilisé pour la vérité terrain, garantissant ainsi une nomenclature cohérente. Les résultats du géocodage inverse sont normalisés et comparés pour la correspondance au niveau de la ville, de la région et du pays. L'erreur de distance de Haversine est calculée entre les coordonnées du fournisseur et celles de l'appareil.
  5. Les résultats sont agrégés dans le classement en direct à l'aide de la pondération par inverse de la variance (1/précision²), de sorte que les mesures GPS de haute précision contribuent davantage aux classements. Les tests répétés depuis la même adresse IP et la même localisation sont dédupliqués au sein de fenêtres de 7 jours, en ne conservant que le résultat le plus récent.

Logique de comparaison

L'appariement des noms de villes est complexe. Plutôt que de comparer directement les noms bruts renvoyés par les fournisseurs, nous effectuons un géocodage inverse des coordonnées de chaque fournisseur à l'aide du même service de géocodage que celui utilisé pour la vérité terrain. Cela garantit que les deux parties utilisent les mêmes conventions de dénomination, limites administratives, langue, etc.

L'erreur de distance utilise la formule de Haversine. Nous rapportons l'erreur de distance médiane pondérée par fournisseur, chaque soumission étant pondérée par 1/précision² (pondération par inverse de la variance). Les soumissions dont la précision GPS dépasse 5 km sont exclues afin d'éviter que le recours du navigateur à la localisation par IP ne fausse les résultats. Les tests répétés depuis la même adresse IP et la même localisation sont dédupliqués au sein de fenêtres glissantes de 7 jours.

En quoi est-ce différent ?

DimensionÉtudes traditionnellesIP Accuracy
Vérité terrainDonnées FAI, WHOIS, noms d'hôtes DNS, points de repèreLocalisation de l'appareil de l'utilisateur (GPS, positionnement Wi-Fi)
Types d'IPSouvent des adresses IP de routeurs/infrastructureAdresses IP des utilisateurs finaux
FraîcheurInstantané statique, publié une seule foisClassements en direct, mis à jour en continu
PortéeGénéralement 1 à 2 régions ou un seul FAIS'accroît grâce aux contributions
RéseauxGénéralement un seul type de réseauRésidentiel, mobile, entreprise, point d'accès
ReproductibilitéNécessite souvent des données privéesMéthodologie ouverte, résultats publics
Fournisseurs2 à 4 bases de données15 fournisseurs, extensible

Confidentialité

Les données de localisation de l'appareil sont sensibles. Les coordonnées de l'utilisateur sont utilisées exclusivement à des fins de comparaison en temps réel et ne sont jamais enregistrées.

Stocké par test

Horodatage, adresse IP, ville/région/pays de référence et précision (sans coordonnées), ville/région/pays et coordonnées renvoyées par le fournisseur, résultat de la correspondance de la ville, correspondance du pays, erreur de distance.

Jamais stocké

Les coordonnées de l'appareil, son empreinte numérique et l'identité de l'utilisateur ne sont pas enregistrés.

Limitations connues

La précision de la localisation varie selon l'appareil. Le GPS mobile offre une précision de 5 à 15 m. Le positionnement Wi-Fi sur ordinateur peut atteindre 50 à 200 m. Notre agrégation pondérée atténue ce biais en accordant plus de poids aux mesures de haute précision.

Biais d'échantillonnage. Les contributions participatives ne sont pas géographiquement uniformes. Les données concernant les régions sous-représentées doivent être interprétées avec prudence.

VPN, trafic proxy. Les utilisateurs connectés à un VPN verront apparaître une incohérence intentionnelle entre la localisation de leur appareil et leur adresse IP. Les soumissions identifiées comme trafic anonyme, proxy ou d'hébergement sont automatiquement exclues du classement.

Niveaux d'API des fournisseurs. Certains fournisseurs proposent une précision variable selon les niveaux de service. Nous testons ceux auxquels nous avons accès.

Contribuer

La manière la plus simple de contribuer est de lancer un test. Les tests provenant de régions sous-représentées, de réseaux mobiles et de zones géographiques non occidentales sont particulièrement précieux — c'est là que les fournisseurs divergent le plus et que les données sont rares.

La méthodologie est ouverte. Si vous êtes un fournisseur souhaitant être inclus ou un chercheur intéressé par le jeu de données, contactez-nous à arena@ipaccuracy.com.