Über dieses Projekt

Warum die IP-Geolokalisierung einen unabhängigen Benchmark benötigt

Die IP-Geolokalisierung bildet die Grundlage für einen bemerkenswerten Teil des modernen Internets – von der Lokalisierung von Inhalten über Betrugserkennung und zielgerichtete Werbung bis hin zur Einhaltung gesetzlicher Bestimmungen. Der Markt umfasst Tausende von Unternehmen und Milliarden täglicher API-Aufrufe. Dennoch haben die Nutzer dieser Daten keine zuverlässige, unabhängige Möglichkeit, Anbieter zu vergleichen.

Verschiedene Rollen, dasselbe Problem

Wer auf IP-Geolokalisierungsdaten angewiesen ist, verfügt nicht über die notwendigen Informationen, um eine fundierte Entscheidung zu treffen:

Der Standardnutzer

Nutzt ein kostenloses Angebot und hofft auf das Beste

Wählt die erste verfügbare API oder Datenbank aus, bindet sie ein und validiert sie nie. Die Annahme „gut genug“ oder „alle Anbieter sind gleich“ wird völlig ungeprüft gelassen.

Der Skeptiker

Misstraut jedem Anbieter gleichermaßen

Nachdem einige Teams auf fehlerhafte Geolokalisierungen gestoßen sind, misstrauen sie der gesamten Kategorie. Sie entwickeln Workarounds oder vermeiden standortabhängige Funktionen. Es fehlen Daten, um das tatsächliche Risiko zu quantifizieren.

Der Unternehmenskunde

Zahlt Tausende ohne Möglichkeit zur Überprüfung

Compliance-orientierte Unternehmen investieren jährlich 10.000 bis über 100.000 US-Dollar in kommerzielle Geolokalisierung. Die Anbieterauswahl basiert auf Vertriebskontakten und selbstberichteten Whitepapers.

Alle drei haben dasselbe Problem: Es fehlt eine neutrale, verlässliche Datenquelle. Die Angaben zur Genauigkeit stammen von den Anbietern selbst und basieren auf Tests mit ihren eigenen Datensätzen, unter von ihnen kontrollierten Bedingungen und mit Methoden, die sie selten offenlegen.

Was die Forschung sagt

Die Grenzen von Geodatenbanken sind nicht neu. Die wissenschaftliche Literatur dokumentiert sie seit über einem Jahrzehnt:

Erste Referenzstudie mit ISP-Daten aus einem großen europäischen Netzwerk. Fazit: Geodatenbanken können zwar eine Genauigkeit auf Länderebene beanspruchen, jedoch keinesfalls auf Stadtebene. Feinere Einträge verschlechtern die Genauigkeit sogar.

Es wurden Datenbanken mit ca. 100.000 IP-Adressen, gruppiert in Points of Presence, ausgewertet. Die datenbankübergreifende Konsistenz ist auf Stadtebene gering. MaxMind berichtete von einem Genauigkeitsverlust von etwa 1,5 % pro Monat aufgrund von IP-Block-Neuzuordnungen.

Untersucht wurden 1,64 Millionen Router-IP-Adressen aus dem Ark-Datensatz von CAIDA. Dabei zeigte sich eine 95,8-prozentige Übereinstimmung auf Länderebene zwischen den Datenbanken – jedoch nur 71 % auf Stadtebene. Die Genauigkeit variiert deutlich je nach Region, wobei ARIN (Nordamerika) auf Stadtebene besonders schlecht abschneidet.

Es wurde eine verzögerungsbasierte Bewertungsmethode vorgeschlagen. Sie bestätigte, dass die Zuverlässigkeit von Datenbanken regional nicht einheitlich ist und weiterhin erhebliche Unterschiede zwischen führenden kommerziellen Anbietern bestehen.

Untersucht wurden RFC-8805-Geofeeds – ein Mechanismus, mit dem Netzwerkbetreiber ihre IP-Geolokalisierung selbst veröffentlichen können. Selbst diese selbst gemeldeten Daten weisen erhebliche Ungenauigkeiten auf.

Jede Studie leistete einen wichtigen Beitrag. Sie teilen jedoch strukturelle Einschränkungen: Sie testen eine feste Anzahl von IPs zu einem einzigen Zeitpunkt, stützen sich auf Referenzdaten, die entweder privat (ISP-Daten) oder synthetisch (WHOIS, DNS-Hostnamen, bekannte Orientierungspunkte) sind, und konzentrieren sich hauptsächlich auf Infrastruktur-IPs statt auf den Endnutzerverkehr.

Eine aktuelle Studie der Universität Chicago untersuchte die Verwendung von Gerätestandortdaten aus Geschwindigkeitstests als Referenzwert – die erste Studie, die die IP-Geolokalisierung anhand tatsächlicher, von Nutzern gemeldeter Standorte in großem Maßstab validierte. Die Forscher stellten fest, dass die Genauigkeit je nach Region, Mobilfunkanbieter und Zugriffsmodus erheblich variiert – Nuancen, die nur mit nutzerstandortbasierten Referenzdaten sichtbar werden.

Wie IP Accuracy Arena funktioniert

Die Arena baut auf dem Ansatz auf, den Nutzerstandort als Referenz zu verwenden, angepasst an die kontinuierliche, crowdbasierte Datenerhebung:

  1. Ein Teilnehmer besucht die Arena und erteilt die Standortberechtigung über die Geolocation-API des Browsers. Auf Mobilgeräten wird hierfür üblicherweise GPS (Genauigkeit: 5–15 m) verwendet. Auf Desktop-Computern liefern Wi-Fi-Positionierung oder andere Signale einen ungefähren Standort – weniger präzise, aber für Vergleiche auf Stadtebene aussagekräftig.
  2. Die Gerätekoordinaten werden per Reverse Geokodierung einer Referenzstadt, -region und einem Referenzland zugeordnet. Dies ist der Referenzstandort.
  3. Die öffentliche IP-Adresse des Teilnehmers wird gleichzeitig an alle getesteten Anbieter gesendet. Wir erfassen die von jedem Anbieter zurückgegebenen Koordinaten, Stadt, Region und Land.
  4. Die Koordinaten jedes Anbieters werden mithilfe desselben Dienstes, der auch für den Referenzstandort verwendet wird, rückgeokodiert, um eine einheitliche Benennung zu gewährleisten. Die rückgeokodierten Ergebnisse werden normalisiert und auf Übereinstimmung bei Stadt, Region und Land verglichen. Der Haversine-Entfernungsfehler zwischen Anbieter- und Gerätekoordinaten wird berechnet.
  5. Die Ergebnisse fließen in die Live-Rangliste ein und werden mittels inverser Varianzgewichtung (1/Genauigkeit²) aggregiert, sodass GPS-Messungen mit höherer Genauigkeit stärker in die Rangliste einfließen. Wiederholte Tests derselben IP-Adresse vom selben Standort werden innerhalb von 7-Tage-Fenstern dedupliziert, wobei nur das jeweils neueste Ergebnis zählt.

Vergleichslogik

Der Abgleich von Stadtnamen ist nicht trivial. Anstatt die von den Anbietern zurückgegebenen Rohwerte direkt zu vergleichen, geokodieren wir die Koordinaten jedes Anbieters mit demselben Geokodierungsdienst, der auch für den Referenzstandort verwendet wird. Dadurch wird sichergestellt, dass beide Seiten dieselben Namenskonventionen, Verwaltungsgrenzen, Sprachen usw. verwenden.

Der Entfernungsfehler wird mit der Haversine-Formel berechnet. Wir berichten den gewichteten Median des Entfernungsfehlers pro Anbieter, wobei jede Einreichung mit 1/Genauigkeit² gewichtet wird (inverse Varianzgewichtung). Einreichungen mit einer GPS-Genauigkeit von über 5 km werden ausgeschlossen, um zu verhindern, dass IP-basierter Browser-Fallback die Ergebnisse verfälscht. Wiederholte Tests derselben IP-Adresse vom selben Standort werden innerhalb rollierender 7-Tage-Fenster dedupliziert.

Worin sich dieser Ansatz unterscheidet

VergleichskriteriumTraditionelle StudienIP Accuracy
ReferenzdatenISP-Daten, WHOIS, DNS-Hostnamen, OrientierungspunkteGerätestandort des Nutzers (GPS, Wi-Fi-Positionierung)
IP-TypenHäufig Router-/Infrastruktur-IPsEndnutzer-IPs
AktualitätStatische Momentaufnahme, einmalig veröffentlichtKontinuierlich aktualisierte Live-Rangliste
UmfangTypischerweise 1–2 Regionen oder ein einzelner ISPWächst mit den Beiträgen
NetzwerkeMeist ein einzelner NetzwerktypPrivatkunden, Mobilfunk, Unternehmen, Hotspots
ReproduzierbarkeitErfordert häufig private DatenOffene Methodik, öffentliche Ergebnisse
Anbieter2–4 Datenbanken15 Anbieter, erweiterbar

Datenschutz

Standortdaten des Geräts sind sensible Daten. Die Koordinaten des Nutzers werden ausschließlich für Echtzeitvergleiche verwendet und niemals gespeichert.

Pro Test gespeichert

Zeitstempel, IP-Adresse, Referenz-Stadt/-Region/-Land und Genauigkeit (ohne Koordinaten), vom Anbieter zurückgegebene Stadt/Region/Land und Koordinaten, Ergebnis der Stadtübereinstimmung, Länderübereinstimmung, Entfernungsfehler.

Nie gespeichert

Gerätekoordinaten, Geräte-Fingerabdruck und Nutzeridentität werden nicht gespeichert.

Bekannte Einschränkungen

Die Standortgenauigkeit variiert je nach Gerät. Mobiles GPS liefert eine Genauigkeit von 5–15 m. Die Wi-Fi-Positionierung auf Desktop-Geräten kann 50–200 m erreichen. Unsere gewichtete Aggregation gleicht dies aus, indem Messungen mit höherer Genauigkeit stärker gewichtet werden.

Stichprobenverzerrung. Die von der Community beigesteuerten Beiträge sind geografisch nicht gleichmäßig verteilt. Unterrepräsentierte Regionen sollten mit Vorsicht interpretiert werden.

VPN- und Proxy-Verkehr. Bei Nutzern mit VPN wird absichtlich eine Diskrepanz zwischen Geräte- und IP-Standort angezeigt. Einreichungen, die als anonymer, Proxy- oder Hosting-Datenverkehr erkannt werden, werden automatisch aus der Rangliste ausgeschlossen.

API-Stufen der Anbieter. Einige Anbieter bieten je nach Tarif unterschiedliche Genauigkeitsgrade. Wir testen die Stufen, auf die wir Zugriff erhalten.

Mitwirken

Am einfachsten können Sie beitragen, indem Sie einen Test durchführen. Tests aus unterrepräsentierten Regionen, Mobilfunknetzen und nicht-westlichen Gebieten sind besonders wertvoll – hier unterscheiden sich die Anbieter am stärksten und es sind nur wenige Daten vorhanden.

Die Methodik ist offen. Wenn Sie ein Anbieter sind und einbezogen werden möchten oder als Forscher an dem Datensatz interessiert sind, kontaktieren Sie uns unter arena@ipaccuracy.com.