IP 위치 정보에 독립적인 벤치마크가 필요한 이유
IP 위치 정보는 콘텐츠 현지화, 사기 탐지, 광고 타겟팅, 규정 준수 등 현대 인터넷의 상당 부분을 뒷받침합니다. 이 시장은 수천 개의 기업과 매일 수십억 건의 API 호출로 구성됩니다. 하지만 이 데이터를 이용하는 소비자에게는 제공업체를 비교할 수 있는 신뢰할 만한 독립적 방법이 없습니다.
IP 위치 정보는 콘텐츠 현지화, 사기 탐지, 광고 타겟팅, 규정 준수 등 현대 인터넷의 상당 부분을 뒷받침합니다. 이 시장은 수천 개의 기업과 매일 수십억 건의 API 호출로 구성됩니다. 하지만 이 데이터를 이용하는 소비자에게는 제공업체를 비교할 수 있는 신뢰할 만한 독립적 방법이 없습니다.
IP 위치 정보에 의존하는 사람들에게는 확신 있는 결정을 내리기 위한 정보가 부족합니다:
처음 보이는 무료 API나 데이터베이스를 골라 연동하고는 검증조차 하지 않습니다. "이 정도면 충분해" 또는 "모든 제공업체가 똑같아"라는 가정은 전혀 검증되지 않습니다.
완전히 잘못된 위치 정보를 경험한 팀은 해당 분야 전체를 불신하게 됩니다. 우회 방법을 만들거나 위치 기반 기능 자체를 포기합니다. 실제 위험을 정량화할 데이터가 없습니다.
규정 준수를 중시하는 조직들은 상업용 위치 정보 서비스에 연간 1만~10만 달러 이상을 지출합니다. 업체 선정은 영업 미팅과 자체 작성 백서에 기반합니다.
세 유형 모두 같은 문제를 공유합니다: 중립적인 기준이 없습니다. 정확도 주장은 제공업체 스스로가 자체 데이터셋으로, 자체 통제 환경에서, 거의 공개하지 않는 방법론으로 검증한 것입니다.
위치 정보 데이터베이스의 한계는 새로운 것이 아닙니다. 학계에서는 10년 넘게 이를 기록해 왔습니다:
유럽 대규모 네트워크의 ISP 데이터를 활용한 최초의 실측 연구. 결론: 위치 정보 데이터베이스는 국가 수준의 정확도는 확보할 수 있지만, 도시 수준은 불가능합니다. 오히려 세분화된 항목일수록 정확도가 떨어집니다.
약 10만 개의 IP를 PoP(Point of Presence) 단위로 그룹화하여 데이터베이스를 평가했습니다. 도시 수준에서 데이터베이스 간 일관성이 낮았습니다. MaxMind는 IP 블록 재할당으로 인해 매월 약 1.5%의 정확도 손실이 발생한다고 보고했습니다.
CAIDA의 Ark 데이터셋에서 164만 개의 라우터 IP를 분석한 결과, 국가 수준에서는 데이터베이스 간 95.8%의 일관성을 보였지만 도시 수준에서는 71%에 불과했습니다. 정확도는 지역별로 크게 달랐으며, 특히 ARIN(북미)은 도시 수준에서 매우 낮은 성능을 보였습니다.
지연 시간 기반 평가 방법을 제안했습니다. 데이터베이스 신뢰성이 지역별로 균일하지 않으며, 주요 상용 제공업체 간에도 상당한 불일치가 존재함을 확인했습니다.
네트워크 사업자가 IP 위치 정보를 자체 공개하는 메커니즘인 RFC 8805 지오피드를 연구했습니다. 자체 보고 데이터조차 상당한 부정확성을 포함하고 있었습니다.
각 연구는 중요한 기여를 했지만 구조적 한계를 공유합니다: 특정 시점의 고정된 IP 집합을 테스트하고, 비공개(ISP 데이터) 또는 합성(WHOIS, DNS 호스트명, 랜드마크) 기준 데이터에 의존하며, 최종 사용자 트래픽보다는 인프라 IP에 주로 초점을 맞춥니다.
시카고 대학교의 최근 논문에서는 소비자 속도 테스트의 기기 위치 데이터를 기준 위치로 활용하는 방법을 탐구했습니다. 실제 사용자 위치 대비 IP 위치 정보를 대규모로 검증한 최초의 연구입니다. 정확도는 지역, 통신사, 접속 방식에 따라 크게 달라지며, 이러한 차이는 사용자 위치 기반 기준 데이터로만 확인할 수 있다는 것을 발견했습니다.
아레나는 사용자 위치를 기준점으로 삼는 접근 방식을 기반으로 하며, 지속적인 크라우드소싱 수집에 맞게 설계되었습니다:
도시명 일치 비교는 단순하지 않습니다. 제공업체가 반환한 원시 이름을 직접 비교하는 대신, 기준 위치에 사용한 것과 동일한 지오코딩 서비스로 모든 제공업체의 좌표를 역 지오코딩합니다. 이를 통해 양측이 동일한 명명 규칙, 행정 경계, 언어 등을 사용하도록 보장합니다.
거리 오차는 하버사인 공식을 사용합니다. 제공업체별 가중 중앙값 거리 오차를 보고하며, 각 제출은 1/accuracy²(역분산 가중치)로 가중됩니다. GPS 정확도가 5km를 초과하는 제출은 IP 기반 브라우저 폴백으로 인한 결과 오염을 방지하기 위해 제외됩니다. 동일 IP에서 동일 위치로의 반복 테스트는 7일 롤링 기간 내에서 중복 제거됩니다.
| 비교 항목 | 기존 연구 | IP Accuracy |
|---|---|---|
| 기준 위치 | ISP 데이터, WHOIS, DNS 호스트명, 랜드마크 | 사용자 기기 위치(GPS, Wi-Fi 측위) |
| IP 유형 | 주로 라우터/인프라 IP | 최종 사용자 IP |
| 최신성 | 한 번 발표된 정적 스냅샷 | 지속적으로 업데이트되는 실시간 순위 |
| 범위 | 일반적으로 1~2개 지역 또는 단일 ISP | 참여가 늘수록 확장 |
| 네트워크 | 보통 단일 네트워크 유형 | 가정용, 모바일, 기업용, 핫스팟 |
| 재현성 | 비공개 데이터가 필요한 경우가 많음 | 개방형 방법론, 공개 결과 |
| 제공업체 | 2~4개 데이터베이스 | 15개 제공업체, 확장 가능 |
기기 위치 데이터는 민감한 정보입니다. 사용자의 좌표는 실시간 비교 용도로만 사용되며 절대 저장되지 않습니다.
타임스탬프, IP 주소, 기준 위치의 도시/지역/국가 및 정확도(좌표 제외), 제공업체 반환 도시/지역/국가 및 좌표, 도시 일치 결과, 국가 일치, 거리 오차.
기기 좌표, 기기 지문, 사용자 신원은 저장되지 않습니다.
위치 정확도는 기기에 따라 다릅니다. 모바일 GPS는 5~15m의 정확도를 제공합니다. 데스크톱 Wi-Fi 측위는 50~200m 수준입니다. 가중 집계를 통해 정확도가 높은 측정에 더 큰 비중을 부여하여 이를 보완합니다.
표본 편향. 크라우드소싱 데이터는 지리적으로 균일하지 않습니다. 참여가 적은 지역의 결과는 신중하게 해석해야 합니다.
VPN, 프록시 트래픽. VPN 사용자는 기기 위치와 IP 위치가 의도적으로 불일치합니다. 익명, 프록시 또는 호스팅 트래픽으로 식별된 제출은 순위표에서 자동 제외됩니다.
제공업체 API 등급. 일부 제공업체는 등급별로 정확도가 다릅니다. 접근 권한을 확보한 등급을 대상으로 테스트합니다.
가장 간단한 참여 방법은 테스트를 실행하는 것입니다. 데이터가 부족한 지역, 모바일 네트워크, 비서구권 지역의 테스트가 특히 중요합니다 — 제공업체 간 차이가 가장 크고 기존 데이터가 부족한 곳이기 때문입니다.
방법론은 공개되어 있습니다. 테스트 대상 포함을 원하는 제공업체나 데이터셋에 관심 있는 연구자는 arena@ipaccuracy.com으로 연락해 주세요.