关于本项目

为什么IP地理位置需要独立的基准测试

IP地理位置是现代互联网诸多功能的基础——内容本地化、欺诈检测、广告定向、合规监管。这个市场涵盖数千家公司，每天产生数十亿次API调用。然而，数据消费者却缺乏可靠、独立的途径来比较不同的提供商。

不同角色，共同的困境

依赖IP地理位置数据的各方都缺乏做出可靠决策所需的信息：

普通用户

找个免费方案，听天由命

随便找个免费的API或数据库就直接嵌入，根本不做验证。“差不多就行”或“所有提供商都一样”的假设完全未经检验。

怀疑论者

对所有提供商一视同仁地不信任

遇到严重偏差的地理位置结果后，一些团队对整个定位领域都失去了信任。他们开发变通方案或直接避免使用依赖位置的功能，却没有数据来量化实际风险。

企业买家

花费数千美元，却无从审计

注重合规的组织每年在商业地理定位方面投入1万至10万美元甚至更多。供应商选择主要依据销售洽谈和自行发布的白皮书。

三者面临同一个问题：缺乏中立的权威来源。准确性声明均来自提供商自身，使用自己的数据集，在自己控制的条件下测试，且很少公开方法论。

研究怎么说

地理位置数据库的局限性并非新问题，学术文献对此已有十余年的记载：

2011 · IP地理位置数据库：不可靠？

首次利用欧洲大型网络ISP数据进行实地验证研究。结论：地理位置数据库可以声称达到国家级精度，但绝对达不到城市级精度。更细粒度的条目实际上会降低精度。

2011 · 地理位置数据库研究

使用约10万个IP地址按接入点分组进行评估。跨数据库在城市层面的一致性较差。MaxMind报告称，由于IP地址块重新分配，每月准确率下降约1.5%。

2017 · 公共和商业数据库中路由器地理位置研究

研究了来自CAIDA Ark数据集的164万个路由器IP地址。发现数据库间国家级一致性为95.8%，但城市级一致性仅为71%。准确率因地区而异，其中ARIN（北美）在城市级表现尤为不佳。

2024 · 基于城市延迟特征的IP地理位置数据库评估方法

提出了一种基于延迟的评估方法。证实数据库可靠性在不同地区并不一致，主要商业提供商之间仍存在显著差异。

2024 · Geofeeds：IP地理定位的革命还是虚幻的承诺？

研究了RFC 8805 geofeeds——一种允许网络运营商自行发布其IP地理位置的机制。即使是这种自报数据也存在显著误差。

每项研究都做出了重要贡献，但它们存在共同的结构性局限：仅在单一时间点测试一组固定的IP地址，依赖私有数据（ISP数据）或合成数据（WHOIS、DNS主机名、已知地标）作为参考，且大多关注基础设施IP而非终端用户的消费者流量。

芝加哥大学近期发表的一篇论文探索了使用消费者测速测试中的设备位置数据作为真实位置来验证IP地理定位——这是首个大规模将IP地理定位与用户实际位置进行对比的研究。研究发现，准确率因地理位置、运营商和接入方式的不同而显著变化——这些差异只有在用户位置级别的参考数据下才能显现。

IP Accuracy Arena的工作原理

Arena平台基于“用户位置即真实位置”的方法，并针对持续的众包数据收集进行了优化：

用户访问Arena并通过浏览器Geolocation API授予位置权限。在移动设备上通常使用GPS（精度5–15米）。在桌面端则使用Wi-Fi定位或其他信号提供大致位置——精度较低，但足以进行城市级比较。
设备坐标通过反向地理编码转换为参考城市、地区和国家。这就是真实位置。
贡献者的公网IP地址同时发送给所有受测提供商。我们记录每个提供商返回的坐标、城市、地区和国家。
每个提供商的坐标通过与真实位置相同的地理编码服务进行反向编码，以确保命名一致。反向编码结果经过归一化处理后，按城市、地区和国家进行匹配比较。使用Haversine公式计算提供商坐标与设备坐标之间的距离误差。
结果通过逆方差加权（1/accuracy²）汇总到实时排行榜中，因此GPS精度越高的测量对排名的贡献越大。同一IP在同一位置的重复测试会在7天窗口内进行去重，仅保留最新结果。

用户

location + IP

Arena

提供商

IPInfo

MaxMind

ipapi.is

+14 more

城市 (IP)

GPS

反向地理编码器

城市 (真实)

compare

结果

排行榜

比较逻辑

城市名称匹配并非易事。我们不直接比较提供商返回的原始名称，而是使用与真实位置相同的地理编码服务对每个提供商的坐标进行反向编码。这确保双方使用相同的命名规范、行政边界划分和语言。

距离误差使用Haversine公式计算。我们报告每个提供商的加权中位数距离误差，每次提交的权重为1/accuracy²（逆方差加权）。GPS精度超过5公里的提交将被排除，以防止基于IP的浏览器回退定位污染结果。同一IP在同一位置的重复测试会在7天滚动窗口内进行去重。

与传统方法的区别

维度	传统研究	IP Accuracy
真实位置	ISP数据、WHOIS信息、DNS主机名、地标	用户设备位置（GPS、Wi-Fi定位）
IP类型	通常为路由器/基础设施IP	终端用户消费者IP
时效性	静态快照，一次性发布	持续更新，实时排名
覆盖范围	通常为1–2个地区或单个ISP	随贡献增长而扩展
网络类型	通常为单一网络类型	住宅、移动、企业、热点
可重复性	通常需要非公开数据	方法公开，结果透明
提供商	2–4个数据库	14 家提供商，可扩展

隐私保护

设备位置数据属于敏感信息。用户坐标仅用于实时比对，绝不会被持久化存储。

每次测试存储的数据

时间戳、IP地址、真实位置的城市/地区/国家及精度（不含坐标）、提供商返回的城市/地区/国家及坐标、城市匹配结果、国家匹配结果、距离误差。

绝不存储的数据

设备坐标、设备指纹、用户身份信息均不会被存储。

已知局限性

定位精度因设备而异。 移动端GPS精度为5–15米，桌面端Wi-Fi定位可达50–200米。我们的加权聚合方法通过赋予高精度测量更大权重来缓解这一问题。

样本偏差。 众包贡献的地域分布并不均匀，代表性不足的地区数据应谨慎解读。

VPN和代理流量。 使用VPN的用户，其设备位置和IP位置会故意不一致。被标记为匿名、代理或托管流量的提交会自动从排行榜中排除。

提供商API层级。 部分提供商在不同API层级的准确率有所不同。我们测试的是我们能够获取访问权限的层级。

参与贡献

最简单的贡献方式就是运行一次测试。来自代表性不足的地区、移动网络和非西方国家的测试尤其有价值——这些地区提供商之间的差异最大，而现有数据最少。

方法论完全公开。如果您是希望参与评测的提供商，或是对数据集感兴趣的研究人员，请通过 arena@ipaccuracy.com 联系我们。