Sobre este projeto

Por que a geolocalização por IP precisa de um benchmark independente

A geolocalização por IP sustenta uma quantidade notável da internet moderna — localização de conteúdo, detecção de fraudes, segmentação de anúncios, conformidade regulatória. O mercado abrange milhares de empresas e bilhões de chamadas de API diárias. No entanto, os consumidores desses dados não têm uma maneira confiável e independente de comparar os provedores.

Perfis diferentes, problema em comum

Quem depende de dados de geolocalização por IP não possui as informações necessárias para tomar uma decisão segura:

O usuário padrão

Pega um plano gratuito e torce para dar certo

Escolhe a primeira API ou banco de dados gratuito, incorpora-o e nunca o valida. A suposição de que "é bom o suficiente" ou que "todos os provedores são iguais" não é testada de forma alguma.

O cético

Desconfia igualmente de todos os provedores

Após se depararem com geolocalizações simplesmente incorretas, algumas equipes passam a desconfiar de toda a categoria. Elas criam soluções alternativas ou evitam recursos que dependem de localização. Não há dados para quantificar o risco real.

O comprador empresarial

Paga milhares sem nenhuma forma de auditoria

Organizações focadas em conformidade gastam de US$ 10 mil a mais de US$ 100 mil por ano em geolocalização comercial. A seleção de provedores é baseada no contato com a equipe de vendas e em relatórios técnicos fornecidos pela própria empresa.

Os três compartilham o mesmo problema: a ausência de uma fonte neutra de verdade. As alegações de precisão vêm dos próprios provedores, testadas em seus próprios conjuntos de dados, sob condições que eles controlam, com uma metodologia que raramente divulgam.

O que diz a pesquisa

As limitações das bases de dados de geolocalização não são novidade. A literatura acadêmica as documenta há mais de uma década:

Primeiro estudo de verificação em campo utilizando dados de provedores de internet de uma grande rede europeia. Conclusão: bancos de dados de geolocalização podem alegar precisão em nível de país, mas certamente não em nível de cidade. Entradas mais detalhadas, na verdade, pioram a precisão.

Bancos de dados avaliados usando aproximadamente 100 mil IPs agrupados em Pontos de Presença. A consistência entre os bancos de dados é baixa em nível de cidade. A MaxMind relatou uma perda de precisão de cerca de 1,5% ao mês devido à reatribuição de blocos de IP.

Analisamos 1,64 milhão de endereços IP de roteadores do conjunto de dados Ark da CAIDA. Encontramos 95,8% de consistência em nível de país entre os bancos de dados, mas apenas 71% em nível de cidade. A precisão varia significativamente por região, com a ARIN (América do Norte) apresentando um desempenho particularmente ruim em nível de cidade.

Propôs-se um método de avaliação baseado em atrasos. Confirmou-se que a confiabilidade do banco de dados não é uniforme entre as regiões, persistindo inconsistências significativas entre os principais provedores comerciais.

Estudamos os dados geográficos da RFC 8805 — um mecanismo para que os operadores de rede publiquem voluntariamente sua geolocalização de IP. Mesmo esses dados autodeclarados contêm imprecisões significativas.

Cada estudo trouxe contribuições importantes. No entanto, eles compartilham limitações estruturais: testam um conjunto fixo de IPs em um único momento, dependem de dados de referência que são privados (dados de ISPs) ou sintéticos (WHOIS, nomes de host DNS, pontos de referência conhecidos) e se concentram principalmente em IPs de infraestrutura, em vez de tráfego de usuários finais.

Um artigo recente da Universidade de Chicago explorou o uso de dados de localização de dispositivos obtidos em testes de velocidade realizados por consumidores como referência fundamental — o primeiro estudo a validar a geolocalização por IP em comparação com localizações reais relatadas por usuários em larga escala. Os pesquisadores descobriram que a precisão varia significativamente de acordo com a geografia, a operadora e o modo de acesso — nuances visíveis apenas com dados de referência de alta precisão baseados na localização do usuário.

Como funciona IP Accuracy Arena

O Arena baseia-se na abordagem de localização do usuário como verdade fundamental, adaptada para coleta contínua de dados colaborativos:

  1. Um colaborador visita a Arena e concede permissão de localização por meio da API de Geolocalização do navegador. Em dispositivos móveis, isso geralmente usa GPS (precisão de 5 a 15 metros). Em computadores, o posicionamento por Wi-Fi ou outros sinais fornecem uma localização aproximada — menos precisa, mas útil para comparação em nível de cidade.
  2. As coordenadas do dispositivo são geocodificadas reversamente para uma cidade, região e país de referência. Essa é a verdade fundamental.
  3. O endereço IP público do colaborador é enviado simultaneamente a todos os provedores testados. Capturamos as coordenadas, cidade, região e país retornados por cada provedor.
  4. As coordenadas de cada provedor são geocodificadas reversamente pelo mesmo serviço usado para a verificação de dados, garantindo a consistência dos nomes. Os resultados da geocodificação reversa são normalizados e comparados quanto à correspondência de cidade, região e país. O erro de distância de Haversine é calculado entre as coordenadas do provedor e as coordenadas do dispositivo.
  5. Os resultados são agregados na classificação ao vivo usando ponderação por variância inversa (1/precisão²), de modo que medições de GPS com maior precisão contribuem mais para o ranking. Testes repetidos do mesmo IP na mesma localização são deduplicados em janelas de 7 dias, mantendo apenas o resultado mais recente.

Lógica de comparação

A correspondência de nomes de cidades não é trivial. Em vez de comparar diretamente os nomes brutos retornados pelos provedores, realizamos a geocodificação reversa das coordenadas de cada provedor por meio do mesmo serviço de geocodificação usado para a verificação em campo. Isso garante que ambos os lados usem as mesmas convenções de nomenclatura, limites administrativos, idioma etc.

O erro de distância utiliza a fórmula de Haversine. Reportamos a mediana ponderada do erro de distância por provedor, onde cada submissão é ponderada por 1/precisão² (ponderação por variância inversa). Submissões com precisão de GPS acima de 5 km são excluídas para evitar que o fallback de localização por IP do navegador contamine os resultados. Testes repetidos do mesmo IP na mesma localização são deduplicados em janelas móveis de 7 dias.

Em que é diferente?

DimensãoEstudos tradicionaisIP Accuracy
Verdade fundamentalDados do ISP, WHOIS, nomes de host DNS, pontos de referênciaLocalização do dispositivo do usuário (GPS, posicionamento por Wi-Fi)
Tipos de IPGeralmente, IPs de roteadores/infraestruturaIPs de usuários finais
AtualidadeInstantâneo estático, publicado uma vezClassificações atualizadas continuamente, em tempo real
EscopoNormalmente, 1 a 2 regiões ou um único ISPCresce com as contribuições
RedesGeralmente um tipo de redeResidencial, móvel, corporativo, hotspot
ReprodutibilidadeFrequentemente requer dados privadosMetodologia aberta, resultados públicos
Provedores2–4 bases de dados15 provedores, expansível

Privacidade

Os dados de localização do dispositivo são sensíveis. As coordenadas do usuário são usadas exclusivamente para comparação em tempo real e nunca são armazenadas permanentemente.

Armazenado por teste

Carimbo de data/hora, endereço IP, cidade/região/país reais e precisão (sem coordenadas), cidade/região/país e coordenadas retornadas pelo provedor, resultado da correspondência de cidade, correspondência de país, erro de distância.

Nunca armazenado

As coordenadas do dispositivo, a impressão digital do dispositivo e a identidade do usuário não são armazenadas.

Limitações conhecidas

A precisão da localização varia conforme o dispositivo. O GPS em dispositivos móveis oferece precisão de 5 a 15 metros. O posicionamento por Wi-Fi em computadores pode alcançar de 50 a 200 metros. Nossa agregação ponderada atenua essa diferença ao atribuir mais peso a medições de alta precisão.

Viés de amostragem. As contribuições colaborativas não são geograficamente uniformes. Regiões sub-representadas devem ser interpretadas com cautela.

VPN, tráfego proxy. Usuários conectados a uma VPN verão uma discrepância intencional entre a localização do dispositivo e a localização do IP. Submissões identificadas como tráfego anônimo, proxy ou de hospedagem são automaticamente excluídas da classificação.

Níveis de API do provedor. Alguns provedores oferecem diferentes níveis de precisão em cada plano. Testamos aqueles aos quais conseguimos ter acesso.

Contribuindo

A maneira mais simples de contribuir é executar um teste. Testes de regiões sub-representadas, redes móveis e geografias não ocidentais são especialmente valiosos — é aqui que os provedores divergem mais e onde existem poucos dados.

A metodologia é aberta. Se você é um provedor que deseja ser incluído ou um pesquisador interessado no conjunto de dados, entre em contato em arena@ipaccuracy.com.