Sobre este projeto

Porque é que a geolocalização por IP precisa de um benchmark independente

A geolocalização por IP sustenta uma quantidade notável da internet moderna — localização de conteúdo, deteção de fraudes, segmentação de anúncios, conformidade regulatória. O mercado abrange milhares de empresas e milhares de milhões de chamadas de API diárias. No entanto, os consumidores destes dados não têm uma forma fiável e independente de comparar os fornecedores.

Perfis diferentes, problema em comum

Quem depende de dados de geolocalização por IP não possui as informações necessárias para tomar uma decisão segura:

O utilizador padrão

Escolhe um plano gratuito e espera pelo melhor

Escolhe a primeira API ou base de dados gratuita, integra-a e nunca a valida. O pressuposto de que "é bom o suficiente" ou de que "todos os fornecedores são iguais" permanece completamente por testar.

O cético

Desconfia igualmente de todos os fornecedores

Após se depararem com geolocalizações simplesmente incorretas, algumas equipas passam a desconfiar de toda a categoria. Criam soluções alternativas ou evitam funcionalidades que dependem de localização. Não há dados para quantificar o risco real.

O comprador empresarial

Paga milhares sem qualquer forma de auditoria

Organizações focadas em conformidade gastam de 10 mil a mais de 100 mil dólares por ano em geolocalização comercial. A seleção de fornecedores baseia-se no contacto com a equipa de vendas e em relatórios técnicos fornecidos pela própria empresa.

Os três partilham o mesmo problema: a ausência de uma fonte neutra de referência. As alegações de precisão vêm dos próprios fornecedores, testadas nos seus próprios conjuntos de dados, sob condições que eles controlam, com uma metodologia que raramente divulgam.

O que diz a investigação

As limitações das bases de dados de geolocalização não são novidade. A literatura académica documenta-as há mais de uma década:

Primeiro estudo de verificação em campo utilizando dados de fornecedores de internet de uma grande rede europeia. Conclusão: as bases de dados de geolocalização podem alegar precisão ao nível de país, mas certamente não ao nível de cidade. Entradas mais detalhadas, na verdade, pioram a precisão.

Bases de dados avaliadas usando aproximadamente 100 mil IPs agrupados em Pontos de Presença. A consistência entre as bases de dados é baixa ao nível de cidade. A MaxMind relatou uma perda de precisão de cerca de 1,5% ao mês devido à reatribuição de blocos de IP.

Analisaram-se 1,64 milhões de endereços IP de routers do conjunto de dados Ark da CAIDA. Encontrou-se 95,8% de consistência ao nível de país entre as bases de dados, mas apenas 71% ao nível de cidade. A precisão varia significativamente por região, com a ARIN (América do Norte) a apresentar um desempenho particularmente fraco ao nível de cidade.

Propôs-se um método de avaliação baseado em atrasos. Confirmou-se que a fiabilidade das bases de dados não é uniforme entre regiões, persistindo inconsistências significativas entre os principais fornecedores comerciais.

Estudaram-se os geofeeds da RFC 8805 — um mecanismo para que os operadores de rede publiquem a sua geolocalização de IP. Mesmo estes dados autodeclarados contêm imprecisões significativas.

Cada estudo trouxe contribuições importantes. No entanto, partilham limitações estruturais: testam um conjunto fixo de IPs num único momento, dependem de dados de referência que são privados (dados de ISPs) ou sintéticos (WHOIS, nomes de host DNS, pontos de referência conhecidos) e concentram-se principalmente em IPs de infraestrutura, em vez de tráfego de utilizadores finais.

Um artigo recente da Universidade de Chicago explorou a utilização de dados de localização de dispositivos obtidos em testes de velocidade realizados por consumidores como referência — o primeiro estudo a validar a geolocalização por IP em comparação com localizações reais relatadas por utilizadores em larga escala. Os investigadores descobriram que a precisão varia significativamente conforme a geografia, a operadora e o modo de acesso — nuances visíveis apenas com dados de referência de alta precisão baseados na localização do utilizador.

Como funciona IP Accuracy Arena

A Arena baseia-se na abordagem de localização do utilizador como referência real, adaptada para recolha contínua de dados por meio de crowdsourcing:

  1. Um colaborador visita a Arena e concede permissão de localização por meio da API de Geolocalização do browser. Em dispositivos móveis, isso normalmente usa GPS (precisão de 5 a 15 metros). Em computadores, o posicionamento por Wi-Fi ou outros sinais fornecem uma localização aproximada — menos precisa, mas útil para comparação ao nível de cidade.
  2. As coordenadas do dispositivo são geocodificadas inversamente para uma cidade, região e país de referência. Esta é a referência real.
  3. O endereço IP público do colaborador é enviado simultaneamente a todos os fornecedores testados. Capturamos as coordenadas, cidade, região e país devolvidos por cada fornecedor.
  4. As coordenadas de cada fornecedor são geocodificadas inversamente pelo mesmo serviço usado para a referência real, garantindo a consistência dos nomes. Os resultados da geocodificação inversa são normalizados e comparados quanto à correspondência de cidade, região e país. O erro de distância de Haversine é calculado entre as coordenadas do fornecedor e as coordenadas do dispositivo.
  5. Os resultados são agregados na classificação em direto utilizando ponderação por variância inversa (1/precisão²), pelo que medições GPS de maior precisão contribuem mais para as classificações. Testes repetidos do mesmo IP a partir da mesma localização são desduplicados dentro de janelas de 7 dias, mantendo apenas o resultado mais recente.

Lógica de comparação

A correspondência de nomes de cidades não é trivial. Em vez de comparar diretamente os nomes brutos devolvidos pelos fornecedores, realizamos a geocodificação inversa das coordenadas de cada fornecedor através do mesmo serviço de geocodificação utilizado para a referência real. Isto garante que ambos os lados utilizem as mesmas convenções de nomenclatura, limites administrativos, idioma, etc.

O erro de distância utiliza a fórmula de Haversine. Reportamos a mediana ponderada do erro de distância por fornecedor, em que cada submissão é ponderada por 1/precisão² (ponderação por variância inversa). Submissões com precisão de GPS superior a 5 km são excluídas para evitar que o fallback de localização baseado em IP do browser contamine os resultados. Testes repetidos do mesmo IP a partir da mesma localização são desduplicados dentro de janelas deslizantes de 7 dias.

Em que é diferente

DimensãoEstudos tradicionaisIP Accuracy
Referência realDados do ISP, WHOIS, nomes de host DNS, pontos de referênciaLocalização do dispositivo do utilizador (GPS, posicionamento por Wi-Fi)
Tipos de IPGeralmente IPs de routers/infraestruturaIPs de utilizadores finais
AtualidadeInstantâneo estático, publicado uma vezClassificações atualizadas continuamente, em tempo real
ÂmbitoNormalmente 1 a 2 regiões ou um único ISPCresce com as contribuições
RedesGeralmente um tipo de redeResidencial, móvel, corporativa, hotspot
ReprodutibilidadeFrequentemente requer dados privadosMetodologia aberta, resultados públicos
Fornecedores2–4 bases de dados15 fornecedores, expansível

Privacidade

Os dados de localização do dispositivo são sensíveis. As coordenadas do utilizador são usadas exclusivamente para comparação em tempo real e nunca são armazenadas permanentemente.

Armazenado por teste

Data/hora, endereço IP, cidade/região/país e precisão da referência real (sem coordenadas), cidade/região/país e coordenadas devolvidas pelo fornecedor, resultado da correspondência de cidade, correspondência de país, erro de distância.

Nunca armazenado

As coordenadas do dispositivo, a impressão digital do dispositivo e a identidade do utilizador não são armazenadas.

Limitações conhecidas

A precisão da localização varia conforme o dispositivo. O GPS de telemóvel oferece uma precisão de 5–15 m. O posicionamento por Wi-Fi em computadores pode atingir 50–200 m. A nossa agregação ponderada atenua esta limitação ao atribuir maior peso a medições de alta precisão.

Viés de amostragem. As contribuições colaborativas não são geograficamente uniformes. Regiões sub-representadas devem ser interpretadas com cautela.

VPN, tráfego proxy. Utilizadores ligados a uma VPN apresentarão uma discrepância intencional entre a localização do dispositivo e a localização do IP. Submissões identificadas como tráfego anónimo, proxy ou de alojamento são automaticamente excluídas da classificação.

Níveis de API dos fornecedores. Alguns fornecedores oferecem diferentes níveis de precisão em cada plano. Testamos aqueles aos quais conseguimos ter acesso.

Contribuir

A forma mais simples de contribuir é executar um teste. Testes de regiões sub-representadas, redes móveis e geografias não ocidentais são especialmente valiosos — é aí que os fornecedores divergem mais e onde existem poucos dados.

A metodologia é aberta. Se é um fornecedor que deseja ser incluído, ou um investigador interessado no conjunto de dados, entre em contacto em arena@ipaccuracy.com.