Acerca de este proyecto

Por qué la geolocalización por IP necesita un referente independiente

La geolocalización por IP sustenta gran parte del internet moderno: localización de contenido, detección de fraude, segmentación de anuncios y cumplimiento normativo. El mercado abarca miles de empresas y miles de millones de llamadas diarias a API. Sin embargo, los usuarios de estos datos no disponen de una forma fiable e independiente de comparar proveedores.

Personas diferentes, problema compartido

Quienes dependen de los datos de geolocalización IP no disponen de la información necesaria para tomar una decisión con seguridad:

El usuario predeterminado

Elige un plan gratuito y espera lo mejor

Selecciona la primera API o base de datos gratuita que encuentra, la integra y nunca la valida. La suposición de que "es suficientemente buena" o "todos los proveedores son iguales" queda totalmente sin comprobar.

El escéptico

Desconfía por igual de todos los proveedores

Tras detectar geolocalizaciones erróneas, algunos equipos desconfían de toda la categoría. Buscan soluciones alternativas o evitan las funciones que dependen de la ubicación. No hay datos para cuantificar el riesgo real.

El comprador empresarial

Paga miles sin posibilidad de auditoría

Las organizaciones que priorizan el cumplimiento normativo invierten entre 10 000 y más de 100 000 dólares anuales en geolocalización comercial. La selección de proveedores se basa en la interacción comercial y en los informes técnicos que ellos mismos proporcionan.

Los tres comparten el mismo problema: carecen de una fuente de información fidedigna. Las afirmaciones sobre la precisión provienen de los propios proveedores, quienes las contrastan con sus propios conjuntos de datos, bajo condiciones que ellos controlan y con una metodología que rara vez revelan.

Lo que dice la investigación

Las limitaciones de las bases de datos de geolocalización no son nuevas. La literatura académica las ha documentado durante más de una década:

Primer estudio de verificación con datos de proveedores de servicios de internet (ISP) de una gran red europea. Conclusión: las bases de datos de geolocalización pueden afirmar tener precisión a nivel de país, pero no a nivel de ciudad. De hecho, los datos con mayor nivel de detalle empeoran la precisión.

Se evaluaron bases de datos utilizando aproximadamente 100 000 direcciones IP agrupadas en puntos de presencia. La coherencia entre bases de datos es deficiente a nivel de ciudad. MaxMind informó una pérdida de precisión de aproximadamente el 1,5 % mensual debido a la reasignación de bloques de IP.

Se analizaron 1,64 millones de direcciones IP de enrutadores del conjunto de datos Ark de CAIDA. Se encontró una consistencia del 95,8 % a nivel de país entre las bases de datos, pero solo del 71 % a nivel de ciudad. La precisión varía significativamente según la región, y ARIN (Norteamérica) presenta un rendimiento particularmente deficiente a nivel de ciudad.

Se propuso un método de evaluación basado en el tiempo de retardo. Se confirmó que la fiabilidad de la base de datos no es uniforme en todas las regiones, y que persisten importantes inconsistencias entre los principales proveedores comerciales.

Se estudiaron los geofeeds RFC 8805, un mecanismo que permite a los operadores de red publicar por sí mismos su geolocalización IP. Incluso estos datos autodeclarados contienen imprecisiones significativas.

Cada estudio aportó contribuciones importantes. Sin embargo, comparten limitaciones estructurales: prueban un conjunto fijo de direcciones IP en un único momento, se basan en datos de referencia que son privados (datos del ISP) o sintéticos (WHOIS, nombres de host DNS, puntos de referencia conocidos) y se centran principalmente en las direcciones IP de infraestructura en lugar del tráfico de los usuarios finales.

Un artículo reciente de la Universidad de Chicago exploró el uso de datos de ubicación de dispositivos provenientes de pruebas de velocidad de consumidores como referencia, el primer estudio en validar la geolocalización IP con ubicaciones reales reportadas por los usuarios a gran escala. Descubrieron que la precisión varía significativamente según la geografía, el operador y el modo de acceso, matices que solo son visibles con datos de referencia a nivel de ubicación del usuario.

Cómo funciona IP Accuracy Arena

La Arena se basa en el enfoque de la ubicación del usuario como dato de referencia, adaptado para la recopilación colaborativa continua:

  1. Un colaborador visita la Arena y otorga permiso de ubicación mediante la API de geolocalización del navegador. En dispositivos móviles, esto generalmente utiliza GPS (con una precisión de 5 a 15 metros). En ordenadores de escritorio, el posicionamiento Wi-Fi u otras señales proporcionan una ubicación aproximada, menos precisa, pero útil para comparaciones a nivel de ciudad.
  2. Las coordenadas del dispositivo se geocodifican inversamente a una ciudad, región y país de referencia. Esta es la ubicación de referencia.
  3. La dirección IP pública del colaborador se envía simultáneamente a todos los proveedores probados. Registramos las coordenadas, la ciudad, la región y el país que devuelve cada proveedor.
  4. Las coordenadas de cada proveedor se geocodifican inversamente mediante el mismo servicio utilizado para la ubicación de referencia, lo que garantiza una nomenclatura coherente. Los resultados de la geocodificación inversa se normalizan y comparan para verificar la coincidencia de ciudad, región y país. Se calcula el error de distancia mediante la fórmula de Haversine entre las coordenadas del proveedor y las del dispositivo.
  5. Los resultados se agregan a la clasificación en tiempo real utilizando ponderación por varianza inversa (1/precisión²), de modo que las mediciones GPS de mayor precisión contribuyen más a las clasificaciones. Las pruebas repetidas de la misma IP desde la misma ubicación se deduplicam dentro de ventanas de 7 días, conservando solo el resultado más reciente.

Lógica de comparación

La comparación de nombres de ciudades no es una tarea sencilla. En lugar de comparar directamente los nombres proporcionados por los proveedores, realizamos una geocodificación inversa de las coordenadas de cada proveedor mediante el mismo servicio de geocodificación utilizado para la ubicación de referencia. Esto garantiza que ambas partes utilicen las mismas convenciones de nomenclatura, límites administrativos, idioma, etc.

El error de distancia utiliza la fórmula de Haversine. Reportamos la mediana ponderada del error de distancia por proveedor, donde cada contribución se pondera por 1/precisión² (ponderación por varianza inversa). Se excluyen las contribuciones con una precisión de GPS superior a 5 km para evitar que la ubicación aproximada del navegador basada en IP contamine los resultados. Las pruebas repetidas de la misma IP desde la misma ubicación se deduplican dentro de ventanas móviles de 7 días.

En qué se diferencia

DimensiónEstudios tradicionalesIP Accuracy
Ubicación de referenciaDatos del ISP, WHOIS, nombres de host DNS, puntos de referenciaUbicación del dispositivo del usuario (GPS, posicionamiento Wi-Fi)
Tipos de IPA menudo, direcciones IP de enrutadores o infraestructuraIP de usuarios finales
VigenciaInstantánea estática, publicada una sola vezClasificación actualizada continuamente en tiempo real
AlcanceNormalmente, entre 1 y 2 regiones o un único ISPCrece con las contribuciones
RedesGeneralmente un tipo de redResidencial, móvil, corporativa, punto de acceso
ReproducibilidadA menudo requiere datos privadosMetodología abierta, resultados públicos
Proveedores2–4 bases de datos15 proveedores, expandible

Privacidad

Los datos de ubicación del dispositivo son confidenciales. Las coordenadas del usuario se utilizan exclusivamente para comparaciones en tiempo real y nunca se almacenan.

Almacenado por prueba

Marca de tiempo, dirección IP, ciudad/región/país de referencia y precisión (sin coordenadas), ciudad/región/país y coordenadas devueltas por el proveedor, resultado de coincidencia de ciudad, coincidencia de país, error de distancia.

Nunca almacenado

Las coordenadas del dispositivo, la huella digital del dispositivo y la identidad del usuario no se almacenan.

Limitaciones conocidas

La precisión de la ubicación varía según el dispositivo. El GPS móvil ofrece una precisión de 5 a 15 metros. El posicionamiento Wi-Fi en ordenadores de escritorio puede alcanzar entre 50 y 200 metros. Nuestra agregación ponderada mitiga esto otorgando mayor peso a las mediciones de alta precisión.

Sesgo de la muestra. Las contribuciones colaborativas no son geográficamente uniformes. Las regiones subrepresentadas deben interpretarse con cautela.

VPN, tráfico proxy. Los usuarios que utilicen una VPN mostrarán una discrepancia deliberada entre la ubicación del dispositivo y la dirección IP. Las contribuciones identificadas como tráfico anónimo, proxy o de alojamiento se excluyen automáticamente de la clasificación.

Niveles de API del proveedor. Algunos proveedores ofrecen diferente precisión según el nivel de servicio. Probamos aquellos a los que podemos acceder.

Cómo contribuir

La forma más sencilla de contribuir es realizar una prueba. Las pruebas de regiones poco representadas, redes móviles y geografías no occidentales son especialmente valiosas, ya que es donde los proveedores difieren más y donde existen menos datos.

La metodología es abierta. Si eres un proveedor que desea ser incluido, o un investigador interesado en el conjunto de datos, escríbenos a arena@ipaccuracy.com.