Análisis de los puntos débiles en los sistemas de estadísticas web

Enviado por [email protected]

En este artículo analizaremos las causas de por qué los servicios básicos nos dan números erróneos, y daremos al lector los elementos de evaluación para que pueda por sí mismo determinar la fiabilidad de un servicio de estadísticas web.

La enorme mayoría de los servicios gratuitos de estadísticas de acceso web nos muestran una visión distorsionada sobre lo que realmente ocurre en nuestros sitios web. Sin embargo existe la tecnología necesaria para realizar análisis de tráfico absolutamente realistas… Lamentablemente estas tecnologías sólo suelen ser usadas por los servicios de estadísticas más caros (los planes "enterprise", "premium" o "professional" que ofrecen los proveedores más importantes), en tanto los webmasters que optan por los planes gratuitos (también llamados "basic", "free", etc) se suelen contentar con reportes y gráficas que sólo reflejan una parte de lo que en realidad está ocurriendo en un sitio web (ésto en el mejor de los casos, ya que muchos servicios nos reportan números totalmente mentirosos). En este artículo analizaremos las causas de por qué los servicios básicos nos dan números erróneos, y daremos al lector los elementos de evaluación para que pueda por sí mismo determinar la fiabilidad de un servicio de estadísticas web.

¿Cuántas páginas tiene tu sitio? ¿Las estás monitorizando todas?

La mayoría de los sitios web se componen de varias páginas web (a pesar de que mucha gente usa indistintamente las expresiones "página web" o "sitio web" para referirse a lo que aquí llamamos "sitio": la colección de páginas, imágenes, hojas de estilo, applets, CGIs, etc. que conforman un proyecto web alojado bajo un mismo dominio).

Ahora bien, cuando un sitio web se compone de varias páginas, todas ellas tienen la posibilidad de recibir una visita sin necesidad de que el visitante pase por la página de inicio, y este tipo de visitas directas tiende a incrementarse cuando nuestras páginas fueron indexadas por buscadores (que suelen mostrar subpáginas de diferentes sitios en los resultados de sus búsquedas). También es posible que desde otros sitios web existan enlaces hacia subpáginas específicas de nuestro sitio, y ésta es otra fuente de visitas que no pasan por la página de inicio.

Los sistemas de estadísticas que se basan en la inclusión de un botón en nuestra página de inicio sólo contarán las visitas que abrieron la página de inicio, y por tanto no nos harán saber de toda la actividad que se desarrolle en el resto de los documentos de nuestro sitio web.

No es lo mismo un "acceso" que una "visita"

Acceso se llama a una apertura de página, no importa en qué condiciones: Si yo entro en un sitio web y hago click 9 veces en el botón "recargar" de mi browser, entonces generé 10 accesos a la página (un acceso inicial al entrar a la página, más 9 accesos que generé recargándola). Posiblemente el webmaster vea el reporte y diga "que bien, acaban de entrar diez personas!"… Visita se llama a la entrada de una persona bien individualizada a nuestra página, independientemente de cuantas veces la abrió o recargó en su browser. Es muy común que una persona que visita un sitio web lo recorra abriendo varias veces determinadas páginas (para volver a acceder a un menú, o una lista de links, por ejemplo).

Cuando manejamos el concepto de "visita", también debemos manejar el concepto de timeout de visita. El timeout de visita es el tiempo de inactividad que debe transcurrir para que consideremos que una visita ha concluído. Este timeout puede variar entre 30 y 120 minutos. Una vez transcurrido este tiempo de inactividad, si el visitante vuelve a abrir la página, se le considera una nueva visita. Al fin de cuentas, sí es posible que una persona nos visite varias veces al día.

En los hechos se da y no tiene nada de extraño. Sólo debemos tener la precaución de determinar mediante el timeout si una nueva apertura de página es parte de una visita en curso, o en cambio la persona nos dejó y ha vuelto generando una nueva visita. Para terminar de ilustrar el concepto: imaginemos la situación que se generaría en una máquina instalada en un cybercafé, desde donde una persona visitó nuestra página. Si al cabo de un rato esa misma máquina es ocupada por un nuevo cliente que también abre nuestra página, no hay ninguna razón para dejar de contabilizarlo como visita.

¿Qué es lo que contabiliza tu sistema de estadísticas? ¿Accesos o visitas? No dejes que te hagan pasar accesos como visitas, pues en ese caso estarás viendo números mucho mayores a los verdaderos, que tal vez te llenen de satisfacción, pero que nada tienen que ver con la realidad de lo que pasa en tu web.

Clientes detrás de Proxys y routers NAT

Un servidor Proxy es un dispositivo que permite acelerar la conexión a Internet de sus clientes (las PCs que estén configuradas para navegar haciendo uso de sus servicios). El Proxy mantiene una copia local (cacheada) de las páginas más visitadas por sus clientes, y cuando un cliente busca acceder a una de esas páginas, el proxy en realidad le entrega la copia que tenía almacenada localmente (si no cambió el contenido en el sitio original, por supuesto). Esto logra una importante aceleración de la navegación de sus clientes, además de que permite al administrador filtrar las peticiones a determinado tipo de sitios. Por ejemplo: en una escuela un proxy permite que el administrador bloquee el acceso a páginas para adultos, logrando al mismo tiempo una gran calidad de navegación a pesar de tener una línea de baja velocidad para atender decenas de PCs en el aula de informática.

¿El problema? Que todas las peticiones a Internet parecen salir de una máquina única (el proxy), que esconde la actividad individual de las máquinas que tiene detrás. A su vez hay dos tipos de proxy: los anónimos y los normales. Los proxys anónimos esconden a Internet su condición de proxys, en tanto que los normales agregan en la cabecera HTTP una línea parecida a la siguiente: "X-Forwarded-For: 200.40.236.70", que nos permite saber que se trata de un proxy que nos está visitando a pedido de la máquina "200.40.236.70" en este caso.

El NAT (Network Address Translation) es implementado mediante routers (complejos dispositivos encaminadores, que constituyen el soporte de las comunicaciones en Internet) y es una técnica que permite a un proveedor de acceso a Internet lograr que una gran cantidad de clientes naveguen usando una misma dirección IP (Internet Protocol, o dirección de Internet). Para las empresas que cuentan con pocas direcciones IP es una solución ideal: las direcciones IP son un recurso cada vez más escaso, por lo que la técnica NAT se usa cada vez más. Hay poblaciones y pequeñas ciudades enteras que se conectan a Internet mediante un NAT configurado por su compañía de telecomunicaciones, usando unas pocas IPs para la conexón de miles de clientes. Desde el punto de vista de un sistema de estadísticas, todas esas máquinas son en realidad vistas como si se tratara de un solo cliente (lo que nos lleva a tener reportes de tráfico completamente alejados de la realidad).

Existe una tecnología capaz de individualizar los clientes que nos visitan desde atrás de un NAT o un proxy anónimo: el "client footprint", que consiste el análisis de un paquete de características partuculares de la máquina (la "huella" de la máquina), que nos permite saber qué máquinas distintas están generando actividad en nuestro sitio a pesar de venir desde una misma IP. Esta técnica (de la cual he tenido la oportunidad de ser uno de sus desarrolladores) es usada por muy pocos sistemas de estadísticas web. Presta atención en la documentación de tu sistema de estadísticas: debe hablarte de "client footprint identification", o al menos debe aclararte de qué forma resuelve el problema de identificación de las visitas NAT.

Visitas desde .COM .NET .EDU y .ORG

En los reportes sobre el origen geográfico de las visitas puedes ver cuántos accesos has tenido desde España, México, Argentina, etc. Pero posiblemente veas entre los países, que te han visitado desde "EEUU Comercial (.com)", o desde ".net y .org". Difícilmente las visitas que dicen ser de "EEUU Comercial (.com)" realmente provengan de Estados Unidos, ya que el dominio COM puede estar asociado a una máquina en cualquier lugar del mundo. Lo mismo para NET, EDU y ORG. Entonces ¿por qué el sistema de estadísticas no me da el lugar geográfico real de la visita, en lugar de decirme que es desde una red COM? Porque están utilizando una tecnología fácil pero inapropiada: la resolución DNS reversa.

Cuando llega una visita a un sitio web, obtenemos con ella el dato de la IP de la máquina que realizó la petición (ejemplo: 200.96.85.14). Entonces el sistema de estadísticas hace una búsqueda DNS reversa para esa IP, con el fin de obtener el nombre de la máquina. Si usas Linux, prueba ejecutar el siguiente comando: "dig -x 200.96.85.14" entonces obterndrás el nombre de la máquina que tiene asociada esa dirección IP (en este caso 200-096-085-014.smace7003.dsl.brasiltelecom.net.br). Luego se analiza el nombre de la máquina, para ver si se obtiene información sobre el país de origen… en el caso de nuestro ejemplo encontramos que el nombre termina en ".br", lo que nos indica que se trata de una visita desde Brasil.

¿Pero qué ocurre cuando la resolución DNS reversa nos devuelve algo así como "80.58.35.237.proxycache.rima-tde.net"? Si analizamos el nombre de la máquina, no encontraremos nada que nos permita determinar en qué país se encuentra. Entonces los sistemas de estadísticas baratos se contentan con decirnos que "es una visita desde .NET". Es verdad, lo es. Pero cuando un sistema vuelca ese tipo de información en sus reportes, en realidad es para disimular su incapacidad para determinar la verdadera procedencia geográfica de la visita.

El método serio para determinar la situación geográfica de una dirección IP es mediante una base de datos de direcciones IP repartidas por países. Es el método que usan GeoIP (http://www.maxmind.com), o ip-to-country (http://ip-to-country.webhosting.info/) entre otros.

Visitas desde origen desconocido

Es una variante del problema tratado en el apartado anterior: cuando la resolución DNS reversa no arroja resultados, entonces no podemos obtener el nombre de la máquina desde la cual recibimos la visita. Este problema desaparece cuando se usa una base de datos asociando IPs con nombres de países, como ya se explicó.

Pero subsiste el problema de qué es lo que ocurre si la base de datos no está actualizada con respecto a las nuevas asignaciones IP por parte de los organismos de control (APNIC para Asia y el Pacífico, ARIN para Norteamérica, LACNIC para Latinoamérica y el Caribe, y RIPE para Europa, Africa del norte y Rusia). La única solución fiable es la permanente actualización y corrección de las bases de datos de IPs por parte de nuestro proveedor de estadísticas.

¿Dónde reside el "motor" del sistema de estadísticas?

Un Sistema de Estadísticas web puede ser un software instalado en tu propio servidor*, o puede ser un software instalado en otro lugar. Existe una antigua polémica acerca de la conveniencia de una u otra forma de monitorización de un sitio web. Para despejar nuestras dudas al respecto, en el año 2002 hicimos una serie de experimentos que arrojaron resultados esclarecedores: El experimento consistió en la creación de una página web bajo un dominio no público (lo cual nos garantizaba que no se recibirían visitas reales bajo ningún concepto).

Se programó un agente de usuario especial, preparado para realizar una serie de 200.000 peticiones sobre la página en pruebas (mostrando diferentes cabeceras HTTP según una secuencia conocida: variando el agente de usuario, el uso de diversos proxys en distintos lugares del mundo, la densidad de peticiones por unidad de tiempo, etc). Entonces se "disparó" el generador de visitas, que cumplió con sus 200.000 visitas en un lapso de 24 horas, mientras la página web era monitorizada por 10 sistemas de estadísticas diferentes (5 nuestros y 5 sistemas comerciales). Al final de la prueba, todos los sistemas de estadísticas arrojaron diferentes resultados.

Pero lo más interesante del experimento es que en el propio servidor de la página web habíamos instalado un sistema de medición, idéntico al que utilizamos desde otros 4 servidores en forma remota, y los cinco dieron resultados ligeramente diferentes. De ahí se deduce que un mismo software de control de tráfico web monitorizando un sitio desde su propio servidor difiere en precisión con respecto a la monitorización remota.

La información más exacta se obtuvo SIEMPRE desde el sistema de control que se encontraba funcionando en el propio servidor del sitio web (la actividad sobre el sitio ya se conocía de antemano al provenir 100% de un simulador de tráfico programado por nosotros mismos). Los experimentos se repitieron durante meses, variando los emplazamientos de los monitores remotos, las características de las páginas web usadas, el software de simulación de tráfico, la densidad de las muestras, etc. Se llegó a muchas conclusiones cuyo análisis está fuera del cometido de este artículo. Pero en lo concerniente a este artículo, nuestra conclusión fue: Los sistemas de monitorización remota son menos fiables que aquellos que se encuentran instalados en el propio servidor web del sitio monitorizado.

* Vamos a dejar de lado el estudio de los programas conocidos como "Analizadores de logs", que analizan los archivos de registro de actividad generados por el propio servidor. Estos registros son sin duda la fuente de información más fiel acerca de qué es lo que ocurre en un sitio web. Pero su uso resulta engorroso, y la información que se obtiene es incompleta (no especifica las capacidades del browser en cuanto a plugins, por ejemplo), y no pueden identificar clientes detrás de proxys o NATs.

Conclusión

Son muchas las variables en que los sistemas gratuitos de estadísticas web realizan un "redondeo" de la información, que deriva en la generación de reportes completamente alejados de la realidad. Los más graves errores surgen de la confusión de "visita" con "acceso", y de la falta de monitorización en las páginas internas del sitio web.

Ing. Eduardo González González (*)

(*) Consultor en Sistemas de Seguridad