- Cómo obtiene esta información nuestro programa de estadísticas
- Cómo usar los datos obtenidos
- Cantidad y peso de las cadenas
- Consideraciones sobre la cantidad de cadenas
- Consideraciones sobre el peso de las cadenas
- Factor cantidad-peso (o ¿cuánto dependemos de nuestras cadenas de busqueda?)
- Optimización de cadenas potencialmente importantes
- Inconvenientes en el análisis de cadenas
- Conclusión
Una "cadena de búsqueda" es lo que escribe un usuario en un buscador, que a su vez le devuelve una lista de páginas web que contienen los vocablos o frases expresadas en la cadena de búsqueda. Los buenos programas de estadísticas web nos permiten obtener las cadenas de búsqueda que emplearon los visitantes que llegaron desde buscadores. Este artículo describe los mecanismos por los cuales el sistema de estadísticas obtiene la información, y enseña al webmaster a obtener el máximo provecho de estos datos.
Cómo obtiene esta información nuestro programa de estadísticas
En realidad es el propio buscador (Google, Alltheweb, Altavista, etc.) quien gentilmente le transfiere esta información a nuestro sistema de estadísticas. Y lo hace añadiendo un parámetro y un valor al campo REFERER en la cabecera HTTP que se nos envía cuando se accede a nuestra página al hacer click en el link que aparece en la lista de resultados de la búsqueda.
El campo REFERER normalmente contiene la URL del documento desde donde –siguiendo un link– se accedió a nuestras páginas. Nótese que si se accede a una página escribiendo su URL directamente en el navegador, el campo REFERER aparece vacío (lo cual es correcto ya que no hubo ninguna página referente).
En el caso de los buscadores se introduce una pequeña variante, que es lo que permite transmitir la cadena de búsqueda: luego de la URL de la página de resultados del buscador aparece el signo "?" seguido del nombre de la variable de búsqueda (que varía de buscador en buscador, ver Tabla 2), un signo de igual y por último la cadena de búsqueda codificada como URL (url encoding).
TABLA 1: ejemplo de transmisión de una cadena en Google
Como ya mencionamos, el nombre de la variable de búsqueda es diferente para cada buscador. A continuación se muestra una tabla con los nombres de variables de búsqueda utilizados por los buscadores más populares.
TABLA 2: variables de búsqueda en diferentes buscadores
En cuanto a la cadena de búsqueda, ésta se transmite codificada de una forma especial para solucionar la limitante técnica por la que sólo son transmisibles caracteres simples (sin tildes, ni "ñ", ni espacios en blanco u otros signos).
La codificación tipo URL (url encoding) copia los caracteres normales sin modificarlos, y aquellos caracteres especiales (la "ñ" por ejemplo) se sustituyen por un código que comienza con "%" y sigue con el número ASCII hexadecimal que representa al caracter que deseamos codificar. El espacio en blanco se sustituye por "%20" o por el signo "+". A su vez, si apareciese el verdadero signo "+" se codificaría como "%2B".
Según este protocolo de codificación, los caracteres que no se codifican (pueden ser representados directamente) son ";", "/", "?", ":", "@", "=", "#" y "&". Esto es así ya que este conjunto de caracteres es necesario para conformar las URLs según el protocolo HTTP.
Ejemplos de codificación de cadenas (url encoding):
Ejemplo 1: Este%20es%20un%20ejemplo%20de%20una%20cadena%20codificada
Ejemplo 2: 2%20%2B%202%20%3D%204
Los programas de estadísticas web -dependiendo de cómo los configuremos- nos pueden mostrar las primeras 30 cadenas de búsqueda (es decir: las 30 que han sido más empleadas para hallar nuestro sitio web), o bien un listado conteniendo todas las cadenas con que fuimos encontrados. Yo personalmente prefiero poder ver TODOS los resultados, lo que me permite obtener algunas conclusiones adicionales.
A continuación adjunto un reporte de cadenas de búsqueda de los primeros días de noviembre de 2004 del sitio www.estadisticasweb.com:
Accesos Porcentaje Cadena buscada | |||
42 | 6.03% | estadísticas | |
34 | 4.88% | análisis de log | |
29 | 4.16% | awstats pasos para instalación | |
28 | 4.02% | geotargeting | |
26 | 3.73% | configurar awstat | |
26 | 3.73% | contador de visitas descargar gratis | |
25 | 6.03% | estadísticas software | |
25 | 3.59% | modalidad | |
24 | 3.44% | gráficas estadísticas | |
23 | 3.30% | http://www.estadisticasweb.com | |
23 | 3.16% | localización geográfica | |
22 | 3.01% | log | |
21 | 2.87% | programas gratis | |
20 | 2.72% | sistemas gratuitos | |
19 | 2.58% | análisis de logs | |
18 | 2.58% | análisis de trafico | |
18 | 2.58% | analizador de logs gratuito | |
17 | 2.44% | análisis de log | |
16 | 2.29% | análisis de los logs | |
15 | 2.15% | awstats.pl | |
15 | 2.15% | awstats_buildstaticpages.pl | |
14 | 2.01% | bandera ip visitante | |
13 | 1.86% | bandera país visitante | |
13 | 1.86% | banderas del mundo | |
10 | 1.43% | clientes nat | |
8 | 1.14% | como acelerar la conexión a internet | |
7 | 1.00% | como hacer para que de el nombre de la maquina | |
7 | 1.00% | configuración awstats | |
6 | 0.86% | connection hijacking | |
5 | 0.71% | contador | |
5 | 0.71% | contador web gratis | |
3 | 0.43% | descargar contadores de visitas | |
3 | 0.43% | ejemplos de casos para su análisis | |
2 | 0.28% | estadísticas web | |
2 | 0.28% | estadísticas referidos raw | |
2 | 0.28% | gnu | |
2 | 0.28% | identificar el país del visitante con php | |
2 | 0.28% | licencia | |
2 | 0.28% | localización geográfica | |
2 | 0.28% | municipalidad de punta del este | |
2 | 0.28% | para que sirve webalizer | |
2 | 0.28% | php obtener datos ip visitante | |
2 | 0.28% | que es licencia fdl | |
2 | 0.28% | que es secuestro | |
… | … | … | |
1 | 0.14% | raw visitas | |
1 | 0.14% | related:www.juntamaldonado.gub.uy/comisiones.htm | |
1 | 0.14% | saber cómo dns | |
1 | 0.14% | secuestro de la pagina de inicio | |
1 | 0.14% | secuestro pagina de inicio | |
1 | 0.14% | servidores gratis | |
1 | 0.14% | sistema operativo linux | |
1 | 0.14% | sistemas basados localización | |
1 | 0.14% | todo sobre contadores | |
1 | 0.14% | todo tipo de información sobre el secuestro | |
1 | 0.14% | whois | |
… | … | … |
TABLA 3: fragmento de reporte de cadenas de búsqueda
Cantidad y peso de las cadenas
En la tabla anterior se puede apreciar el siguiente fenómeno: al comienzo de la lista se pueden encontrar las cadenas mediante las cuales hemos sido más encontrados. En este caso de estudio aparecen otras muchas cadenas mediante las cuales se hahallado el sitio pero en pocas ocasiones (1 o 2 veces).
CANTIDAD es el número de cadenas diferentes mediante las cuales hemos sido hallados.
PESO es la cantidad de veces que ha sido utilizada una cadena específica.
Este tipo de reporte del ejemplo es el típico de aquellos sitios web que poseen mucho contenido escrito: los buscadores han encontrado infinidad de palabras y expresiones que incorporan en los resultados de las búsquedas más inimaginables. Consideremos por ejemplo la cadena "todo tipo de informacion sobre el secuestro". Pero efectivamente, si buscamos "todo tipo de informacion sobre el secuestro" en Google, aparece una página de estadísticasweb.com entre los resultados (en un artículo que trata sobre el secuestro de logs de referidos).
Consideraciones sobre la cantidad de cadenas
La cantidad de cadenas de búsqueda tiende a ser proporcional a la cantidad de contenido escrito (original) publicado en la web. Una web pequeña (una página de venta de un producto específico, por ejemplo) dará también una cantidad pequeña de cadenas de búsqueda.
Consideraciones sobre el peso de las cadenas
Las cadenas de gran peso (aquellas que son indiscutiblemente las más usadas por las personas que encuentran nuestro sitio en los resultados de buscadores) son de gran importancia para el flujo de visitas al sitio web. El webmaster debe prestarles atención, y debe realizar el máximo esfuerzo para optimizar la posición en los buscadores en las búsquedas que empean estas cadenas.
Factor cantidad-peso (o ¿cuánto dependemos de nuestras cadenas de busqueda?)
He analizado sitios web que apuestan al máximo a un pequeño conjunto de cadenas de gran peso. En las estadísticas de estos sitios web se encuentran pocas cadenas, pero con un peso importante.
Por otro lado, he conocido sitios web que muestran una enorme cantidad de cadenas de búsqueda diferentes, pero ninguna de ellas con un peso significante. Este es el perfil de los sitios web con mucho contenido escrito.
Estos dos modelos son aplicables en diferentes tipos de páginas web. Si se trata de una página web de venta de relojes, es natural que debamos optimizar el sitio para cadenas como "reloj", "Citizen", "Rolex", etc. En este caso el webmaster debe hacer un importante esfuerzo por posicionar el sitio en los buscadores para estas cadenas. Pero en el segundo caso (donde la cantidad es más importante que el peso: por ejemplo en un sitio de información, o un foro), el webmaster no debe preocuparse por optimizar ninguna página pensando en los buscadores. Simplemente agregando más y más contenido verá cómo aparecen más y más cadenas de búsqueda en sus reportes estadísticos.
Según el tipo de sitio web que estemos manejando (y los resultados que deseemos obtener) aplicaremos la estrategia "peso" o la estrategia "cantidad" en nuestras optimizaciones.
Optimización de cadenas potencialmente importantes
Dentro de las cadenas de búsqueda más utilizadas, podemos ver en el ejemplo (Tabla 3) que se halla la cadena "estadisticas software". Esto significa que están llegando visitantes que buscaron "estadisticas software" y de alguna forma, y en algún buscador nos hallaron. Sin embargo, si buscamos en google "estadisticas software", el sitio estadisticasweb.com ¡aparece en la posición 396! (NOTA: esto es así al momento de escribir este artículo, y sin duda no se mantendrá en esta situación por mucho tiempo). En otros buscadores -usando esta misma cadena de búsqueda- ha aparecido en posiciones igualmente desastrosas. ¡Y sin embargo es pocos días 25 personas se tomaron el trabajo de recorrer cientos de resultados hasta encontrar este sitio web!
Aquí hemos encontrado una veta a explotar: este análisis indica claramente que si optimizamos nuestras páginas, o si conseguimos más links con las parabras "estadisticas software" estaremos invirtiendo nuestro esfuerzo en una acción con resultados garantzados (hay gente real usando esta cadena de búsqueda y encontrándonos, a pesar de aparecer en posiciones alejadas).
Inconvenientes en el análisis de cadenas
La inmensa mayoría de los programas de estadísticas web que son capaces de reportarnos las cadenas de búsqueda con que hemos sido hallados, son a su vez incapaces de reportarnos en qué buscadores nos han hallado (y cuantas veces) mediante una cadena determinada. Volviendo al listado del ejemplo: hasta ahora no he podido darme cuenta en qué buscador he sido encontrado por un cliente que buscaba "saber cómo dns". Otro inconveniente asociado a las cadenas de búsqueda es la su vulnerabilidad para ser objeto de secuestro de log, con una variante del ataque a logs de referidos que se explica en mi artículo "Una nueva modalidad de spam: secuestro del log de referidos".
El conocimiento de las cadenas de texto con que nos encuentran los usuarios que hacen uso de los buscadores, la cantidad de cadenas diferentes, la importancia de algunas cadenas en particular, etc. constituye la herramienta de análisis más potente para la actividad SEO (Search Engine Optimization) u optimización del posicionamiento en buscadores.
En el lenguaje SEO, a lo que nosotros llamamos "cadenas" le llaman "keywords" o "key-phrases".
Es parte de la interacción natural entre disciplinas de orientación diferente pero que persiguen un mismo fin: el éxito de nuestro sitio web.
Ing. Eduardo González González (*)
(*) Consultor en Sistemas de Seguridad