Descargar

Los motores de búsqueda (página 2)

Enviado por Pablo Turmero


Partes: 1, 2
edu.red

13 Diseño e implementación Rastrea las páginas de la fundación Abat Oliba.

Analiza en un proceso completo y sólo cuando alguien decide ejecutarlo.

Está formado por dos clases: DatosURL y Rastreador. Rastreador

edu.red

14 Diseño e implementación Es la clase que contiene el cuerpo principal del programa y, por lo tanto, será la que se ejecutará.

La primera URL que rastrea (y es la única establecida antes de ejecutar el programa) es http://www.uao.es.

Se basa en una sentencia iterativa y, por lo tanto, se ejecutará siempre y cuando tenga en espera más páginas por rastrear. Clase Rastreador: Rastreador

edu.red

15 Diseño e implementación El proceso que sigue al analizar una Web es el siguiente: Verificará que la URL que está analizando no está en la base de datos para añadirla si no lo está. Si la URL es incorrecta, tendrá métodos para controlar el error. Analiza la página. Aquí, existirán dos procesos: el de extracción de palabras y el de análisis de hipervínculos hacia otras páginas. Una vez analizada la página, con las palabras contadas y los vínculos extraídos, actualizará la base de datos. Volverá a empezar de nuevo y analizará la página primera en la cola de por analizar. Clase Rastreador: Rastreador

edu.red

16 Diseño e implementación Es una clase que sirve para que el programador tenga una visión más precisa de los errores que puedan acaecer durante la tarea de rastreo. A modo de ejemplo, el encuentro inesperado con una URL mal formada (*http://www.uaoes) Clase DatosURL: Rastreador

edu.red

17 Diseño e implementación El algoritmo de búsqueda de Wibo ordena los resultados según el número de veces que aparece una de las palabras buscadas en cada página de la base de datos (siempre y cuando aparezca al menos una vez).

Permite buscar documentos conteniendo las palabras buscadas, con la posibilidad de introducir todas las que se quieran.

Se devolverán aquellos documentos que las contengan todas. Algoritmo de búsqueda

edu.red

18 Diseño e implementación Sigue los siguientes pasos: A partir de lo que recibe por parte del usuario, fragmenta el texto según los espacios en blanco para obtener las palabras. Cogerá de la base de datos las páginas que contengan la primera palabra en orden descendiente de apariciones. A partir de esta lista de páginas, la recorrerá comenzando de la primera URL hasta la última, y para cada palabra comprobará si aparece en la URL que se está analizando. Si no aparece, la eliminará de la lista. Presentará los resultados. Algoritmo de búsqueda

edu.red

19 Diseño e implementación Programada en HTML y JSP.

Simple … Interfaz

edu.red

20 Resultados 694 páginas analizadas.

17.155 palabras encontradas.

272.727 relaciones palabras-url.

Tiempo de ejecución del rastreador: 3.4 horas con una media de 18s por página.

edu.red

21 Mejoras Aplicar el protocolo de robots.txt.

Hacerlo a escala de red de redes.

No almacenar los metatags de las páginas.

Mejorar la base de datos.

Optimizar al conjunto.

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente