Agenda
Introducción. Objetivo del Proyecto. Algoritmo Implementación Presentación de la Aplicación Conclusiones.
1
Introducción Definición Web Crawlers Es un programa que recorre las páginas del World Wide Web de forma metódica y automatizada, las descarga y procesa, comienzan visitando una lista de URL, identifican los hiperenlaces en dichas páginas y los añade a la lista a visitar de manera recurrente de acuerdo a determinado conjunto de reglas. 2
Introducción Entre ellos estan las arañas, bots, buscadores, web Crawlers. Algunas de las tareas más comunes de las arañas web están las siguientes: Crear el índice de una máquina de búsqueda. Analizar los enlaces de un sitio para buscar links rotos. Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo.
3
Introducción Los tipos de busqueda determinados para trabajar con las arañas web son:
Índices de Búsqueda Motores de Búsqueda Metabuscadores 4
Objetivo General del Proyecto Analizar, Desarrollar e Implementar el Sistema Automatizado de Búsqueda Web (Web Crawlers) de promociones de Ticket Aéreos y Portal Web para la Agencia de Viajes y Turismo Mundo Valle Cía. Ltda., mediante la utilización de software libre.
5
Objetivos Específicos Investigar los principios en los que se basan los algoritmos de búsqueda de datos a través de grandes cantidades de información y seleccionar el más óptimo de ellos para este sistema. Analizar la administración y funcionamiento de la Agencia. Desarrollar el portal web de la agencia y el pago en línea Implementar y realizar las pruebas necesarias del sistema para detectar problemas de rendimiento.
6
Conceptos Generales del Proyecto 7
Programa, que permite encontrar contenidos, archivos, páginas Web y demás recursos. Desde el punto de vista del usuario no es más que una página Web, desde el punto de vista de una página Web. 8 BUSCADOR
SECUENCIA BÁSICA DE UN BUSCADOR
Pseudo-Algoritmo Inicializar las URLs Verificar la finalización, agregar a la pila Encontrar los enlaces Procesar las páginas Agregar las URLs a ser procesadas
** la pila contiene una lista para el web crawler de URLs no visitadas con nuevas páginas y enlaces. 10
BÚSQUEDA DE INFORMACIÓN
BÚSQUEDA DE INFORMACIÓN
Página siguiente |