Recuperación de información en entornos Grid

Enviado por omarh

Resumen

Las grandes cantidades de información, que se crean y se manejan actualmente, han hecho que su almacenamiento y recuperación se un problema que esta en constante investigación bajo el nombre de Recuperación de Información (Information Retrieval). El Grid Computing, tecnología que simula un supercomputador a partir de muchos pequeños ordenadores, en cuanto, sobre todo, a las capacidades de almacenamiento y procesamiento.

El presente trabajo pretende mostrar como la Recuperación de Información se puede apoyar en el Grid Computing para proveer de nuevas técnicas y potencialidades para gestionar de manera óptima la información.

Palabras Claves

Recuperación de Información, Grid Computing, GridIR, Grace.

INTRODUCCIÓN
La aparición de la Internet a producido cambios profundos en la actividad humana, a tal punto que en la actualidad se denomina la era de la información, por la importancia que tiene ésta en el que hacer de las personas y organizaciones.
La creación de la World Wide Web en 1989 por Tim Berners-Lee, junto con otras tecnologías asociadas, trajo consigo la producción de información a gran escala. Ahora el problema se encuentra en el almacenamiento y recuperación de la información, pues ésta, a parte de lo basta que es, se encuentra en formatos de muy diferentes características.
Una solución a esto fue la aparición de los buscadores, que sin duda son de gran ayuda para encontrar alguna información requerida por el usuario, pero no es muy precisa, pues la búsqueda se realiza, principalmente, en base a la localización de palabras claves, y no diferencian, por ejemplo, entre páginas personales, académicas, comerciales, etc. Recuperando, en gran porcentaje, información que no es útil por que no corresponde a lo que estamos buscando. Todo esto es debido principalmente a que los buscadores actuales no están diseñados para "comprender".
Actualmente se esta planteando el uso de la denominada Web Semántica o de conocimiento, que permita, de manera automática o semiautomática, que los datos puedan ser utilizados y comprendidos por los agentes web, sin necesidad de la intervención humana. En resumen de lo que se trata de convertir la información en conocimiento, referenciando datos a metadatos consensuados a algún dominio.
Para que todo esto sea posible se necesita que la información sea legible a los ordenadores, esté consensuada y sea reutilizable. El estudio de las ontologías proporcionan los medios para representar de esta manera el conocimiento.
El Grid Computing, surge como una evolución de los Clusters, ambos con la intención de aprovechar las actuales capacidades de los ordenadores en su conjunto para permitir simular un gran supercomputador y así poder disponer de una alta capacidad de cálculo y almacenamiento, la diferencia esencial se encuentra en la distribución local en el caso de los Clusters y una distribución geográfica en el caso de los Grid Computing.
El presente trabajo lo que intenta mostrar es el beneficio que se puede conseguir para el Information Retrieval cuando lo unimos a las bondades del Grid Computing, y también un panorama de la investigación, que en la actualidad, se realiza con respecto a esta combinación de tecnologías.
Para lograr tal propósito veremos una visón general de que es Recuperación de Información, Grid Computing y las investigaciones de algunas organizaciones que actualmente están abocadas a este tema.
RECUPERACIÓN DE LA INFORMACIÓN (Information Retrieval – IR)

Debido a la basta información que se crea y maneja en la actualidad, en gran medida, gracias a la aparición de Internet asociada a otras tecnologías, aparece en nuestro entorno esta nueva parte de la Informática que se encarga de la recuperación de la información útil para los usuarios. Existen muchas definiciones al respecto, de las cuales citamos las más relevantes:

Baeza – Yates (1999): Parte de la informática que estudia la recuperación de la información (no datos) de una colección de documentos escritos. Los documentos recuperados pueden satisfacer una necesidad de información de un usuario expresada normalmente en lenguaje natural.
Korfhage (1997): La localización y presentación a un usuario de información relevante a una necesidad de información expresada como una pregunta.
Salton (1989): Un sistema de recuperación de información procesa archivos de registros y peticiones de información, e identifica y recupera de los archivos ciertos registros en respuesta a las peticiones de información.

De éstas podemos resumir que "Es el arte y/o ciencia que se encarga de la búsqueda y presentación de información relevante, de grandes colecciones de documentos, a un usuario que hace una petición normalmente en lenguaje natural".

Características

Esta información debería satisfacer las necesidades de información del usuario.
La información buscada puede estar almacenada en formatos de muy diferentes características.
Es un estudio multidisciplinario: La lingüística (Ciencia que se encarga del estudio del lenguaje), La semiótica (Teoría general de los signos), La informática (Ciencia del tratamiento lógico y automático de la información), La biblioteconomía (Conjunto de conocimientos teóricos y técnicos relativos a la conservación, organización y administración de las bibliotecas), Ingeniería de Información (Conjunto de técnicas para tratar de representar la información de manera concreta), etc.

Facetas de búsqueda

Búsqueda de contenidos multimedia.- Búsqueda de archivos de vídeo, audio, imágenes u otros formatos cualesquiera a partir de la localización de expresiones que pudieran estar en campos de texto o en los enlaces al archivo.
Buscador difuso o borroso.- Localiza documentos o registros en bases de datos similares a la expresión de consulta.
Buscador semántico.- Expande las consultas usando sinónimos de las palabras empleadas para expresar una búsqueda.
Buscador multilingüe.- Permite expresar la búsqueda en un idioma y localizar todos los documentos relevantes en cualquier idioma.
Sistemas de autorespuestas.- Tratan de localizar, no un documento, sino el párrafo concreto que responde a una consulta realizada por un usuario.

Búsqueda en Internet

Los actuales buscadores de Internet utilizan dos formas básicas para almacenar y recuperar información:

Los directorios: Los cuales agrupan la información en una estructura temática y jerárquica relacionada, y la búsqueda se realiza recorriendo la estructura de un rubro al subrubro hasta encontrar lo que buscamos.
Los motores: Los cuales utilizan programas que revisan páginas, analizando sus cambios para enviarlos a un recolector en donde se indexan de alguna manera específica para su posterior recuperación.

Extraen determinadas palabras de un documento (depende del motor: Título, URL, Keywords, metadatos, etc. o un filtrado específico). Generando temas (grupo de palabras clave) específicos de cada documento.

Estos temas son asociados a una lista de palabras en una tabla inversa o fichero inverso, y para realizar una búsqueda se recorren las páginas ya indexadas, buscando la (s) palabra (s) de la consulta para devolver las páginas correspondientes en un orden que depende del algoritmo del buscador.

El proceso de búsqueda mediante directorios esta quedando desfasado debido a que la actividad de clasificación de la información en temas jerárquicos no es automatizado, en cambio los motores están predominando ante esto, pues sus programas a través de los distintos modelos de indización y recuperación (Modelo Booleano, Vectorial y Probabilística) [2], permiten una mejor recuperación. Pero aun estás búsquedas no son óptimas pues se realizan en base a la comparación de las palabras de las consultas en los documentos, lo cual hace generar muchos resultados no relevantes para el usuario (Ruido) y en otro caso si el modelo de recuperación es muy restrictivo, generará que mucha información que si es relevante no aparezca en los resultados mostrados (Silencio).

La WEB Semántica

La Web Semántica aparece como solución para hacer más eficientes las búsquedas, la cual consiste en que los datos de los usuarios puedan ser "comprendidos" y utilizados por los ordenadores sin necesidad de la supervisión humana.

Para que esto sea posible, la Web Semántica se apoya en las ontologías. La definición de ontologías más aceptada es la propuesta por Gruber [1]: "una especificación explícita y formal sobre una conceptualización compartida".

Constituyen el conocimiento en Internet, pues definen formalmente los conceptos de los diferentes dominios y sus relaciones, con capacidad para realizar deducciones con este conocimiento. Las ontologías están compuestas por:

Conceptos.- Ideas básicas a formalizar.
Relaciones.- interacciones y enlaces entre los conceptos del dominio.
Funciones.- Tipo concreto de relación donde se identifica un elemento mediante el cálculo de una función que considera varios elementos de la ontología.
Instancias.- Se usa para representar objetos determinados de un concepto.
Axiomas.- Son teoremas que se declaran sobre relaciones que deben cumplir los elementos de la ontología.

Tendencia actual de la investigación

Presentamos algunas tendencias actuales de investigación acerca de la Recuperación de Información:

Gestión del conocimiento.- La nueva economía se basa principalmente en que el factor central en el proceso de creación de riqueza pasa a ser "el conocimiento" y los demás activos intangibles (contactos, creatividad, innovación, posicionamiento, etc.) mucho más que el capital, los bienes de capital u otros activos físicos. Por ejemplo el como saber que conocimiento se tiene y se quiere en el personal de la organización, nos proporciona un proceso generador de ventajas competitivas.
Vigilancia tecnológica.- Conjunto de acciones coordinadas de búsqueda, tratamiento (filtrado, clasificación, análisis) y distribución de información obtenida de modo legal, útil para distintas personas de una organización en su proceso de toma de decisiones y para alimentar su reflexión estratégica (Prever, disminuir riesgos, mejorar, innovar, colaborar).
Inteligencia tecnológica. Similar a la gestión del conocimiento, lo único aplicado a gestionar el conocimiento tecnológico de la organización. Por ejemplo: ¿Qué se necesita?¿En dónde?¿Cuánto?¿Qué tiempo?

GRID COMPUTING

Desde que los ordenadores fueron conectados en red, la idea del Grid Computing ha estado latente, y no había progresado debido principalmente a la gran variedad técnica de la industria informática: múltiples sistemas operativos, arquitecturas de procesadores, lenguajes de programación, protocolos de red, etc.

Pero debido a la perseverancia de sus seguidores, la omnipresencia de Internet y la casi ubicuidad de Windows, es que esta tecnología esta haciéndose realidad.

El Grid Computing, es la tecnología que consta de una infraestructura que permite el acceso y procesamiento concurrente de un programa, entre varias entidades computacionales independientes, que actúan como un único gran sistema. Se usa normalmente para programas que requieren procesos de gran escala y/o acceso a mucha cantidad de datos.

Entre las características principales que distinguen al Grid Computing podemos citar las siguientes:

Permite integrar sistemas y dispositivos heterogéneos, pues permiten que recursos diferentes puedan interactuar entre sí.
Mejora del coste efectivo de los entornos operativos, pues permite aprovechar al máximo los recursos disponibles en una red, y de esta manera a su vez mejora la capacidad de los recursos para responder a las fluctuaciones de la demanda.
Las tecnologías grid son flexibles, pues son capaces de ajustarse dinámicamente a los entornos cambiantes y fluctuantes de las tecnologías de la información.
Aumenta la fiabilidad de la infraestructura Sacando ventaja de los recursos del grid como una alternativa ante la recuperación de los desastres tradicionales.

Los objetivos que persigue el Grid Computing para una empresa u organización los citamos a continuación:

Mejorar los tiempos para la producción: Pues permite incrementar la productividad y colaboración; y de esta manera las organizaciones mejoran sus tiempos de resultados y por lo tanto rapidez en el tiempo de lanzamiento al mercado, que en última instancia constituye una ventaja competitiva.
Permitir la colaboración y promover flexibilidad operacional: Pues no solo unirá recursos tecnológicos dispares, sino también gente y aptitudes; permitiendo de esta manera la posibilidad de compartir, acceder y gestionar información, mejorando la colaboración entre unidades empresariales.
Escalar para satisfacer demandas variables del negocio: Permite crear infraestructuras operativas flexibles y resistentes, que faciliten abordar rápidas fluctuaciones en la demanda, accediendo instantáneamente a recursos de computación y datos para "sentir y responder" a las necesidades de negocio.
Incrementen la productividad: Dando a los usuarios finales acceso a los recursos de computación, datos y almacenamiento que necesiten y cuando los necesiten, ayudando a las empresas a equipar mejor a sus empleados para efectuar sus tareas, resolver problemas comerciales complejos con facilidad y moverse entre etapas del diseño de productos, proyectos de investigación y más, todo más rápidamente.
Aprovechar inversiones de capital existentes: Maximizar la utilización eficiente y productiva de los recursos existentes es una de las claves para reducir costos operativos. Además, las empresas pueden aprovechar los recursos grid para entregar escenarios de back up y recuperación efectivos y de bajo costo, sin necesidad de invertir para duplicar sistemas.

Los organismos claves de investigación que actualmente están abocados en Grid Computing son los siguientes:

The Globos Alliance [10]
The Global Grid Forum [11]

La rama de la informática, que presentamos al inicio: "la recuperación de información" tiene su razón de ser ante la gestión (almacenamiento y recuperación) de las grandes cantidades de información que se manejan en la actualidad, y por la cual cada día se investigan mejores prácticas para hacer que labor sea eficiente.
El Grid Computing, a pesar de ser una idea que tiene ya algunos años de aparición, esta tomando relevancia en estos tiempos, y cuya principal característica es el almacenamiento y procesamiento de información a gran escala.
Por consiguiente, la tecnología de Grid Computing, puede ser muy provechosa para potenciar la Recuperación de Información, de hecho ya existen muchas investigaciones abocadas a la gestión de la información en entornos Grid. A continuación citaremos algunos proyectos al respecto.
1. Proyecto GridIR
RECUPERACIÓN DE LA INFORMACIÓN EN ENTORNOS GRID

Grid Information Retrieval, es una nueva iniciativa para juntar las tecnologías de Recuperación de Información y Grid Computing, lo cual ofrecerá nuevas técnicas y potencialidades a los sistemas de recuperación de la información.

Permitirá una similar operatividad que en la computación distribuida pero con mayor detalle de implementación para tareas de asignación y coordinación entre los elementos en el grid.

También posee un modelo de seguridad para todos sus niveles de la infraestructura Grid.

El GridIR describe un modelo de interacción entre la recuperación de Información y el entorno Grid el cual esta basado en la plataforma de la OSGA (Open Grid Services Architecture) cuyos servicios soportan a los modelos tradicionales de la Recuperación de Información. Estos servicios ofrecen muchas ventajas entre ellos:

La oportunidad de mejorar la operatividad de las redes de trabajo de las base de datos federadas obteniendo una óptima performance.
El uso de "divide y vencerás" para permitir la conexión de las necesidades de información a documentos, por medio de colecciones de documentos, índices y componentes de consultas complejas, las cuales todas existen en los servicios de GridIR.
El modelo de seguridad de GridIR permitirá "publicar" niveles de colecciones de documentos por el Grid pero con listas de control de acceso, que podrían limitar quienes pueden consultar o a quienes se les mostrará los resultados, así como también.
Ejecutar eventos de reindexación vía modelos push or pull.

La arquitectura de GridIR es aun un trabajo en progreso y promete ser una nueva propuesta para el Global Grid Forum (todo basado en los servicios de Grid de OSGA) y satisfacer la distribución y sincronización de requisitos. GridIR se desglosa en los siguientes servicios básicos:

Servicios de metadatos.- Incluye una facilidad explicativa de metadatos para permitir la interacción entre los servicios de GridIR y los datos.
Servicios de administración de colecciones.- Permite el control de colecciones, harvesting (recolector), actualizaciones incluyendo la habilidad para contenidos push and pull basados en eventos de colecciones. Estos servicios ofrecen estandarizados APIs para servicios similares a web crawlers, spiders and harvester y así poder evitar atascos y dar mayor eficiencia.
Servicios de Indexación y búsqueda.- Permite construir índices, incluir actualizaciones de colecciones de documentos. También son responsables de procesamiento de consultas y procesamiento de resultados.
Servicios de procesamiento de consultas.- Adicionan funcionalidad para búsquedas distribuidas, eventos asíncronos (incluyen filtros y tópicos de detección), unen resultados, etc.

El GridIR ofrecerá nuevas técnicas y potencialidades para los sistemas de Recuperación de Información, nuevos caminos para la manipulación y recuperación de la información. El futuro que proyecta GridIR es que todas las personas tengan sus propios sistemas de recuperación de Información, donde puedan afinar sus actuales necesidades de información, preferencias e intereses. Esto es factible de implementar con elementos de Grid, que permiten el conocimiento de la historia de un usuario y sus necesidades mediante colecciones de datos federadas.

Proyecto Grace

Este proyecto está basado en el principio que para mejorar un sistema de administración de contenido, no debería cambiar o extender innecesariamente los recursos existentes de los clientes, más bien permitir al cliente maximizar sus usos. Esto se logra principalmente por la integración de las fuentes de contenidos existentes y el uso de la tecnología Grid.

Con el proyecto Grace, las organizaciones pueden progresivamente integrar variadas y múltiples fuentes de contenidos internas, y conseguir un solo punto de acceso a todos ellos en paralelo.

Además Grace permite, a las organizaciones, integrar sus fuentes de contenidos internos con adicionales recursos externos, tales como: repositorios de base de documentos WEB, base de datos y artefactos de búsqueda.

Introduce una innovadora propuesta para la integración de múltiples fuentes de contenidos: Sistemáticamente recupera información relevante de esos documentos, aplicando muy poderosos métodos de procesamiento de lenguaje natural, en orden a la reindexación de ellos dentro de un dominio de conocimiento. El dominio de conocimiento no solo es la visualización de relevantes fuentes de contenido múltiple, sino también incorpora el esencial encapsulamiento semántico de ontologías relacionadas.

Grace, sistemáticamente recoge las fuentes relevantes de contenidos, ofrece una constante actualización del dominio del conocimiento con una nueva y relevante información. Estas actualizaciones son automáticas y disponibles de inmediato en el dominio del conocimiento.

Information Representation on the Grid: a Synthetic Database Benchmark/Workload for Grid Information Servers.

El Grid se proyecta como un paradigma de la computación distribuida de grandes prestaciones. La administración de los recursos de información es complicada debido a que sus componentes (Recursos grid, host, clusters, personas, librerias, paquetes de software y servicios) tienen altos índices de cambios.

Este grupo de investigadores del Departamento de Ciencias de la Computación de la Universidad de Indiana realiza el proyecto de un sintético Benchmark/workload de base de datos para Servidores de Información Grid. El Benchmark/workload es un conjunto de consultas y escenarios desarrollados de un modelo de datos de una plataforma neutral de recursos grid. Todo esto con las siguientes finalidades:

Comprensión de los recursos de representación y recuperación de información en el Grid Computing.
La aplicación de pruebas del Benchmark de Base de Datos a tres plataformas de base de datos muy heterogéneas: MySQL 4.0 (RDBMS), Xindice 1.1 (XML database) y MDS2 (LDAP database).
Metricas de performance para pruebas de aspectos tangibles e intangibles de recuperación de información: Tiempo de respuesta, facilidad de uso, etc

El proceso de pruebas que se sigue para lograr los objetivos es el siguiente:

Consultas y actualizaciones, las cuales están agrupadas en cinco categorias: Alcance, Índices, Selectividad, enlaces y Actualización/conexión.
Escenarios especificados por temas y cantidad de trabajo, bajo tiempos de duración controlados, para concurrentes consultas y actualizaciones.
Facilidad de uso: Medida intangible, usa métricas de la relación de la cantidad de Bytes/consultas hechas con parámetros diferentes dependiendo de la plataforma usada.

En concreto el grupo de investigación apunta a perfeccionar un modelo de análisis de performance y volúmenes de trabajo para Servidores de Información Grid.

El presente trabajo muestra que los sistemas de recuperación de información adquirirán nuevas técnicas y potencialidades al trabajar bajo entornos Grid Computing, que le permitirá manejar de manera eficiente información en formatos tanto estructurados como no estructurados (documentos texto en lenguaje natural) que actualmente constituyen una ardua tarea computacional, distribuir de manera conveniente los recursos de información y así lograr una colaboración efectiva entre los componentes de un sistema. Los sistemas de recuperación de información no podrían lograr la eficiencia esperada, sobre todo en el campo del procesamiento del lenguaje natural, sin el apoyo del Grid Computing.
Hemos podido constatar que la combinación de tecnologías específicas para lograr potenciar las mimas, podría representar temas de investigación muy interesantes, promisorios y novedosos para futuras investigaciones.
CONCLUSIONES
BIBLIOGRAFÍA

R. Baeza-Yates, B. Ribeiro-Neto. Modern Information Retrieval, Addison-Wesley, 1999.
Grupo Alarcos, Universidad de Castilla-La Mancha. Almacenamiento y recuperación de información: http://alarcos.inf-cr.uclm.es/doc/ARI/ari.htm
Information Retrieval Group, University of Glasgow. Information Retrieval: http://www.dcs.gla.ac.uk/Keith/Preface.html
Portal de Daedalus. Recuperación de Información: http://www.daedalus.es/AreasILRecInfo-E.php
Portal de Wanadoo. Indización y Recuperación de la información: http://pdf.rincondelvago.com/indizacion-y-recuperacion-de-informacion.html
Portal de Geocities. Recuperación de Información, Ontologías: http://es.geocities.com/recupdeinformacion_ontologias/sobreontolgias.htm
Electronic Content Management Skills. Organización, filtración y representación de la información: http://mpinto.ugr.es/e-coms/or_con_elect.htm#or2
Adolfo Lozano Tello. Ontologías en la Web Semántica. Departamento de Informática de la Universidad de Extremadura, España.
Grid. Org. Grid Computing: http://www.grid.org/home.htm
The Globus Alliance: www.globus.org
The Global Grid Forum: www.ggf.org
IBM. Grid Computing: http://www-306.ibm.com/e-business/la/evolving/ondemand/technology/grid
Planet.com. Grid Computing: http://www.gridcomputingplanet.com/features/article.php/3394371
Grupo Alarcos, Universidad de Castilla-La Mancha. Base de Datos Federadas: http://alarcos.inf-cr.uclm.es/doc/bbddavanzadas/federadas.pdf
GridIR.Org. Proyecto GridIR: http://www.gridir.org/overview_gridir.html
GridIR Arquitecture Tutorial: www.gir-wg.org/papers/tutorial.pdf
Grace. GRid seArch & Categorization Engine: http://www.grace-ist.org/
Grace. Proyecto Grace: http://www.grace-ist.org/docs/GGF-Lessons%20learned.pdf
Beth Plale, Craig Jacobs, Ying Liu, Charlie Moad, Rupali Parab, Prajakta Vaidya and Nithya Vijayakumar. Information Representation on the Grid: a Synthetic Database Benchmark/Workload for Grid Information Servers. Computer Science Department, Indiana University, Bloomington, IN.

Omar Hurtado Jara

Sistemas Distribuidos

Doctorado en Ingeniería Informática

Departamento de Informática Universidad Carlos III de Madrid Avda. de la universidad, 30 28911 Leganés–Madrid. España