Recuperación de Información en Internet

Partes: 1, 2

Introducción

Internet es un medio creciente de diseminación de información que combina muchas de las tareas tradicionales realizadas en bibliotecas y archivos, sin embargo su arquitectura es diferente a la de las unidades de información; la recuperación de la información es una parte mínima de los servicios que ofrece Internet.

En el marco del curso Análisis y Recuperación de la Información, elaboramos el siguiente trabajo monográfico, con el objetivo de conocer el desenvolvimiento de la Recuperación de la Información en el mundo de la Web.

El primer capítulo, abarcamos los conceptos básicos acerca de la Recuperación de Información, es decir, acerca de lo que significa el término "Recuperar Información" y las herramientas con las cuales podemos acceder a Recuperar la Información.

En el segundo capítulo, se desarrollan los modelos y sistemas de Recuperación de la Información en Internet. Así como las técnicas y métodos de recuperar los diferentes tipos de información que se encuentra en ésta Red.

El tercer capítulo, es sobre la evaluación de los sistemas de recuperación existentes en Internet, se mencionará y explicarán las medidas, parámetros en relación al sistema en sí y al usuario, para conocer los niveles de eficacia y eficiencia del sistema, así como la satisfacción del usuario.

CAPITULO I:

Aspectos generales

1. ASPECTOS GENERALES DE LA RECUPERACIÓN DE LA INFORMACIÓN1.1 CONCEPTO DE RECUPERACIÓN DE LA INFORMACIÓN

La recuperación de información es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc.

La Recuperación de la Información, tiene por objeto: identificar, localizar, seleccionar y acceder a los recursos de información útiles al usuario.

1.2 PROCESO DE RECUPERACIÓN DE LA INFORMACIÓN

Entre las actividades que se realizan para llevar a cabo el proceso de RI están: definir las necesidades de búsqueda, seleccionar las herramientas de búsqueda, definir una estrategia de búsqueda y evaluar los resultados para que así, en caso no se obtuviese información relevante, se proceda a redefinir la estrategia de búsqueda.

Hablaremos de los dos primeros pasos de este proceso, los dos restantes se detallaran mas adelante.

Definir necesidades de información:

Finalidad de la búsqueda: definir los objetivos y la utilización de la búsqueda, es decir, es para obtener bibliografía para publicar un artículo, para una tesis, para un proyecto de investigación, etc.
Idioma: interesan todos los idiomas o solamente los más conocidos o los más disponibles.
Nivel científico: artículos de investigación, de divulgación o ambos.
Tipos de documentos deseados: artículos, libros, literatura gris, etc., y dentro de ellos algunos en concreto
Período de tiempo cubierto: solamente lo más reciente (en general, los cinco últimos años) o un período más amplio.
Número de referencias que se desean: especificar cuantas referencias desean recuperar.
Necesidad de precisión o exhaustividad. La búsqueda exhaustiva es la que pretende obtener todos los documentos existentes sobre el tema. Ello trae como consecuencia la obtención de abundante información no relevante. La búsqueda precisa es la que no obtiene todos los documentos existentes sobre el tema de búsqueda pero todos los registros recuperados son adecuados.

Seleccionar herramientas de búsqueda:

Cobertura temática: medicina, ciencias básicas, ciencias de la salud, etc.
Cobertura geográfica: nacional, internacional, latinoamericana, anglosajona, etc.
Idioma que utiliza
Cobertura retrospectiva: nº de años que abarca.
Existencia o no de vocabulario controlado
Disponibilidad de tesauro, listado de palabras clave.
Coste de la búsqueda
Conocimiento del programa de interrogación
Posibilidad de acceder al documento primario: acceso libre, envío por e-mail o no permite acceso al documento.
Disponibilidad y accesibilidad de las bases de datos: en CD-ROM, conexión de Internet a un servidor predeterminado o en la red.
Datos que proporcionan los registros bibliográficos.
Prestigio del productor.

Proceso de recuperación de información

edu.red

Herramientas para la búsqueda de información

Bases de Datos

Una base de datos puede definirse como un conjunto de información homogénea que mantiene una estructura ordenada y que toda ella se encuentra relacionada

Internet

Es una red de cómputo a nivel mundial que agrupa a distintos tipos de redes usando un mismo protocolo de comunicación. Los usuarios en Internet pueden compartir datos, recursos y servicios. Internet se apoya en el conjunto de protocolos TCP/IP De forma más específica, Internet es la WAN más grande que hay en el planeta, e incluye decenas de MAN's y miles de LAN's. Las computadoras que lo integran van desde modestos equipos personales, minicomputadoras, estaciones de trabajo, mainframes hasta supercomputadoras. Internet no tiene una autoridad central, es descentralizada. Cada red mantiene su independencia y se une cooperativamente al resto respetando una serie de normas de interconexión.El organismo que se encarga de regular, establecer estándares, administrar y hacer operacional a Internet es la ISOC (Internet Society).[1]

Lenguajes de indización y control terminológico

Índices

Listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son:

Índice de materias: términos ordenados según las materias que trata la base de datos, el buscador, etc.
Índice alfabético: listado de términos alfabéticamente
Índice KWIC: Tipo de índice permutado en el que el contenido temático de una obra se representa mediante palabras clave de su título o de otra fuente de información del documento.
Índice KWOC: Tipo de índice permutado que varía en su presentación respecto al índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o truncados, que contienen la palabra clave de que se trata.

Palabras clave (Keywords)

Término significativo en lenguaje natural que representa el contenido del documento. En la búsqueda de información esta opción es esencial ya que nos permite acotar y precisar información. El problema recae en definir la palabra exacta que representa el contenido, por ello es conveniente utilizar especificadotes.

Meta Keywords: La mayoría de los buscadores utilizan para localizar los recursos, las palabras clave de cada página Web. Por esta razón es esencial que cada pagina tenga una etiqueta donde se incluyan las palabras clave que la definen, también es importante la definición exacta de cada una de ella pues es a partir de estas los buscadores localizan o no un recurso.

Tesauros

Es un listado terminológico controlado sobre un área o ámbito de conocimiento que mantiene entre sí relaciones semánticas y genéricas. Su principal característica es que los términos están ordenados jerárquicamente, permitiendo la precisión terminológica en la búsqueda de información.

Componentes:

Descriptores admitidos o preferentes: son aquellos términos normalizados (donde han sufrido un proceso de expurgo denegando plurales, evitando sinónimos, etc.) que el tesauro los considera aptos para asignarlos a un documento y que posteriormente facilite la recuperación.
Descriptores no admitidos: son aquellos que aun estando normalizados no se consideran adecuado para utilizarlos (suelen ser sinónimos, términos no utilizados en el campo de actuación, etc.)

Relaciones:

Jerárquicas: indican cuando un término es más específico que otro.
Asociativas: Indican que los términos guardan alguna relación.
Sinónimos: Indican que dos términos son sinónimos y cual de ellos se utiliza como admitido.

Lenguajes de interrogación y ecuaciones de búsqueda

Se puede definir a un lenguaje de interrogación como un conjunto de órdenes, operadores y estructuras que, organizados según unas normas lógicas, permiten la consulta de fuentes y recursos de información electrónica. El resultado de la combinación de estos elementos, siguiendo las normas establecidas, es una expresión, a la que se identifica con el nombre "ecuación", capaz de interrogar el contenido de la fuente de información

Las normas lógicas que rigen un lenguaje de interrogación responden a cuestiones relacionadas con la coordinación de los elementos, es decir, con la formulación de ecuaciones. Estas normas (a modo de sintaxis) especificarán el orden de los elementos, la disposición de las estructuras, sus posibilidades combinatorias, las prioridades en la ejecución, y todo tipo de posibles funciones. Las órdenes serán aquellas palabras o abreviaturas que le indicarán al sistema las acciones a ejecutar (buscar la expresión, mostrar los documentos o registros resultantes, consultar el tesauro o los ficheros inversos, ejecutar un perfil de usuario…). Sin embargo, no todos los lenguajes de interrogación utilizan las mismas palabras como órdenes, aunque las órdenes ejecuten las mismas funciones. Existen intentos para homogeneizar la interrogación de las bases de datos, como el lenguaje CCL (Common Command Language) promovido por la Unión Europea, que aún no han alcanzado el objetivo para el que fueron desarrollados. A este panorama se une la proliferación de interfaces gráficos de usuario, que sustituyen a las órdenes y la sintaxis tradicional, dejando al usuario (si éste lo desea) sólo la labor de introducir los términos y los operadores que expresan las relaciones existentes entre ellos.

Operadores

En un lenguaje de interrogación, los operadores son los encargados de expresar las relaciones que mantienen entre sí los términos que pueden definir las necesidades informativas del usuario. A continuación presentamos la topología de estos operadores

Operadores lógicos (o booleanos)

Los operadores lógicos, llamados booleanos en honor a George Boole, precursor de la lógica simbólica y del álgebra de conjuntos, son los más utilizados en numerosos sistemas. El principio que rige la utilización de este tipo de operadores es que las relaciones entre conceptos pueden expresarse como relaciones entre conjuntos. Las ecuaciones de búsqueda pueden transformarse en ecuaciones matemáticas, que ejecutan operaciones sobre los conjuntos, lo que da como resultado otro conjunto. Los tres operadores básicos son el operador suma/unión (generalmente identificado como O/OR), el operador producto/intersección (identificado como Y/AND), y el operador resta/negación (identificado como NO/NOT). A su vez estos operadores pueden combinarse entre si, generando operaciones más complejas, como el O exclusivo (elimina la intersección), etc.

No deben obviarse los problemas que plantean los operadores booleanos, independientemente de su potencia. En primer lugar, siempre se plantean en términos de absoluto (presente/ausente), sin consideran el peso específico del término en el contexto. En segundo lugar, exigen un alto valor de precisión en los términos utilizados. Por último requieren claridad en la composición de las expresiones a buscar.

Operadores posicionales.

La utilización de operadores posicionales pretende superar algunas de las limitaciones que ofrecen los operadores booleanos. Toman como punto de partida la consideración del valor del término dentro del contexto, es decir, que la posición de ese término en relación con otros, o dentro del propio registro, es significativa para valorar su pertinencia a los objetivos buscados. Los operadores posicionales pueden dividirse en dos tipos:

Posicionales absolutos.

Son aquellos que permiten buscar un término en un lugar dado del documento o registro. Por regla general, son operadores de campo, es decir, permiten al usuario fijar en que campo o campos presentes en la estructura de base de datos debe aparecer el término buscado. La presencia del término en un campo dado (por ejemplo, en el campo título), puede ser una garantía de la adecuación del documento a los objetivos, en la mayor parte de las situaciones.

Posicionales relativos.

También llamados de proximidad, se trata de operadores que permiten establecer la posición de un término respecto a otro dado. Se considera que la cercanía entre los dos términos puede reflejar una íntima relación entre los conceptos reflejados por los mismos. Estos operadores permiten definir el nivel de proximidad entre los términos (mismo campo, línea, frase, número de términos significativos que los separa…)

Operadores de existencia

Indica cuando se requiere la presencia o ausencia de una palabra en los documentos recuperados (+, -)

Operadores de comparación

Especifican el rango de búsqueda, fijando unos límites para la misma. Estos límites pueden ser tanto numéricos como alfabéticos, correspondiendo los operadores a formas del tipo "mayor que", "menor o igual que". Se utilizan principalmente en documentos que pueden contener datos numéricos.

Operadores de truncamiento

Pueden darse situaciones en las cuales sea necesario utilizar no un término simple, sino también sus derivados, fijados por prefijación o sufijación, mínimas variantes léxicas, etc. Para facilitar la búsqueda de este tipo se han introducido operadores de truncamiento, a los que también se llama máscaras. Se trata de operadores (normalmente símbolos como *, $), cuya presencia puede sustituir a un carácter o a un conjunto de caracteres, situados a la izquierda, dentro o a la derecha del término en cuestión.

Tabla de operadores más comunes

edu.red

En los actuales sistemas de recuperación de información es posible encontrar todos estos tipos de operadores, que pueden combinarse entre sí, permitiendo crear ecuaciones complejas que reflejan con bastante precisión los conceptos y sus relaciones. La combinación de los operadores debe respetar un conjunto de reglas, básicas en todos los sistemas, que establecen las prioridades y formas de ejecución de ecuaciones complejas, cuando éstas combinan más de dos conceptos.

En primer lugar, los sistemas tienden a resolver, a ejecutar en primer lugar, aquellas expresiones que se relacionan utilizando el operador más restrictivo o prioritario. Por ejemplo, un operador posicional absoluto posee un nivel de restricción (una prioridad) mayor que un operador booleano, lo que significa que el sistema ejecutará antes la expresión cuyo operador es el posicional absoluto, combinando posteriormente el resultado con el operador booleano y su término relacionado.

Sin embargo, pueden darse expresiones en las cuales sea necesario variar estas prioridades, y ordenar al sistema que ejecute en primer lugar expresiones con operadores de menor nivel de restricción, relacionando luego su resultado con términos a través de operadores más restrictivos. Para estas situaciones, se utilizan paréntesis, los cuales engloban a las expresiones que deben ejecutarse en primer lugar, independientemente de las prioridades fijadas por el sistema. La utilización de expresiones entre paréntesis hace posible, por ejemplo, que el resultado de una expresión con un operador booleano pueda ser combinada con un operador posicional absoluto. Además, los paréntesis pueden anidarse, resolviéndose las ecuaciones planteadas desde dentro hacia fuera, de la misma forma que las igualdades y polinomios matemáticos.

CAPITULO II:

Recuperación de información en Internet

Internet es un conglomerado ingente de recursos. Se calculan billones de bytes de documentación en general y programas que se pueden recoger de la red. Siendo tan inconmensurable esta cantidad de información, es necesario disponer de medios eficaces para localizar lo que necesitamos y poder recuperar la misma.

Por razones históricas, la Internet se ha venido desarrollando de forma abierta y voluntaria, es decir cada quien, que lo desee, aporta información. Esta es la principal razón de su éxito: al no ser de nadie en particular, todo el mundo la considera un poco suya, y aporta su granito de arena. Pero al mismo tiempo es su debilidad; con todo el mundo aportando por su cuenta el orden es escaso, y la calidad no es homogénea. Esta situación resulta contraproducente en un desarrollo tecnológico de finales del siglo XX; pero en realidad es lo habitual en obras humanas tan ambicionas.

La Internet se parece mucho a una gran ciudad, donde las redes de comunicaciones proporcionan a modo de calles y accesos para llegar a los servicios que se ofrecen a los visitantes. Hay barrios interesantes y barrios peligrosos; hay tiendas de andar por casa, supermercados y tiendas de lujo; hay zonas que vale la pena visitar, y otras que no; hay ciudades universitarias y parques tecnológicos, etc. Como en toda ciudad un poco grande (y la Internet es muy grande), se necesitan planos y guías para saber a dónde ir y dónde encontrar lo que se necesita. [2]

2. Recuperación de la Información en Internet

El reto principal al realizar una consulta en Internet es conseguir que la pregunta recupere los documentos que se consideran realmente relevantes. La elaboración de la sintaxis de búsqueda es un aspecto fundamental. Para realizar las consultas en los Sistemas de Recuperación de Información, las preguntas son traducidas a las expresiones o enunciados de búsqueda correspondientes. Dicha expresión de búsqueda puede constar de varios elementos: términos, operadores lógicos, uso de paréntesis, truncamiento, formulación de la búsqueda en lenguaje natural, etc. En este sentido, una cuestión de trascendencia en el proceso de Recuperación de Información, y que ha generado una línea de investigación ciertamente interesante es la selección y eficacia de los términos de búsqueda utilizados en la interacción con el sistema de recuperación.

Una buena decisión es la de realizar las búsquedas en inglés, por ser la lengua de uso mayoritario en Internet, lo que aumenta las posibilidades de encontrar información en las consultas planteadas, sobre todo en los buscadores generales e internacionales, caso al que este estudio se refiere principalmente. Para plantear las consultas se ha de elegir entre la expresión booleana o lo que Leighton y Srivastava, denominan "expresión de búsqueda desesurucmrada", esto es, consultas en lenguaje natural. La naturaleza de las preguntas demanda sintaxis de búsqueda diferentes, booleana, de frase, de un término, etc..?. Y se ha de escoger la que en cada caso resulte, probable e intuitivamente, más adecuada sin descuidar que se ha de contribuir a la homogeneidad de los resultados para facilitar su comparación. Por esto, es una buena opción seleccionar la sintaxis y el modo de funcionamiento del motor con formatos más simples. No hay pues una única manera de plantear la consulta, ya que para elaborarla expresión de búsqueda hay que decidir cuántos y qué términos de la pregunta incluir, además hay que elegir si se formula la pregunta en lenguaje natural o usando la lógica booleana y, en este último caso, el modo de plantearla, además de otras opciones del programa, uso de mayúsculas, truncamiento, etc. Esto da lugar a expresiones de búsqueda de distinto tipo: unas utilizan términos más generales y otras más específicos; algunas constan de una sola palabra, otras, constituyen frases de búsqueda; unas usan la lógica booleana, otras se plantean como búsquedas de frase y otras como búsquedas en lenguaje natural; las hay que son nombres de persona; y en algunos casos se utiliza la mayúscula y el truncamiento, etc.2.1 Información en Internet

Los años 90 asisten a la aparición de un nuevo fenómeno de gran repercusión a todos los niveles y, por supuesto, en las Ciencias de la Información. La World Wide Web (W3), Malla Mundial Multimedia o telaraña mundial de información, creada en 1990, es el acontecimiento que más ha contribuido a popularizar y extender el uso de la red. Sin embargo, Internet, y en especial la WWW, no se crearon en un principio para atender la publicación y recuperación organizada de información. Su amplio desarrollo y crecimiento posterior dificultan la localización de los documentos pertinentes y ha suscitado la necesidad de contar con herramientas de búsqueda que faciliten esta tarea.

2.2 TIPOS DE INFORMACIÓN A RECUPERAR

2.2.1 ARCHIVOS DE AUDIO:

La siguiente lista describe los formatos de archivo de audio más comunes junto con algunas de sus ventajas y desventajas en relación con el diseño Web.

El formato .midi o .mid (Interfaz digital para instrumentos musicales, Musical Instrument Digital Interface):

Es un formato de música instrumental. Los archivos MIDI son compatibles con numerosos navegadores y no precisan ningún plug-in. Aunque su calidad de sonido es muy alta, ésta puede variar en función de la tarjeta de sonido del visitante. Un archivo MIDI pequeño puede contener un clip de sonido de larga duración. Los archivos MIDI no se pueden grabar y deben sintetizarse en un ordenador con hardware y software especiales.

Los archivos de formato .wav (Extensión de forma de onda, Waveform Extension)

Ofrecen una buena calidad de sonido, son compatibles con numerosos navegadores y no requieren ningún plug-in. Puede grabar sus propios archivos WAV desde un CD, una cinta, a través de un micrófono, etc. Sin embargo, el gran tamaño de archivo limita considerablemente la duración de los clips de sonido que se pueden utilizar en las páginas Web.

El formato .aif (Formato de archivo de intercambio de audio, Audio Interchange File Format o AIFF):

Al igual que el formato WAV, ofrece buena calidad de sonido, se puede reproducir en la mayoría de los navegadores y no requiere plug-in. También se pueden grabar archivos AIFF desde un CD, unaࣩnta, a través de un micrófono, etc. Sin embargo, el৲an tamaño de archivo limita considerablemente la duración de los clips de sonido que se pueden utilizar enଡs páginas Web.

El formato .Mp3 (Audio del Grupo de Expertos en Imágenes en Movimiento, Motion Picture Experts Group Audio o MPEG-Audio Nivel-3) :

Formato de ficheros que contienen sonido en calidad digital, y que ha sido comprimido, es decir, que ocupa menos espacio del que debería ocupar. La calidad de sonido es excelente: si se graba y comprime correctamente un archivo MP3, su calidad es equiparable a la de un CD.

Con este sistema un archivo de una canción ocupa aproximadamente doce veces menos de lo que ocuparía sin comprimir. La tecnología MP3 permite reproducir el archivo en flujo de modo que el visitante no tenga que esperar a que se descargue todo el archivo para escucharlo. Sin embargo, el tamaño del archivo es superior al de un archivo Real Audio, por lo que una canción entera puede tardar bastante en descargarse en una conexión de módem de acceso telefónico (línea telefónica) típica. Para reproducir archivos MP3, los visitantes deberán descargar e instalar una aplicación auxiliar o un plug-in como QuickTime, Windows Media Player o RealPlayer.

El formato .ra, .ram, .rpm o Real Audio:

Tiene un alto grado de compresión con tamaños de archivo más pequeños que MP3. Permite descargar archivos de canciones completas en un período de tiempo razonable. Dado que los archivos se pueden reproducir en flujo desde un servidor Web normal, los visitantes pueden comenzar a escuchar el sonido antes de que el archivo se haya descargado por completo. Los visitantes deberán descargar e instalar la aplicación auxiliar o plug-in RealPlayer para reproducir estos archivos.

El formato .qt, .qtm, .mov o QuickTime :

Es un formato de audio y de vídeo desarrollado por Apple Computer. QuickTime está incluido con los sistemas operativos Apple Macintosh, y lo utilizan la mayoría de las aplicaciones de Macintosh que emplean audio, vídeo o animación. Los PC también pueden reproducir archivos en formato QuickTime, pero requieren un controlador de QuickTime especial. QuickTime admite la mayoría de los formatos de codificación, como Cinepak, JPEG y MPEG.

2.2.2 IMÁGENES:

JPEG:

Siglas de "Join Photographics Expert Group". Formato de compresión de imágenes que reduce de forma considerable el espacio necesario para su almacenamiento, aunque provoca una pérdida en la calidad de la misma. Junto con el formato GIF, son los dos utilizados en Internet para la transmisión de imágenes.

GIF:

Graphics Interchange Format) Formato binario de archivos que contienen imágenes. Este formato es utilizado por su alta capacidad de compresión de la información de una imagen. Fue desarrollado en 1987 (GIF87) por Compuserve http://www.compuserve.com como solución para compartir imágenes a través de plataformas. Posteriormente fue revisado en 1989 generándose la nueva versión GIF89a. El formato GIF está limitado a un máximo de 256 colores. En general se recomiendan para las imágenes simples. Para los fondos texturizados no son muy útiles puesto que al tener pocos colores disponibles el computador que las recibe intenta encontrar el color más cercano, produciéndose distorsiones que impiden que el texto sea visto en forma adecuada.

2.2.3 ARCHIVOS DE VIDEO:

Existen tres formatos de vídeo de gran implantación:

El QuickTime Movie (MOV), el AVI y el correspondiente al estándar MPEG. El formato QuickTime Movie (MOV), creado por Apple, es multiplataforma y en sus versiones más recientes permite interactuar con películas en 3D y realidad virtual.
El AVI (Audio Video Interleaved, audio vídeo intercalado) es un formato propio de Windows, que sólo se puede ejecutar bajo esta plataforma.
El formato correspondiente al estándar MPEG (Moving Pictures Experts Group) produce una compresión de los datos con una pequeña pérdida de la calidad; desde su creación, se ha definido el MPEG-1, utilizado en CD-ROM y Vídeo CD, el MPEG-2, usado en los DVD-ROM y la televisión digital, y el
MPEG-4, que se emplea para transmitir vídeo e imágenes en ancho de banda reducido; es un formato adecuado para distribuir multimedia en la Web.

2.2.4 ARCHIVOS DE TEXTO:

Dentro de los documentos de texto hemos de diferenciar entre el texto plano y el enriquecido. Es decir, entre los formatos que sencillamente guardan las letras (txt, log…) y los que podemos asignarles un tamaño, fuente, color, etc, (doc).

DIC Block de notas / WordPad
DOC Microsoft Word
DIZ Block de notas / WordPad
DOCHTML HTML de Microsoft Word
EXC Block de notas / WordPad
IDX Block de notas / WordPad
LOG Block de notas / WordPad
PDF Adobe Acrobat
RTF Microsoft Word
SCP Block de notas / WordPad
TXT Block de notas / WordPad
WRI Write
WTX Block de notas / WordPad

GLOSARIO DE EXTENSIONES DE TEXTO

.TXT: archivo de texto plano, sin gráficos. Se abre con cualquier editor de texto, incluido el Bloc de Notas, de Windows.
.NFO: archivo de texto plano que suele incluirse como descripción del contenido de un archivo compactado .zip. Se ve con cualquier editor de texto.
.HTML / .HTM: archivo de hipertexto, utilizado para la publicación de contenidos en la Web. Es un standard utilizado por los principales navegadores de Internet. Sirve para abrir estos archivos: Internet Explorer y Navigator.
.DIC: diccionario para procesadores de texto. Se compone de texto plano y se abre como tal con cualquier procesador de texto.
.DOC: archivo de texto con estilo. Se genera y se abre con los principales procesadores de texto para Windows: Microsoft Word, WordPerfect, Display Write, WordStar.
.WRI: archivo de texto con estilo generado por el accesorio de Windows Microsoft Write. Accesible con este programa o con cualquier procesador de texto.
.RTF: Forrmato de archivo de texto enriquecido que permite intercambiar texto entre distintos procesadores de texto y en distintos sistemas operativos. Accesible con cualquier procesador de texto.

Sistemas de recuperación de la información en Internet

2.3.1 BUSCAR INFORMACIÓN EN INTERNET

En Internet resulta difícil encontrar una información pertinente y fiable. Para encontrarla, hay que partir de unos conocimientos previos sobre las herramientas de búsqueda que hay a nuestra disposición, saber qué tipo de información queremos y utilizar la herramienta idónea para el tipo de información buscada. Es a estos elementos o conjuntos de herramientas que podemos llamar Sistemas de Recuperación de la Información en Internet

Las principales herramientas de búsqueda en Internet son:

1. Directorios o Índices temáticos

Directorio de recursos evaluados

2. Motores o robots de búsqueda
3. Metabuscadores
4. Internet invisible
5. Portales
6. Agentes inteligentes
7. Weblogs
8. ༢>Directorios o índices temáticos

Listan lugares (URLs) y los clasifican en categorías. Se estructuran jerárquicamente por temas o categorías principales, que a su vez tienen su vez subcategorías, y así sucesivamente, hasta ofrecer finalmente enlaces directos a otras páginas de Internet. Tanto la selección, como la clasificación e indización de recursos son efectuadas por personas. Los recursos han pasado por un proceso de selección de calidad. Los usuarios recorren esta estructura para buscar la información que necesitan, por niveles de especificidad sin necesidad de formular con términos su consulta. Se utilizan para hacer búsquedas generales. O cuando se necesita toda la información disponible sobre una materia amplia.

Ejemplo: Yahoo

Directorio de Recursos Evaluados: Son índices especializados que proporcionan una descripción de las páginas Web muy superior a la de los directorios convencionales: condensan su contenido, explican su utilidad y evalúan su calidad. Son herramientas muy dinámicas, están en constante actualización y están muy especializados en un área temática.

ࠅjemplo: ࠼/font>

– Virtual Library

– DARWIN

Motores de búsqueda

Los motores de búsqueda ó search engines se basan en un robot o software que recorre la red automáticamente para localizar documentos, los indiza y los introduce en una base de datos. Esta base de datos será interrogada por los usuarios a través de un formulario o interface web, que lanza la búsqueda, la compara con los recursos indizados en la base de datos y devuelve como resultado un conjunto de links.

La forma de búsqueda en estos sistemas es a través de palabras clave introducidas en el formulario de consulta, permitiendo la mayoría de ellos realizar búsquedas simples y avanzadas. Las búsquedas suelen ser más exhaustivas que en los directorios, pero por el contrario devuelven entre los resultados mucho "ruido". Son útiles para responder a necesidades concretas de información.

Funcionamiento de los Motores de Búsqueda

Un motor de búsqueda en Internet se compone de diversos elementos, los cuales serán evaluables, a la hora de valorar su rendimiento o utilidad a la hora de satisfacer una demanda de información:

El robot que recorre Internet para localizar direcciones y documentos y que genera una base de datos textual.
Un sistema de indización automática, según distintos criterios (full-text, parcial o utilizando las etiquetas propias del lenguaje de marcas).
Un motor de búsqueda o search engine
Un sistema de interrogación: que incluye un lenguaje de consulta y una serie de procedimientos más o menos documentales para precisarlas.
Un interface: evaluable tanto a nivel de página de consulta, como a nivel de presentación de resultados.

Principales motores de búsqueda

A pesar de sus limitaciones, los motores actuales cuentan con un excelente rendimiento en general y proporcionan excelentes resultados en la mayor parte de necesidades. Sin embargo, en los últimos años, se advierte una "portalización" de los motores de búsqueda, esto es, que se han añadido otros servicios además del formulario de búsqueda. Son pocos los que podríamos denominar motores de búsqueda "puros", es decir, que no tengan otro tipo de servicios añadidos. Los principales motores de búsqueda son:

Google :

Google es uno de los motores de búsqueda más rápidos y más utilizados en la actualidad. Tiene una forma muy particular para establecer la relevancia de los resultados: utiliza el número de enlaces de una página concreta como medida para evaluar su calidad informativa. De este modo, cada vínculo de una página a otra funciona como un voto a favor de la página receptora. Además el Google no valora todos los votos por igual: valen más aquellos vínculos, o votos, que provengan de páginas que a su vez reciban más enlaces de otras páginas. El análisis mediante vínculos permite además que Google remita a 500 millones de páginas no registradas en su base de datos, a las cuales remiten los 560 millones de páginas que sí tiene registradas. Estos 1.060 millones de páginas hacen de Google el buscador de mayor tamaño, según los análisis de la publicación especializada Search Engine Watch. Esta cifra se encuentra muy próxima al total de webs que se calcula están registradas hoy día. La popularidad de Google (disponible en 10 idiomas, entre ellos español, italiano, inglés, francés, japonés, chino y coreano) se ha extendido por la red en un tiempo récord. Las buenas noticias no han cesado en los últimos meses. Google constituye un buscador puro, sin otros servicios añadidos. Su sistema de rastreo sólo ofrece aquellas webs que contengan todas las palabras incluidas en la ventana de búsqueda. Para concretar más, deberá añadirse una nueva palabra en la ventana. El buscador se concentrará en aquellas páginas que contengan la nueva palabra dentro de las ya encontradas. Google, además, evita repeticiones en su lista de resultados. En la presentación de los resultados, Google incluye una función ("caché" en español) que ofrece la página guardada por el buscador lo que supone un acceso más rápido, aunque existe el peligro de que no esté actualizada. La función Me siento afortunado lleva a la página que más se ajusta a su búsqueda, sin listados ni nuevas selecciones. Permite además búsquedas simples y avanzadas, la búsqueda por frase entre comillas y el operador booleano por defecto es AND.

AltaVista :

Altavista ha sido considerado, desde sus inicios, uno de los mejores buscadores de Internet. A pesar de que hoy en día le han salido serios competidores (v. gr. Google), sigue siendo uno de los robots de búsqueda más utilizados y que conserva sus prestaciones de parametrización y concreción de las búsquedas. Por ello, analizaremos en profundidad sus prestaciones y opciones ya que pueden servir de paradigma de funcionamiento de este tipo de herramientas de búsqueda. Realiza una indización por palabras, considerando como tal el conjunto de letras y/o cifras separada de otra palabra por un espacio, un signo de puntuación o un carácter no alfabético (&, %, $…). AltaVista clasifica los resultados de una búsqueda en base a un índice que incluye estos criterios:

Si las palabras o frases se encuentran en las primeras pocas líneas de un documento, (por ejemplo, en el título de una página Web).
Si la palabra o frase de búsqueda está dentro de una etiqueta META࠼META NAME="keyword"> ó
La frecuencia de ocurrencia de una palabra o frase de consulta. Son muy pocas las palabras en la consulta que se ponderan más que las palabras comunes (la rareza es determinada por el número de ocurrencias de la palabra en el índice).
Si todas las palabras o frases especificadas aparecen en un documento. Un documento que contiene las tres palabras especificadas en una búsqueda de tres palabras se clasificará más alto que un documento que contiene únicamente dos o una de las palabras.
Si las palabras o frases de una consulta múltiple se encuentran cerca una de otra en el documento.
Además de los resultados, es decir, las páginas web que contienen la información según esos criterios, Altavista recomienda algunas búsquedas (p. ej. si buscamos por "eva", nos propondrá resultados relacionados como "eva peron", "eva grimaldi", "Eva Braun", etc. Por otra parte seleccionará dentro de sus categorías, los resultados más cercanos a la consulta que realizamos en el contexto de categorías como "software", "compras"… etc. según el término de búsqueda introducido.
Si la primera clasificación que realiza AltaVista no es un resultado de búsqueda satisfactorio, es posible limitar más el ámbito de la búsqueda

Otros motores de búsqueda

All the Web (Fast) :

Este buscador también se denomina "fast" porque la forma de "venderse" es su rapidez en la búsqueda. Es otro de los buscadores "puros" que conserva incluso las opciones de búsqueda normal y búsqueda avanzada. En la búsqueda normal permite la búsqueda por frase (exact phrase) y acotar al idioma de búsqueda. También tiene varias opciones de personalización (idioma, offensive content reduction, etc.). Además de la búsqueda en la Web, como la mayoría de los buscadores, ha desarrollado sus bases de datos para la búsqueda de vídeo, imángenes, audio/mp3 y noticias y además permite la búsqueda de programas muy precisa (a través de la búsqueda por cadenas de caracteres) en servidores FTP. La búsqueda avanzada, por cada uno de los tipos de información que permite buscar (vídeo, imágenes, noticias, audio/mp3 y ficheros) tiene un interfaz y unas opciones de búsqueda adaptadas al tipo de información. Han desarrollado además otros sistemas de búsqueda verticales relacionados con FAST: uno sobre información científica: y otro sobre fútbol .

Northernlight Este buscador es un ejemplo de transición entre los buscadores puros y los portales con categorías y servicios de valor añadido (chat, correo, tiempo, etc.). Si bien no integra una clasificación temática inicial, en su opción de Power Search, permite acotar la búsqueda a un área temática en particular, además de a la fecha, al tipo de servidor, etc. Decíamos que era un sistema de transición porque a pesar de ser un motor de búsqueda, añade otros servicios, si bien todos ellos están relacionados con la búsqueda de información especializada. Es destacable la búsqueda de noticias Search News pudiendo acotarla incluso a las dos últimas horas; o la búsqueda de informes de presupuestos de investigación especializados Investext Search , entre otros.

Metabuscadores o Multibuscadores:

Además de índices y motores de búsqueda, existen también los denominados metabuscadores, buscadores en paralelo, megamotores o metaservidores de información en Internet. Estos sistemas van más allá de los buscadores: admiten una consulta y se encargan de lanzarla a diferentes sitemas de búsquedas públicos que hay en Internet.

Partes: 1, 2

Página siguiente