Recuperación de Datos (página 2)

Partes: 1, 2

Los algoritmos de clustering aplicados a la organización y recuperación de información, agrupan muestras de entrada en una serie de grupos y en contraste con la indización manual, en la automática es un algoritmo el que toma la posición del indizador y se aplica repetidamente a cada documento. Estudian la forma en que se agrupan los términos de indización asignados a los documentos o los propios documentos para revelar la relación que existe entre documentos de materias similares y crear grupos con características comunes. Las técnicas de análisis de clusters y los sistemas de información tienen un mismo objetivo: organizar temáticamente la información almacenada. Basados en el cálculo de la similitud entre pares de objetos, los métodos, básicamente pueden ser de dos tipos:

Métodos heurísticos: Son aquellos que dividen un conjunto de documentos en subconjuntos entre los que no existen relaciones jerárquicas, por medio de parámetros que permiten controlar el proceso de creación de los grupos. Entre dichos parámetros se encuentran: el número total de clusters a formar y su tamaño máximo y mínimo.
Métodos jerárquicos: Exigen como punto de partida el cálculo de la similitud entre todos los pares de documentos del sistema de información. La construcción de la jerarquía se realiza a partir de: una técnica divisiva, donde los cluster se crean de arriba hacia abajo, grupos con características comunes y luego grupos más específicos y una técnica acumulativa, por medio de la cual se construye, a partir de grupos pequeños, grupos más grandes, de abajo hacia arriba.

Las metodologías empleadas en la automatización de la indización desde finales de los años cincuenta hasta la actualidad han variado. En los primeros momentos, se utilizaba casi exclusivamente la estadística para obtener los términos de indización representativos de los documentos, pero a partir de los años 80, se incorporaron en las propuestas para la automatización de la indización técnicas de procesamiento del lenguaje natural como herramientas para conseguir las raíces de las palabras, etiquetadores morfológicos, así como analizadores sintácticos, entre otras.

Pero lo habitual es que las propuestas o prototipos presentados por los investigadores incluyan una combinación de ambas aproximaciones, es decir, cálculo de la frecuencia y herramientas, más o menos complejas, para el procesamiento del lenguaje natural.

4. Técnicas de retroalimentación por relevancia

Uno de los principales problemas de los sistemas interactivos durante años fue entender la interacción como un proceso inherente al sistema de recuperación de la información. Una vez establecida la interacción entre el hombre y la máquina, no se especifica de forma clara qué elementos y procesos permiten la interacción entre los dos extremos del sistema de recuperación de información.

Amanda Spink, propone que el principal responsable de la interacción, tanto en el modelo tradicional como en el interactivo, es la retroalimentación como aspecto no siempre ligado al concepto de relevancia, sino a la generalidad de elementos que permiten la interacción entre el sistema y el usuario. Sobre esta base, Spink identificó, en un estudio aplicado a una muestra de 40 usuarios reales, con necesidades informativas reales y 4 intermediarios para responder a sus consultas, los siguientes tipos de retroalimentación:18

Retroalimentación por relevancia de contenido.
Retroalimentación por relevancia de términos.
Retroalimentación por magnitud de respuestas.
Retroalimentación por revisión de consultas anteriores.
Retroalimentación por revisión de términos.

Una vez identificados y descritos los elementos sobre los que recae el peso de la retroalimentación, la autora de la investigación se basó en el modelo de recuperación interactiva de la información propuesto por Saracevic, y contempló sus distintos niveles de interacción. En síntesis, "un proceso de búsqueda interactivo puede estar formado por una serie de estrategias de búsqueda, construidas por una o más iteraciones y uno o más ciclos de retroalimentación interactiva", 18 de los tipos descritos anteriormente.

Los inconvenientes de estos modelos no son pocos, debido a que:

Se limitan a realizar una aproximación prácticamente teórica a las necesidades de información de los usuarios desde diferentes ángulos, carentes de todo tipo de desarrollo práctico en los entornos del usuario.
Se centran excesivamente en el usuario sin considerar que las conclusiones a las que llega corresponden a cada individuo concreto objeto de estudio, difícilmente extrapolables a un grupo más amplio de individuos.

5. Técnicas de stremming

Definición

El streaming involucra el envío de información entre un servidor y un cliente a través de una red como Internet. El servidor rompe la información en paquetes que se envían a través de la red. Los paquetes son reensamblados por el cliente, que reproduce la información recibida al mismo tiempo.

El streaming se diferencia de una simple transferencia de ficheros en que el cliente reproduce la información mientras la está recibiendo en vez de esperar a recibirla completa antes de reproducirla. De echo, un cliente de streaming podría no descargar el vídeo/audio, simplemente reproducir la información de cada uno de los paquetes e ir descartándolos.

Características

1. Se utiliza para sistemas multimedia distribuídos
2. Se utilizan para transmitir información multimedia de tipo continuo
3. Fraccionan la información para transmitirla
4. Envío de la información se realiza de forma temporizada
5. La reproducción puede comenzar instantes después del comienzo de la transmisión
6. No es necesario que el cliente almacene toda la información que recibe

6. Técnicas lingüísticas

Los tesauros permiten estructurar y clasificar información, presentarla de acuerdo con modelos de datos comunes (plantillas de indexación) y acceder a los recursos mediante la navegación por la estructura del tesauro. Esto permite no sólo facilitar la publicación, sino también la recuperación de recursos. Los tesauros, además, pueden ser multilingües y esto permite paliar en alguna medida el problema de acceder a documentos de idiomas diferentes.

Sin embargo, el problema fundamental de utilizar tesauros es el coste que tiene asociado su construcción y mantenimiento, así como la asignación de los términos adecuados de clasificación a los documentos. Además, por tratarse de vocabularios controlados en el que cada uno de los términos (descriptores) utilizados sólo tiene un significado, el dominio de aplicación tiene que ser suficientemente específico.

Una nueva colección en un nuevo dominio requiere la construcción de un nuevo tesauro.

Nota: Entendiéndose tesauro como al listado de palabras o de términos que representan o definen un concepto

Recomendaciones

Recomendado utilizar la técnica más utilizada o la que de mejores resultados, sin obviar algo importante su conocimiento es lo que mas cuenta lógicamente; la mayoría de estás técnicas son hechas o se utilizan para diferentes búsquedas por que no es lo mismo buscar un documento multimedia que un archivo de texto.

Conclusión

La información para métodos o técnicas de búsqueda de datos como eje central de esta investigación y para cerrar con este pequeño pero valioso resumen.

La pérdida de información es muy común hoy en día pero los métodos de búsqueda son cada día más sofisticados y modernos y es por ello que se ha mejorado en la informática aplicada.