Glosario (sp)‎ > ‎

Recuperación de información || Information Retrieval

Artículo
 
 Editor
J. Morato
 Contribuciones incorporadas
Morato (9/2009)
 Ámbito de uso
gestión de la información, biblioteconomía y documentación, lingüística, informática
 Tipo
Concepto
 Francés
Recherche d'information
 Alemán Informationswiedergewinnung

Contenidos

1. Evolución del significado del término
2. Recuperación de Información y Recuperación de Conocimiento
3. Recuperación de Información y Sistemas de Recuperación de Información
4. Metadatos, descriptores e indización
5. Recuperación de Información mediante vocabularios controlados
6. Relevancia
7. Medidas de Recuperación
8. Modelos de Recuperación


La recuperación de información es el conjunto de actividades orientadas a facilitar la localización de determinados datos u objetos, y las interrelaciones que estos tienen a su vez con otros. Existen varias disciplinas vinculadas a esta actividad como la lingüística, la documentación o la informática.

1. Evolución del significado del término

Aunque tradicionalmente se limitaba a la recuperación de documentos escritos, el término se redefinió para incorporar la creciente aparición de materiales multimedia. Asi, los nuevos buscadores de información en Internet, que originariamente buscaban textos, expandieron su actividad a imágenes, videos o audios.  De esta forma términos como Recuperación de textos, recuperación documental y recuperación de información son utilizados como equivalentes.

Por otro lado, la necesidad de localizar datos concretos ha ido expandiendo su área de actuación. En la actualidad se está migrando desde la recuperación de documentos a la recuperación pregunta-respuesta, que responden con el dato concreto y no con el conjunto de documentos que posiblemente contenga este dato.

2. Recuperación de Información y Recuperación de Conocimiento

Con frecuencia, la información responde a qué es algo y que propiedades lo describe, pero tan sólo parte de la información indica cómo se elabora o se desarrolla un proceso. Este tipo de información es básicamente  conocimiento. Esta premisa muestra que el conocimiento implica dos cuestiones fundamentales: la existencia de un fin y una relación con otra información de un sistema para lograr un objetivo.

La existencia de un fin para saber cómo se realiza algo presupone la intencionalidad y necesidad de lograr algo. Esta finalidad ha provocado que el conocimiento se asocie a los seres vivos.

Por otra parte, el conocimiento implica que la información esté relacionada dentro de un sistema para lograr un objetivo. La información necesaria sobre cómo procesar un objetivo se transforma así en una serie de reglas y restricciones. De esta manera es comprensible que muchos sistemas de recuperación especializada, hayan pasado a autodenominarse Sistemas de Recuperación de Conocimiento.

Asi el desarrollo de ontologías, agentes inteligentes y de la inteligencia artificial ha propiciado un cambio de denominación hacia recuperación del conocimiento. Desde esta perspectiva no se pretende que el buscador recupere por palabras presentes en los documentos, sino que sea posible recuperar procesos y otros tipos de interrelaciones entre los elementos almacenados. 

3. Recuperación de Información y Sistemas de Recuperación de Información

En la literatura, la exposición de estas estrategias suele estar vinculada a determinado Sistema de Recuperación. Ya que el desarrollo de estas aplicaciones informáticas surgió como respuesta a la gestión de la sobreabundancia de información actual. La forma en que esta información es almacenada suele ser mediante Bases de Datos y repositorios documentales.

4. Metadatos, descriptores e indización

Dado la limitada capacidad de los ordenadores, originariamente, la recuperación tenía que estar limitada a unos pocos atributos o metadatos del objeto. Entre los que destacaban el autor, el título o las palabras más significativas del contenido expresado en el texto o descriptores. La asignación de estos descriptores, denominada indización, era manual. 

Estos mismos metadatos son empleados actualmente en la Web Semántica por su mayor simplicidad que el lenguaje natural, facilitando la interoperabilidad y la navegación en la Web.

La indización automática trata de automatizar la asignación de términos relevantes a un documento de forma automática. La relevancia es calculada mediante cálculos estadísticos y localización del mismo. Ejemplos son tf-IDF, la eliminación de palabras vacías, el mayor valor de los términos en los títulos, en formato destacado (p.e. negrilla), etc. Muchos de estos factores son utilizados para ordenar los resultados en los motores de recuperación.

5. Recuperación de Información mediante vocabularios controlados

Los descriptores, usualmente, estaban listados en un vocabulario de un dominio cerrado y normalizado, denominado controlado. En este vocabulario pueden existir, incluso, interrelaciones entre estos términos. El control de este vocabulario trata de solventar dos de los principales problemas de la recuperación de información: la polisemia, la homonimia y la sinonimia.

Las relaciones de estos vocabularios pueden ser de varios tipos. En el caso de los tesauros están son de equivalencia, jerarquía y relación. Los tesauros facetados  disponen de varias vistas que facilitan la recuperación.

6. Relevancia

La relevancia es una medida del grado en que determinado elemento responde a una consulta. Su medida es frecuentemente subjetiva, ya que responden a la consulta en función del conocimiento de quién evalúa y del que pregunta.

7. Medidas de Recuperación

El funcionamiento de un sistema de recuperación de información se puede medir analizando los datos (o documentos) recuperados ante una consulta. Dos son las principales medidas:

  • Precision: volumen de datos relevantes entre el total de datos recuperados 
  • Exhaustividad: volumen de datos relevantes entre el total de datos  relevantes en el repositorio o la BD

Ambas medidas tienden a evolucionar en sentido inverso (Ley de Cleverdon). Cuanto más crece la precisión más disminuye la exhaustividad, y al contrario. Esto es debido a que miden factores distintos, el ruido y el silencio:

  • Ruido: información recuperada no relevante
  • Silencio: información no recuperada que es relevante

Dado que para calcular estas medidas es necesario conocer cuantos elementos relevantes existen, son necesarios listados de la relevancia de los documentos ante un conjunto de consultas. Estos listados se llaman colecciones de pruebas (test collections), y son utilizadas en competiciones internacionales para testear los sistemas de recuperación. La más conocida de las cuales es TREC.

8. Modelos de Recuperación

Los modelos de recuperación tratan de calcular el grado en que determinado elemento de información responde a determinada consulta. En general esto se consigue calculando los coeficientes de similitud (Coseno, Phi, etc). Los tres modelos más utilizados son: 

  • Booleano: se crea un conjunto con los elementos de la consulta y otro con los documentos, y se mide la correspondencia.
  • Vectorial: en el que la consulta y los términos del documento se representan mediante dos vectores, y se mide el grado en que ambos vectores divergen. 
  • Probabilístico: se calcula la probabilidad en que el documento responde a la consulta. Frecuentemente utiliza retroalimentación. La retroalimentación se basa en que el usuario indique que documentos se parecen más a su respuesta idonea, para asi reformular la consulta.
Referencias 
  • ANTONIOU, G., VAN HARMELEN, F. (2004). A semantic Web Primer. Massachussets: MIT, 2004
  • BAEZA-YATES, R., RIBEIRO-NETO, B. (1999)Modern information retrieval. New York : ACM Press ; Madrid[etc.]:  Addison-Wesley. 
  • CLEVERDON, C.W. (1972). “On the inverse relationship of recall and precision”. Journal of Documentation, Vol. 28, pp. 195-201.
  • SPARCK, J. (1997). Readings in information retrieval . edited by Karen Sparck Jones, Peter Willett.San Francisco : Morgan Kaufmann.

Entradas
Nueva entrada. Cuando se introduzca una nueva entrada copiar este párrafo y las siguientes líneas y pegarlas al final de la columna. A continuación, borrar el párrafo azul superior y sustituir los campos 'nombre', 'fecha' y 'texto'.
Nombre (fecha)
 
[Texto de Entrada]



Entradas incorporadas
Jorge Morato (17/9/09)
 
[Corresponde con la primera versión del artículo, ahora recogido en la columna de la izquierda.] 
 
Subpages (1): Information Retrieval
Comments