martes, 14 de mayo de 2013

Recuperación de información (information retrieval) y busqueda en la Web, introducción

la recuperación de información puede ser definida, según Chris Manning,  como la búsqueda de material (generalmente documentos) de naturaleza no estructurada (generalmente textos) que satisface una necesidad de información dentro de una colección muy grande elementos (generalmente almacenados en computadoras).

Por supuesto no siempre buscamos documentos de texto, a veces buscamos imágenes o música en grandes colecciones. El lugar más frecuente en donde se realiza esta recuperación de información suele ser la Web, pero no es el único escenario, otros posibles son:
  • búsqueda de un email en nuestra bandeja de entrada
  • búsqueda de un archivo en nuestra computadora
  • búsquedas en la base de datos de conocimientos de una empresa
  • búsqueda de información legal 

llamamos información estructurada a aquella que puede ser manejada, de forma relativamente sencilla, por una computadora: bases de datos relacionales, hojas de calculo, etc. e información no estructurada a aquella que es básicamente texto libre en algún lenguaje natural. 

Desde mediados de los años a '90 al día de la fecha la información no estructurada se ha multiplicado, la encontramos en blogs, facebook, twitter y en cientos de otros sitios de Internet, también en bases de datos privadas como pueden ser las de historias clínicas, legajos bancarios, etc. 

Supuestos básicos:
  • Una colección es un conjunto de documentos, por el momento estáticos.
  • El objetivo es devolver al usuario los documentos con información relevante que satisfacen su necesidad de información para realizar una tarea.
Modelo clásico de búsqueda:

1. El usuario tiene una necesidad, una tarea que realizar, por ejemplo: "capturar a un ratón de una forma políticamente correcta" (supongamos que es un defensor de los animales que tiene un roedor en el garaje)

2. La tarea le genera una necesidad de información: "información sobre cómo sacarse de encima a un ratón sin matarlo"

3. A partir de dicha necesidad de información, escribirá una consulta en buscador, ejemplo: "atrapar ratón vivo"

4. Esa consulta irá a un motor de búsqueda

5. El motor consultará su colección de documentos

6. El usuario recibirá una lista de documentos como resultado

7. Si no está de acuerdo con los resultados refinará la consulta y volverá a probar desde el punto 3 (refinar la búsqueda implica cambiar una palabra o frase, poner comillas, cambiar el idioma, etc.)

    Hay que tener en cuenta que el usuario podría cometer un error al momento de entender su necesidad de información (capaz que en vez de necesitar "información sobre cómo sacarse de encima a un ratón sin matarlo" le bastaría con saber como "matar a un ratón sin que sufra"). También podría ser que haya definido correctamente su necesidad de información pero que no sabe transmitirla correctamente a la consulta del motor de búsqueda.

Veamos los pasos anteriores descriptos en un diagrama de flujo:

¿Qué tan útiles son los documentos devueltos?

En principio vamos a utilizar dos herramientas para medir la calidad de los documentos devueltos, o dicho de otra forma, de medir que tan bueno es el algoritmo de recuperación de información. 

Precisión: documentos devueltos que son relevantes para la necesidad de información del usuario sobre  documentos devueltos.

Recall: documentos devueltos que son relevantes para la necesidad de información del usuario sobre  documentos relevantes totales en la base.

Ambos indicadores se aplicarán, no sobre la consulta que generó el usuario sino sobre su necesidad de información. 

2 comentarios: