sábado, 31 de enero de 2015

Extracción de Información: Reconocimiento de nombres de entidades (NER)


El objetivo de la extracción de información es capturar ciertas partes relevantes de un texto. Muchas veces en el contexto de varios documentos distintos, y generar luego, con dicha información, una representación estructurada, limpia y legible, como podría ser una tupla en una base de datos relacional.

El caso más común es la extracción de información fáctica, es decir, información del tipo: ¿Quién hizo qué a quién y cuándo?

Veamos un ejemplo, para clarificar lo anterior:

Las oficinas de Google en la Argentina ya tienen su historia. La empresa abrió sus filial local en 2008 en Puerto Madero.
Allí trabajan 215 empleados en los 6000 m2 que ocupan las instalaciones. [1]

De acá se podría extraer, sabiendo el nombre de la compañía, la ubicación y el año de apertura de la misma:

  • SEDE("Google_Argentina", "Puerto Madero")
  • APERTURA_SEDE("Google_Argentina", "2008")

Otro ejemplo de una tarea de extracción de información es la detección automática de eventos en un e-mail de Apple, como se muestra en la imagen:


En este caso el cliente de correo electrónico extrajo del texto una fecha, la identificó como tal y luego mostró al usuario la opción de generar un evento en el calendario.