Procesamiento de Lenguaje Natural: Normalización del texto

Mostrando entradas con la etiqueta Normalización del texto. Mostrar todas las entradas

jueves, 4 de octubre de 2012

Normalización del Texto => Segmentación de oraciones y arboles de decisión

El tercer paso es la identificación de las oraciones en un texto para poder analizarlas como elementos separados.

Antes, una definición que puede sernos útil:

Corpus Lingüístico: conjunto, habitualmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (lo más común) o muestras orales (generalmente transcritas). Por ejemplo todos los textos de Shakespare constituyen un corpus lingüístico.

Lo más simple es localizar los símbolos: ".", "?" o "!" que por lo general suelen identificar el fin de una oración.
Sin embargo estos símbolos pueden ser ambiguos o no estar presentes

Normalización del Texto => Normalización de palabras y stemming

Como dije antes el segundo paso en la normalización del texto es la normalización de las palabras.
¿Qué implica eso?

unificar la forma de los terminos con un mismo significado:

por ejemplo: Bs. As., Buenos Aires, CABA => Buenos Aires

miércoles, 3 de octubre de 2012

Normalización del Texto => Tokenización

Antes de realizar una tarea de PLN hay que normalizar el texto, esto incluye 3 actividades:

1. Segmentación/tokenización de las palabras.
2. Normalización del formato de las plabras
3. Segmentación de las oraciones en el texto.

Algunos conceptos:

Lema (Lemma): palabras que comparten un tronco común, que hacen referencia al mismo concepto básico
Ejemplo: gato, gatos, gata son palabras con el mismo lema.