El tercer paso es la identificación de las oraciones en un texto para poder analizarlas como elementos separados.
Antes, una definición que puede sernos útil:
Corpus Lingüístico: conjunto, habitualmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (lo más común) o muestras orales (generalmente transcritas). Por ejemplo todos los textos de Shakespare constituyen un corpus lingüístico.
Lo más simple es localizar los símbolos: ".", "?" o "!" que por lo general suelen identificar el fin de una oración.
Sin embargo estos símbolos pueden ser ambiguos o no estar presentes
Las entradas seguirán el formato de un curso de PLN, en las mismas se explicarán conceptos de: modelos de lenguaje, distancia de edición, análisis sintáctico, análisis de sentimientos, etc.
Mostrando entradas con la etiqueta Normalización del texto. Mostrar todas las entradas
Mostrando entradas con la etiqueta Normalización del texto. Mostrar todas las entradas
jueves, 4 de octubre de 2012
Normalización del Texto => Normalización de palabras y stemming
Como dije antes el segundo paso en la normalización del texto es la normalización de las palabras.
¿Qué implica eso?
unificar la forma de los terminos con un mismo significado:
por ejemplo: Bs. As., Buenos Aires, CABA => Buenos Aires
¿Qué implica eso?
unificar la forma de los terminos con un mismo significado:
por ejemplo: Bs. As., Buenos Aires, CABA => Buenos Aires
miércoles, 3 de octubre de 2012
Normalización del Texto => Tokenización
Antes de realizar una tarea de PLN hay que normalizar el texto, esto incluye 3 actividades:
1. Segmentación/tokenización de las palabras.
2. Normalización del formato de las plabras
3. Segmentación de las oraciones en el texto.
Algunos conceptos:
Lema (Lemma): palabras que comparten un tronco común, que hacen referencia al mismo concepto básico
Ejemplo: gato, gatos, gata son palabras con el mismo lema.
1. Segmentación/tokenización de las palabras.
2. Normalización del formato de las plabras
3. Segmentación de las oraciones en el texto.
Algunos conceptos:
Lema (Lemma): palabras que comparten un tronco común, que hacen referencia al mismo concepto básico
Ejemplo: gato, gatos, gata son palabras con el mismo lema.
Suscribirse a:
Entradas (Atom)