¿Qué implica eso?
unificar la forma de los terminos con un mismo significado:
por ejemplo: Bs. As., Buenos Aires, CABA => Buenos Aires
Definir cierta equivalencia de términos:
por ejemplo: que ventana, Ventana, Ventanas se identifiquen univocamente con una sola palabra: "ventana"
Mayúsculas y minúsculas
otra acción de normalización es pasar todo a minúsculas (que es la forma más común de escribir), sin embargo existen excepciones: "General Motors", "Buenos Aires", "USA" vs. "usa" (para castellano)
Lematización (Lemmatization)
según Wikipedia: "La lematización es un proceso lingüístico que consiste en, dada una forma flexionada (es decir, en plural, en femenino, conjugada, etc), hallar el lema correspondiente. El lema es la forma que por convenio se acepta como representante de todas las formas flexionadas de una misma palabra"
soy, son, es => ser
gato, gata, gatos => gato
ir, voy, iré, fui => ir
en ingles:
am, are, is => be
car, cars,car's,cars' => car
Morfología
La morfología es la rama de la lingüística que estudia la "forma" de las palabras. Según Wikipedia: "La morfología explica la estructura interna de las palabras y el proceso de formación de palabras mientras que la sintaxis describe cómo las palabras se combinan para formar sintagmas, oraciones y frases."
Morfema: fragmento mínimo capaz de expresar significado
Tema (stem): palabra principal, raíz, sobre la cual se pueden agregar afijos.
Afijos (affixes): sufijos, prefijos e interfijos que se agregan a un tema
Ejemplo: Tema: "cruel", sufijo: "dad" => crueldad
Stemming
Es el proceso de reducir las palabras a su tema.
Ejemplo en castellano: "gato", "gata", "gatos" => "gat"
Ejemplo en ingles: "automates", "automatic" => "automat"
El algoritmo más común de Stemming en idioma ingles: Algoritmo de Porter
paso 1a)
sses -> ss caresses -> caress
ies -> i ponies -> poni
ss -> ss caress -> caress
s -> (remover) cats -> cat
paso 1b)
(*V*)ing -> (remover) walking -> walk
sing -> sing
(*V*)ed -> (remover) plastered -> plaster
nota: (*V*) significa que la palabra contiene al menos una vocal
paso 2) (para temas largos)
ational -> ate relational -> relate
izer -> ize digitizer -> digitize
ator -> ate operator -> operate
paso 3) (para temas largos)
al -> (remover) revival -> reviv
able -> (remover) adjustable -> adjust
ate -> (remover) activate -> activ
No hay comentarios:
Publicar un comentario