lunes, 17 de junio de 2013

Clasificación de Texto: medidas de rendimiento y desempeño

Voy a exponer en esta entrada algunos métodos comunes para evaluar un algoritmo de clasificación de textos.

Hay dos tipos de errores que pueden cometerse, como muchos saben: los falsos positivos (es decir aquellos textos que fueron etiquetados como de una clase dada y no lo son) y los falsos negativos, aquellos textos que no fueron etiquetados como pertenecientes a la clase y en verdad sí pertenecen.

Esta matriz gráfica lo anterior:

CorrectoNo correcto
Seleccionadoverdadero positivofalso positivo
No seleccionadoverdadero negativofalso negativo

Están marcados en rojos los casos de error.