martes, 16 de abril de 2013

Clasificación de Texto: Naïve Bayes paso a paso

Hagamos un ejemplo, paso a paso para afianzar los conocimientos. 

Supongamos que tengo 4 documentos en mi corpus de entrenamiento, y dos clases: "C" y "U" que indican si un documento habla sobre Chile o sobre Uruguay respectivamente. Tengo ademas un quinto documento con el cual voy a probar mi clasificador:

Corpus Documento Palabras Clase
Entrenamiento 1 Chileno Santiago Chileno C
2 Chileno Chileno Valparaiso C
3 Chileno Allende C
4 Montevideo Uruguay Chileno U
Prueba 5 Chileno Chileno Chileno Montevideo Uruguay ?

Clasificación de Texto: entrenamiento de Naïve Bayes

Repasemos como entrenar el algoritmo de clasificación de texto automático: Naïve Bayes para obtener los parámetros necesarios:

El estimador de máxima verosimilitud para la probabilidad previa de la categoría "cj", perteneciente al conjunto de categorías C es:

^            
P(cj) = cant. docs (C=cj)
             cant. docs

El estimador de máxima verosimilitud para la probabilidad previa de la palabra palabra wdada la clase ces:

^            
P(wi | cj) = cantidad (wi | cj)       
                  cantidad(w,cj
                   wV