lunes, 25 de marzo de 2013

Clasificación de Texto: Naïve Bayes

En mi post anterior introduje el tópico de la clasificación de textos y mencioné que había métodos de clasificación automática. Repasemos qué era la clasificación de textos.
   Imaginen que tengo una critica cinematográfica y quiero saber si es buena o mala. O tengo una novela y quiero saber si es de ciencia-ficción o de misterio. O quizás una publicación científica y quiero saber si es sobre medicina o ingeniería. Estos son todos problemas de clasificación de texto.

   Un enfoque posible para la resolución de este problema es encararlo por el lado estadístico, entonces diría que tengo n documentos, y x clases posibles, mi pregunta pasa a ser entonces: ¿cuál es la probabilidad de que el documento d pertenezca a la clase c?

   Parafraseado como probabilidad condicional: dado el documento d, ¿cuál es la probabilidad de que pertenezca a c?  = P(c | d)
    Y por el teorema de Bayes puedo  plantear lo siguiente:

P(c | d) = P(d | c) P(c)
                     P(d)

Y con un poco de ingenio puedo resolver este calculo.  :-)