miércoles, 21 de noviembre de 2012

N-Gramas: Stupid Backoff Smoothing

Cuando estamos trabajando con enormes cantidades de palabras y por ende de n-gramas, como es el caso de la web (pueden ver los n-gramas que Google publicó, dejé el link en este post), es muy común utilizar un algoritmo de Smoothing llamado: "Stupid Backoff".

Se lo llama así porque es muy simple aunque funciona muy bien, de hecho con grandes volúmenes de datos funciona mejor que otros métodos.



Stupid Backoff Smoothing
   


Básicamente este algoritmo usa el cálculo directo, es decir la cantidad de veces que aparece el n-grama divido la cantidad de veces que aparece el n-grama menos el último termino: Wi, (sería el  n-1 grama) esto si la cantidad es mayor que cero, sino usa una constante: 0.4 por el valor de Stupid Backoff para el n-grama sin el primer término, y así si no encuentra nada utiliza la probabilidad del unigrama: S(Wi)

Fíjense que no es un cálculo de probabilidades, ya que no hay descuento en los valores originales.

ejemplo: 

 el corpus es: "<s>en un plato de trigo tres tristes tigres comen trigo</s>
                      <s>donde un plato de</s>"

S(en | un plato de trigo) = count( "en un plato de trigo")
                                        count("un plato de trigo")

S(donde| un plato de trigo) = 0.4 x count( "donde un plato de")
                                                     count("un plato de")


No hay comentarios:

Publicar un comentario