Se lo llama así porque es muy simple aunque funciona muy bien, de hecho con grandes volúmenes de datos funciona mejor que otros métodos.
Stupid Backoff Smoothing
Básicamente este algoritmo usa el cálculo directo, es decir la cantidad de veces que aparece el n-grama divido la cantidad de veces que aparece el n-grama menos el último termino: Wi, (sería el n-1 grama) esto si la cantidad es mayor que cero, sino usa una constante: 0.4 por el valor de Stupid Backoff para el n-grama sin el primer término, y así si no encuentra nada utiliza la probabilidad del unigrama: S(Wi)
Fíjense que no es un cálculo de probabilidades, ya que no hay descuento en los valores originales.
ejemplo:
el corpus es: "<s>en un plato de trigo tres tristes tigres comen trigo</s>
<s>donde un plato de</s>"
S(en | un plato de trigo) = count( "en un plato de trigo")
count("un plato de trigo")
S(donde| un plato de trigo) = 0.4 x count( "donde un plato de")
count("un plato de")
No hay comentarios:
Publicar un comentario