martes, 16 de octubre de 2012

N-Gramas: Algunas herramientas

SRILM


"Conjunto de herramientas para la construcción y aplicación de modelos estadísticos del lenguaje, principalmente para su uso en el reconocimiento de voz."

http://www.speech.sri.com/projects/srilm/

Entre las herramientas cuenta con una llamada: "ngram-count",

Google N-Gramas


Google puso a disposición del publico general su modelo de lenguaje basado en n-gramas, les dejo un resumen de estos modelos:


Number of tokens:    1,024,908,267,229
Number of sentences:    95,119,665,584
Number of unigrams:         13,588,391
Number of bigrams:         314,843,401
Number of trigrams:        977,069,902
Number of fourgrams:     1,313,818,354
Number of fivegrams:     1,176,470,663


http://googleresearch.blogspot.com.ar/2006/08/all-our-n-gram-are-belong-to-you.html

No hay comentarios:

Publicar un comentario