SRILM
"Conjunto de herramientas para la construcción y aplicación de modelos estadísticos del lenguaje, principalmente para su uso en el reconocimiento de voz."
http://www.speech.sri.com/projects/srilm/
Entre las herramientas cuenta con una llamada: "ngram-count",
Google N-Gramas
Google puso a disposición del publico general su modelo de lenguaje basado en n-gramas, les dejo un resumen de estos modelos:
Number of tokens: 1,024,908,267,229 Number of sentences: 95,119,665,584 Number of unigrams: 13,588,391 Number of bigrams: 314,843,401 Number of trigrams: 977,069,902 Number of fourgrams: 1,313,818,354 Number of fivegrams: 1,176,470,663
http://googleresearch.blogspot.com.ar/2006/08/all-our-n-gram-are-belong-to-you.html
No hay comentarios:
Publicar un comentario