logotipo Poppins


inicio

entrenamiento

prueba

16 de noviembre 2017: Hoy detectamos un error en el sitio pero ya ha sido resuelto. Cualquier otro problema que se detecte rogamos avisarnos por medio de este formulario. ¡Gracias!

Login
|| Alta como nuevo usuario.

   

Este software permite clasificar documentos en dos pasos.

En la fase de Entrenamiento se le enseña al programa ejemplos de documentos ordenados en clases, para que en la etapa de Clasificación siga clasificando documentos nuevos con el mismo criterio.
Con el botón entrenamiento ingresamos el nombre de cada clase y agregamos uno a uno tantos documentos de esa clase como sea posible (el rendimiento mejora con la cantidad).
Tienen que ser archivos de texto plano en formato UTF-8 (extensión .txt). No acepta archivos de Word ni pdf (pero sí extensiones como htm; xml; sgm; sgml; etc).
Se puede subir archivos .zip, esto es altamente recomendable para no perder tiempo siubiendo ficheros si se trata de un conjunto numeroso. Es necesario definir más de una clase. No hay límite en la cantidad de clases ni documentos (aunque el servidor sí tiene un límite de capacidad).
Una vez finalizado el entrenamiento, haciendo un click en el botón clasificación el programa le pedirá que agregue los documentos a clasificar.

Ejemplo de funcionamiento con los Federalist Papers
(un famoso caso de autoría disputada, más info sobre el caso de los Federalist Papers en Wikipedia )

Ejemplo de funcionamiento con otro corpus de autoría disputada (compilado por M. Sánchez Pol en su proyecto de tesis. Este es el experimento descrito en el paper An Extremely Simple Authorship Attribution System cuya referencia aparece más abajo).

Ejemplo de funcionamiento con el Corpus del IULA (clasificando por tema documentos de economía, medicina e informática).

Un proyecto de Rogelio Nazar. Diseño gráfico: Fulanoymengano.com

Documentos relacionados con este proyecto:

  • Nazar, R & Sánchez Pol, M. (2007). "An Extremely Simple Authorship Attribution System", (PDF) In M.T. Turell, J. Cicres, & M. S. Spassova (Eds.), Proceedings of the 2nd European IAFL Conference on Forensic Linguistics / Language and the Law 2006. Barcelona: Documenta Universitaria.
    En este artículo describimos un experimento utilizando el algoritmo para resolver problemas de autoría disputada.