
 Login
|| Alta como nuevo usuario. |
|
|
ESTA VERSIÓN ES OBSOLETA Y SERÁ DADA DE BAJA
La nueva versión (14 de octubre 2023) está en el siguiente enlace
Será necesario darse de alta de nuevo y volver a subir el corpus.
THIS VERSION IS OBSOLETE AND WILL SOON BE DESTROYED
The new version (14 October, 2023) is available in the following link
It will be neccesary to register again and reupload the corpus.
|
Versión 2005:
Este software permite clasificar documentos en dos pasos.
En la fase de Entrenamiento se le enseña al programa
ejemplos de documentos ordenados en clases, para que en la etapa
de Clasificación siga clasificando documentos nuevos con
el mismo criterio.
Con
el botón entrenamiento ingresamos el nombre de cada
clase y agregamos uno a uno tantos documentos de esa clase como
sea posible (el rendimiento mejora con la cantidad).
Tienen que ser archivos de texto plano en formato UTF-8 (extensión .txt).
No acepta archivos de Word ni pdf (pero sí extensiones como htm; xml; sgm; sgml; etc).
Se puede subir archivos .zip, esto es altamente recomendable para no
perder tiempo siubiendo ficheros si se trata de un conjunto numeroso.
Es necesario definir más de una clase. No hay límite
en la cantidad de clases ni documentos (aunque el servidor sí
tiene un límite de capacidad).
Una vez finalizado el entrenamiento,
haciendo un click en el botón clasificación
el programa le pedirá que agregue los documentos a clasificar.
Ejemplo de funcionamiento con los Federalist Papers
(un famoso caso de autoría disputada,
más info sobre el caso de los Federalist Papers en Wikipedia )
Ejemplo de funcionamiento con otro corpus de autoría disputada
(compilado por M. Sánchez Pol en su proyecto de tesis. Este es el experimento descrito en el paper An Extremely Simple Authorship Attribution System cuya referencia aparece más abajo).
Ejemplo de funcionamiento con el Corpus del IULA
(clasificando por tema documentos de economía, medicina e informática).
Un proyecto
de Rogelio Nazar. Diseño
gráfico: Fulanoymengano.com
Documentos relacionados con este proyecto:
- Nazar, R & Sánchez Pol, M. (2007). "An Extremely Simple Authorship Attribution System",
(PDF)
In
M.T. Turell, J. Cicres, & M. S. Spassova (Eds.), Proceedings of the 2nd European IAFL
Conference on Forensic Linguistics / Language and the Law 2006. Barcelona:
Documenta Universitaria.
En este artículo describimos un experimento utilizando el algoritmo para resolver problemas de autoría disputada.
|