logotipo Poppins

ESTA VERSIÓN ES OBSOLETA Y SERÁ DADA DE BAJA

La nueva versión (14 de octubre 2023) está en el siguiente enlace

Será necesario darse de alta de nuevo y volver a subir el corpus.

THIS VERSION IS OBSOLETE AND WILL SOON BE DESTROYED

The new version (14 October, 2023) is available in the following link

It will be neccesary to register again and reupload the corpus.

poppins

Versión 2005:

Este software permite clasificar documentos en dos pasos.

En la fase de Entrenamiento se le enseña al programa ejemplos de documentos ordenados en clases, para que en la etapa de Clasificación siga clasificando documentos nuevos con el mismo criterio.
Con el botón entrenamiento ingresamos el nombre de cada clase y agregamos uno a uno tantos documentos de esa clase como sea posible (el rendimiento mejora con la cantidad).
Tienen que ser archivos de texto plano en formato UTF-8 (extensión .txt). No acepta archivos de Word ni pdf (pero sí extensiones como htm; xml; sgm; sgml; etc).
Se puede subir archivos .zip, esto es altamente recomendable para no perder tiempo siubiendo ficheros si se trata de un conjunto numeroso. Es necesario definir más de una clase. No hay límite en la cantidad de clases ni documentos (aunque el servidor sí tiene un límite de capacidad).
Una vez finalizado el entrenamiento, haciendo un click en el botón clasificación el programa le pedirá que agregue los documentos a clasificar.

Ejemplo de funcionamiento con los Federalist Papers
(un famoso caso de autoría disputada, más info sobre el caso de los Federalist Papers en Wikipedia )

Ejemplo de funcionamiento con otro corpus de autoría disputada (compilado por M. Sánchez Pol en su proyecto de tesis. Este es el experimento descrito en el paper An Extremely Simple Authorship Attribution System cuya referencia aparece más abajo).

Ejemplo de funcionamiento con el Corpus del IULA (clasificando por tema documentos de economía, medicina e informática).

Un proyecto de Rogelio Nazar. Diseño gráfico: Fulanoymengano.com

Documentos relacionados con este proyecto:

Nazar, R & Sánchez Pol, M. (2007). "An Extremely Simple Authorship Attribution System", (PDF) In M.T. Turell, J. Cicres, & M. S. Spassova (Eds.), Proceedings of the 2nd European IAFL Conference on Forensic Linguistics / Language and the Law 2006. Barcelona: Documenta Universitaria.
En este artículo describimos un experimento utilizando el algoritmo para resolver problemas de autoría disputada.