logotipo Poppins


inicio

entrenamiento

prueba

Un cambio (03/11/2012):
A partir de ahora todo el programa
está en codificación de caracteres
UTF8, lo cual permite trabajar en
lenguas como el árabe. Para ello es
necesario subir el corpus en esta
codificación.

  • Permite registrarse como usuario
  • Permite subir ficheros .zip
  • Genera archivos .zip con los documentos clasificados


Estás conectado como user54.167.202.184
Desconectar

Login con otro usuario|| Alta como nuevo usuario (Se puede usar el programa sin registrarse. En ese caso el nombre de usuario será el número ip. El problema es que si el ip es dinámico, la sesión se terminará cuando cambie el ip).

   

Este software permite clasificar documentos en dos pasos.

En la fase de Entrenamiento se le enseña al programa ejemplos de documentos ordenados en clases, para que en la etapa de Clasificación siga clasificando documentos nuevos con el mismo criterio.
Con el botón entrenamiento ingresamos el nombre de cada clase y agregamos uno a uno tantos documentos de esa clase como sea posible (el rendimiento mejora con la cantidad).
Tienen que ser simples archivos de texto ASCII, no archivos de Word. Es decir, tienen que tener extensión .txt; (aunque también acepta otras extensiones como htm; xml; sgm; sgml; etc).
Se puede subir archivos .zip, esto es altamente recomendable para no perder tiempo siubiendo ficheros si se trata de un conjunto numeroso. Es necesario definir más de una clase. No hay límite en la cantidad de clases ni documentos (aunque el servidor sí tiene un límite de capacidad).
Una vez finalizado el entrenamiento, haciendo un click en el botón clasificación el programa le pedirá que agregue los documentos a clasificar.

Ejemplo de funcionamiento con los Federalist Papers
(un famoso caso de autoría disputada, más info sobre el caso de los Federalist Papers en Wikipedia )

Ejemplo de funcionamiento con otro corpus de autoría disputada (compilado por M. Sánchez Pol en su proyecto de tesis. Este es el experimento descrito en el paper An Extremely Simple Authorship Attribution System cuya referencia aparece más abajo).

Ejemplo de funcionamiento con el Corpus del IULA (clasificando por tema documentos de economía, medicina e informática).

Un proyecto de Rogelio Nazar. Diseño gráfico: Fulanoymengano.com

Documentos relacionados con este proyecto:

  • Nazar, R & Sánchez Pol, M. (2006). "An Extremely Simple Authorship Attribution System", (PDF), Proceedings of the Second European IAFL Conference on Forensic Linguistics / Language and the Law, Barcelona 2006.
    En este artículo describimos un experimento utilizando el algoritmo para resolver problemas de autoría disputada.

  • Nazar, R. (2007). "Explotación estadística de corpus: análisis conceptual y clasificación de documentos" (PDF), Seminario dictado en el Institut Universitari de Lingüística Aplicada, febrero 2007.
    Esta es la transcripción de un seminario que trata sobre tres temas distintos. Uno de ellos es la clasificación de documentos utilizando este algoritmo.