MANDINGA

Word Sense Induction Algorithm


Version: May 9, 2022
This version is now available for Spanish, English and French.
Pegar aquí una palabra y seleccionar lengua/ Paste a word here and select language
(por el momento solo unidades monoléxicas) /only single words at the moment


Ejemplos de palabras polisémicas en castellano:
blazer, virus, viral, bajista, ratón, destornillador.
Examples of polysemous words in English:
blazer, virus, viral, mouse, screwdriver.
Exemples de mots polysémiques en français :
blazer, virus, viral, souris.

Mandinga, our dear old word sense induction algorithm, is now back online, after many years forgotten. Given an input word, it tells if said unit is polysemous and, if so, it produces a list of the possible senses. Of course, it does not use any lexicographic resource. It does all using only corpora and graph-based co-occurrence algorithms.

Este script acepta un término y determina si es o no polisémico y, de serlo, cuáles son sus significados principales. Funciona por medio de la extracción de concorancias del corpus TenTen (2012), y el resultado es una agrupación de estas concordancias en función de los significados que se detectan. El sistema fue presentado por primera vez en mayo de 2008 como una aplicación posible de los algoritmos basados en grafos de coocurrencia (Nazar, 2010) . Para una descripción con algo más de detalle de este algoritmo en particular y del problema general de la inducción de sentidos ver Nazar (2013).

Con la desaparición del servidor melot.upf.edu había quedado fuera de línea hasta hoy. A diferencia del original, sin embargo, en esta versión recién resucitada solamente buscamos las palabras en el corpus TenTen, no en internet. Hay que tener en cuenta que este corpus es del año 2012, por lo que no habrá no habrá ningún sentido reciente hasta que consigamos un corpus más actualizado. Inicialmente, había sido aplicado también sobre un corpus diacrónico para detectar cambio semántico (Nazar y Vidal, 2008) , pero en la versión que se ofrece aquí el corpus es solo sincrónico.

Referencias:
/ References:
Nazar, R. (2010). A Quantitative Approach to Concept Analysis. PhD Thesis. IULA, Universitat Pompeu Fabra.
http://tdx.cat/handle/10803/7516


Nazar, R. (2013). Word Sense Discrimination Using Statistic Analysis of Texts. Barcelona Research Art Creation, vol. 1, no. 1.
http://www.hipatiapress.info/hpjournals/index.php/brac/article/download/608/566


Nazar, R.; Vidal, V. (2008). Aproximación cuantitativa a la neología. En Mª. Teresa Cabré, Ona Domènech, Rosa Estopà, Judit Freixa y Mercè Lorente (eds.) Actes del I Congrés Internacional de neologia de les llengües romàniques, CD-ROM. Barcelona: IULA.
http://www.tecling.com/nazar/CINEO_Nazar_Vidal.pdf