Bifid: Parallel corpus alignment at the document, sentence and vocabulary levels
Bifid is a program for parallel corpora alignment:
Web demo: http://www.bifidalign.com/
State of this project on January 17, 2021:
Last year we had to interrupt this service due to security
issues detected in the server and our lack of time to solve them. We had to put
the server down until we had the time for a compelete overhaul of that piece of machinery.
But in the meantime, we have been planning also to improve Bifid's software
making it less computationally expensive and easier to install in other hardware.
Up to now, Bifid was too dependent on the Jaguar Project, which has problems of its own.
So what we are doing is to integrate parts of Jaguar's code into Bifid and also doing
some other major changes, with the inclusion of preloaded information about different languages.
This is a significant departure from the original project, explained in these publications:
Nazar, R. (2011). Parallel corpus alignment at the document, sentence and vocabulary levels.
Procesamiento del Lenguaje Natural, n. 47.
Nazar, R. (2012). Bifid: un alineador de corpus paralelo a nivel de documento, oración y vocabulario.
Linguamatica, vol. 4, no. 2.
One of the interesting features of the original proposal was the aim at total
linguistic agnosticism. Ideally, we will try to maintain some functionality for the
cases of languages unknown for the system. But from a practical point of view,
it could be argued that there is no need for the said agnosticism in the case
of well-known languages like English, Spanish, French, German and others.
Such knowledge would help Bifid take better decisions and faster.
The situation on the ground today is the following:
We have considerably improved our ability to detect sentences, and we have
a new prototype to do just that:
Segusmund
We also developed a language detection algorithm that also detects
fragments writen in languages other than the main one. We call it
Linguini
In the coming days (or, probably, weeks!) we will be working in integrating all this in the
new version of Bifid.
If you have questions, feel free to send email: rogelio dot nazar at pucv dot cl
Error while reading file.
References:
Nazar, R. (2011). "Parallel corpus alignment at the document, sentence and vocabulary levels". Procesamiento del Lenguaje Natural, n. 47.
Nazar, R. (2012). "Bifid: un alineador de corpus paralelo a nivel de documento, oración y vocabulario". Linguamatica, vol. 4, no. 2.
Contact: rogelio.nazar at gmail.com
Related concepts: Parallel Corpus Alignment, Bilingual Vocabulary Extraction, Machine Translation, Computational Linguistics, Computational Lexicography
|
DSELE: a dictionary of Spanish verbs with 'se'
Web demo: http://www.tecling.com/dsele
DSELE is the proposed model of a Dictionary verbs with "se" for ELE. A sample of verbs is available for online consultation. It is based on an analysis of 13,754 total corpus concordances, which results in the analysis of 273 usage patterns (CPA patterns). Such patterns are also available online. In the model, concordances are used as examples, and patterns are transformed into definitions. The
verbal entry of the proposed model gives visibility to the grammatical information and not just semantics, and takes into account the degree of information to which the student has access. Therefore, an initial index incorporates a central column which is largely semantic information and a column to the right where the most grammatical information is situated.
Related publications:
+ Renau, I. (2014). Entre el léxico y la gramática: diccionarios de ELE para el aprendizaje de los verbos pronominales. XXV Congreso Internacional de la ASELE. La enseñanza de ELE centrada en el alumno. Madrid, 2014.
Contact: irene.renau at gmail.com
|
EMaD:
Introducción
Emad es una herramienta que permite encontrar y clasificar elementos lingüísticos que, en un texto dado, funcionan como marcadores discursivos. Su implementación computacional se basa en los resultados (provisorios) de un proyecto de investigación en curso en lingüística computacional que tiene por objetivo la creación de un detector y clasificador automático de marcadores discursivos (Robledo, Nazar y Renau, 2017; Robledo y Nazar, 2018). La particularidad de este proyecto es que en él se recurre a una metodología totalmente inductiva, basada en datos obtenidos de grandes corpus textuales para la extracción y la clasificación de elemententos lingüísticos que pueden funcionar como marcadores del discurso.
Demo Web: http://www.tecling.com/cgi-bin/emad
La interfaz está en línea desde agosto 2018 y funciona solamente en castellano.
Metodología de clasificación
La metodología de extracción y clasificación de marcadores del discurso está basada en datos de corpus paralelos alineados a nivel de oración. La clasificación que aquí se propone se origina a partir de un proceso de agrupación por clusters jerárquicos (Rokach y Maimon, 2005; Dixon, 2003). El clustering es algoritmo estadístico que agrupa automáticamente los elementos, en virtud de la similitud entre sus componentes. El objetivo del clustering es, por lo tanto, identificar particiones en un conjunto no estructurado de objetos descritos según ciertos atributos (clasificación no supervisada). Esta identificación se basa solo en estos atributos y no requiere de ningún dato anotado.
Corpus de referencia de la clasificación
En esta investigación se ha recurrido a los datos paralelos bilingües proporcionados por el OPUS Corpus (Tiedemann, 2012, 2016). En este caso, se seleccionaron los textos paralelos español-inglés e inglés-español, fundamentalmente, debido a la disponibilidad de los datos: 1,1 mil millones de tokens en total para estos bitextos. El formato elegido es el tmx (memoria de traducción), alineado a nivel de oración. El proyecto OPUS Corpus (Tiedemann, 2012, 2016) proporciona conjuntos de datos paralelos que cubren varios dominios y están disponibles online de forma pública y gratuita (http://opus.nlpl.eu/).
Procesamiento de los datos: experimentos en lengua española
El procesamiento de los datos se inicia con la descarga del corpus paralelo español-inglés de la web del Opus Corpus y termina con la formación de los clusters o conjuntos de elementos aglomerados a partir de procedimiento de clustering jerárquico aglomerativo. Estos clusters preliminares darán origen a las categorías de marcadores discursivos que se proponen en este trabajo.
Una vez descargados los archivos en formato tmx, se procede a su lectura automática implementando instrucciones de búsqueda a través de expresiones regulares y se extraen todos los segmentos textuales que ocurren entre signos de puntuación en cada lengua. Una vez aplicados una serie de filtros para seleccionar los segmentos textuales candidatos a marcadores discursivos (número de subcorpus en que ocurre una expresión, eliminación de nombres comunes), se cuenta con dos listados independientes de candidatos a marcadores discursivos en ambas lenguas. Se procede a alinear las unidades léxicas de estos listados en ambas lenguas a partir del cálculo del grado de asociación estadística en el corpus para obtener un conjunto de marcadores en inglés correspondientes a cada marcador discursivo en español de la lista. Por ejemplo, para el marcador en español "no obstante" se obtuvo un conjunto de marcadores correspondientes en inglés, ordenados según el grado de asociación estadística entre las ocurrencias de ellos en el corpus paralelo: however, nevertheless, though, nonetheless, entre otros.
Luego, de manera análoga, se procede a realizar el mismo procedimiento pero partiendo de los marcadores en inglés. De manera que, por cada marcador en inglés se obtiene un conjunto de marcadores correspondientes en español, ordenados según el grado de asociación estadística de sus coocurrencias en el corpus paralelo. El resultado es la obtención de datos en lengua española ordenados en una tabla que contiene, para cada marcador en español, un listado de otros marcadores en la misma lengua que cumplen una función similar en el corpus. A partir de estos datos se generan un total de {número de marcadores en español} vectores binarios compuestos por {número de marcadores en español} atributos, donde cada uno de ellos se rellenará con un 1 o un 0, dependiendo de si la coordenada del vector corresponde a o no a un marcador que está en la lista de atributos del marcador representado por ese vector. Estos datos binarios se procesan luego con un software estadístico para generar aglomeraciones de marcadores discursivo agrupados en virtud de su similitud y de la diferencia con los demás elementos. Para esto se usa el coeficiente de Jaccard como medida de similitud entre los vectores binarios y el algoritmo de Ward o el método de la media para obtener las aglomeraciones o clusters. Este método permite seleccionar el número de clusters finales que, para este elemento fue de 100. Finalmente, estos clusters son evaluados manualmente y etiquetados según nombres descriptivos extraídos de la literatura sobre marcadores discursivos en español, por ejemplo, "contraargumentativos", "causales", "consecutivos", entre otros.
Las categorías de la clasificación
Las etiquetas para las distintas categorías se escogieron manualmente inspirándose en los nombres de categorías de marcadores de distintas clasificaciones en la literatura en lengua española (Casado Velarde, 1993; Fuentes Rodríguez, 1996, 1998, 2009;Portolés, 1998; Calsamiglia y Tusón, 1999; Martín Zorraquino y Portolés, 1999; Montolío, 2001; Pons, 2000, 2004; Santos Río, 2003; Briz, Pons y Portolés, 2008). Las etiquetas escogidas (provisoriamente) para cada categoría y los marcadores que agrupan son las siguientes.
Adición
|
además
además de esto
adicionalmente
asimismo
aún más
es más
in addition
independientemente de ello
lo que es más
más aun
más aún
por añadidura
por cierto
por lo demás
por otra parte
por otro lado
y lo que es más
|
AditivosIndefinidos
|
entre otras cuestiones
entre otras medidas
entre otras razones
entre otros aspectos
entre otros elementos
entre otros factores
entre otros medios
entre otros objetivos
inter alia
|
AditivosSemejantes
|
a la vez
a su vez
análogamente
bajo cualquier forma
cabe señalar
como de costumbre
como es habitual
como siempre
de forma análoga
de forma paralela
de forma semejante
de forma similar
de igual forma
de igual manera
de igual modo
de la misma forma
de la misma manera
de manera análoga
de manera similar
de modo similar
del mismo modo
en el mismo sentido
en paralelo
esta es
este es
igualmente
paralelamente
se trata
simultáneamente
también
y
|
Argumentativos
|
a partir de ahí
aunque
aún más importante
básicamente
como se indica a continuación
como sigue
de la manera siguiente
de nuevo
desde allí
en el fondo
en esencia
esencialmente
fundamentalmente
insisto
lo que es más importante
lo repito
más importante
más importante aún
nuevamente
partiendo de esta base
pero sobre todo
por encima de todo
por sobre todo
principalmente
repito
sobre esa base
sobre esta base
sobre todo
también en este caso
una vez más
y lo que es más importante
y sobre todo
|
Conclusivos
|
antes de acabar
como punto final
en definitiva
en fin
en último lugar
finalmente
para acabar
para concluir
para finalizar
para terminar
por fin
por ultimo
y finalmente
y por último
a fin de cuentas
a la larga
a la postre
a modo de conclusión
al final
al final del día
al menos
como conclusión
como mínimo
con el tiempo
concluyendo
cuando menos
después de todo
en conclusión
en resumen
en última instancia
en último término
para resumir
por decir lo menos
por lo menos
por no decir algo peor
por no decir más
|
Condicionales
|
a condición de que
a que
al principio
así como
aunque no exclusivamente
bajo ciertas condiciones
bajo determinadas condiciones
cuando
cuando así proceda
cuando convenga
cuando corresponda
cuando proceda
cuando procede
cuando resulte apropiado
cuando sea necesario
cuando sea oportuno
cuando sea pertinente
dadas las circunstancias
de lo contrario
de no ser así
de otra forma
de otra manera
de otro modo
de ser así
de ser necesario
donde
en caso afirmativo
en caso contrario
en caso de necesidad
en caso de que
en caso necesario
en caso negativo
en determinadas condiciones
en esas circunstancias
en estas circunstancias
en estas condiciones
en los casos en que
en otro caso
en particular
en tales circunstancias
en un primer momento
en un principio
entre ellas
entre ellos
entre otras
entre otras cosas
entre otros
eventualmente
incluido
inicialmente
llegado el caso
o bien
que incluya
según convenga
según corresponda
según el caso
según los casos
según proceda
según sea el caso
si así fuera
si es así
si es necesario
si es preciso
si fuera así
si fuera necesario
si fuere necesario
si fuese necesario
si ha lugar
si no
si no es así
si resulta necesario
siempre que
siempre que sea necesario
siempre y cuando
teniendo en cuenta
y en caso afirmativo
|
Consecutivos
|
dado que
habida cuenta de que
puesto que
ya que
a consecuencia de ello
a raíz de ello
a resultas de ello
así
así pues
así que
como consecuencia
como consecuencia de ello
como resultado
como resultado de ello
como resultado de esto
como tal
como tales
con esto en mente
consecuentemente
consiguientemente
de ahí que
de esa forma
de esa manera
de ese modo
de esta forma
de esta manera
de este modo
de manera que
de modo que
debido a ello
en consecuencia
por consiguiente
por ello
por ende
por esa razón
por esas razones
por ese motivo
por eso
por esos motivos
por esta razón
por estas razones
por este motivo
por esto
por estos motivos
por lo tanto
por tal motivo
por tal razón
por tanto
por todas estas razones
por todo ello
por todos estos motivos
pues
teniendo esto en cuenta
teniendo esto presente
|
Contraargumetativos
|
a la inversa
a ser posible
al contrario
cuando sea posible
de ser posible
en contraste
en la medida de lo posible
en lo posible
en lugar de ello
en lugar de eso
en lugar de esto
en su lugar
en vez de ello
en vez de eso
inversamente
mejor dicho
más bien
si cabe
si es posible
si fuera posible
siempre que sea posible
sino que
todo lo contrario
a cambio
como contrapartida
y sin embargo
a pesar de ello
a pesar de todo
ahora bien
al mismo tiempo
así y todo
aun así
aún así
con todo
de todas formas
de todos modos
en cambio
en cualquier caso
en la práctica
en todo caso
es decir
no obstante
pero
pese a ello
por el contrario
sin embargo
|
Demanda
|
muy brevemente
sabe
saben
sabes
seré muy breve
si me lo permite
usted sabe
ya saben
ya sabes
|
Digresores
|
a propósito
casualmente
dicho sea de paso
|
Distribuidores
|
de otro lado
de un lado
de una parte
en contrapartida
mientras que
pero por otro lado
por contra
por el otro
por el otro lado
por la otra
por otra
por otro
por su parte
por un lado
por una parte
y por otra
y por otra parte
y por otro
|
Ejemplificadores
|
a modo de ejemplo
a título de ejemplo
así por ejemplo
como
como ejemplo
como por ejemplo
concretamente
consideremos
en concreto
en dichos casos
en el caso presente
en el caso que nos ocupa
en el presente caso
en ese caso
en esos casos
en especial
en este caso
en este caso concreto
en este caso particular
en estos casos
en inglés
en tal caso
en tales casos
especialmente
este es el caso
muy especialmente
más concretamente
particularmente
por ejemplo
por poner un ejemplo
tomemos
y en particular
|
Finalizativos
|
a este efecto
a este fin
a estos efectos
a tal efecto
a tal fin
con ese fin
con esta finalidad
con este fin
con este objetivo
con este propósito
con tal fin
para ello
para este fin
para que
para tal fin
|
Modalizadores
|
ciertamente
claro está
como es lógico
como es natural
como es obvio
cómo no
desde luego
evidentemente
lógicamente
naturalmente
obviamente
por descontado
por supuesto
sin duda
y por supuesto
a decir verdad
de hecho
efectivamente
en efecto
en realidad
en verdad
realmente
a mi entender
a mi juicio
a mi modo de ver
a mi parecer
a nuestro entender
a nuestro juicio
a nuestro modo de ver
a nuestro parecer
a su juicio
a título personal
afortunadamente
al igual que usted
al igual que ustedes
así lo espero
como bien sabe
como es sabido
como sabe
como sabe usted
como saben
como saben ustedes
como se sabe
como usted sabe
como ustedes saben
como ya sabemos
como ya saben
como bien sabemos
como sabemos
como todos sabemos
considero
creo que
creo
creo yo
desafortunadamente
desde mi punto de vista
desde nuestro punto de vista
desgraciadamente
en lo que a mí respecta
en mi opinión
en nuestra opinión
en su dictamen
en su opinión
espero
espero que
felizmente
lamentablemente
me parece
para mí
para nosotros
personalmente
por desgracia
por fortuna
por lo que a mí respecta
por mi parte
por suerte
quizá
quizás
según creo
tal vez
tristemente
yo creo
hasta donde yo sé
indudablemente
por lo que sé
que yo sepa
sin duda alguna
sin lugar a dudas
como norma
como norma general
como regla general
de forma general
de manera general
en conjunto
en general
en líneas generales
en principio
en su conjunto
en total
en términos generales
generalmente
globalmente
letras a y b
por lo general
por norma
por norma general
por regla general
|
Ordenadores
|
en cuarto lugar
ante todo
antes de nada
antes que nada
en primer lugar y ante todo
en primer lugar y sobre todo
en primer término
en primera instancia
para comenzar
para empezar
primeramente
en primer lugar
en quinto lugar
en segundo
en segundo lugar
en segundo término
en tercer lugar
en tercer término
segundo
y cuarto
y en cuarto lugar
y en segundo lugar
y en tercer lugar
y segundo
y tercero
|
OrdenadoresTemporales
|
a continuación
a estas alturas
a la fecha
actualmente
ahora
ahora mismo
con posterioridad
de momento
después
después de eso
después de esto
en aquel entonces
en aquel momento
en aquella época
en el día de hoy
en el momento actual
en el ínterin
en esa época
en ese momento
en esta etapa
en esta fase
en este momento
en estos momentos
en la actualidad
en su momento
entonces
entre tanto
hasta ahora
hasta el momento
hasta la fecha
hoy día
hoy en día
hoy por hoy
luego
mientras
mientras tanto
más adelante
más tarde
por ahora
por el momento
posteriormente
ulteriormente
|
Reformulativos
|
con inclusión
en su caso
incluso
incluyendo
si procede
a saber
así es
bien
como decía
como digo
como dije
como he dicho
como sea
como ya he dicho
como ya he señalado
con otras palabras
de acuerdo
de cualquier modo
de forma más general
de manera más general
de todas maneras
digo
en algunos casos
en ciertos casos
en determinados casos
en nombre de la comisión
en otras palabras
en otros
en otros términos
en términos más generales
eso es
eso es todo
esto es
está bien
muy bien
más generalmente
o sea
pues bien
quiero decir
sea como fuere
vamos
vaya
y bien
|
Sintetizadores
|
en breve
en pocas palabras
en resumidas cuentas
en suma
en síntesis
en una palabra
resumiendo
|
Tematizadores
|
a ese respecto
a este propósito
a este respecto
al respecto
allí
aquí
dentro de este marco
desde este punto de vista
en ese contexto
en ese marco
en ese sentido
en este aspecto
en este contexto
en este marco
en este punto
en este sentido
en relación con ello
en tal sentido
|
Polifuncionalidad de los marcadores discursivos
En una etapa posterior, se pretende examinar el fenómeno de la polifuncionalidad de los marcadores discursivos en el corpus de estudio. Con ello, se espera obtener la adscripción de un marcador del discurso a una o más categorías, según si el elemento cumple o no más de una función en el corpus.
Publicaciones relacionadas:
+ Robledo, H.; Nazar, R. (2018). "Una clasificación automatizada de marcadores discursivos", Procesamiento del Lenguaje Natural, n. 61, pp 109-116.
Concepts relacionados:
Contact: rogelio.nazar at gmail.com
|
Estilector:
This proposal is aimed at improving academic writing skills of students through the creation, development and implementation of a web tool that assists in detecting these problems of style that can be found in drafting academic work. It offers additional explanations, bibliographic support and online resources. The tool is not intended to correct grammatical or spelling errors, but those problems such as repeating words close in the text, poor vocabulary, the use of colloquialisms, the unequal structure of paragraphs, and so on. All these issues cannot be detected by programs such as Word, and yet they are critical to academic achievement. Our proposal is not to create a merely "corrector", but a teaching tool that fosters independent learning because the student can work on these aspects independently of the work of the classroom, albeit also complementary. The idea is that the tool will help students improve their writing during the process of performing the task. In addition, the program also encourages autonomy in the sense that it suggests solutions to the student, but does not correct the text, so that it is the student who ultimately decides whether or not the suggested changes apply.
Web demo: http://www.estilector.com/
Contact: rogelio (dot) nazar (at) gmail.com
|
GeNom:
GeNom: automatic detection of the gender of proper names
is a project we have been granted on June 20, 2017, funded by the
Technology Prototypes track of the Innovation and Entrepreneurship 2017 Competition
(Vicerrectoría de Investigación y Estudios Avanzados - Pontificia Universidad Católica de Valparaíso).
The result is offered as a web service for batch processing of information for terminography or lexicography projects
or for mailing purposes.
Abstract:
This software is designed to automatically determine the gender of a list of names based on their co-occurrence with words and abbreviations in a large corpus.
GeNom is different from other forms of automatic name gender recognition software because it is based on natural language processing and does not rely on
already compiled lists of first names, systems that get quickly outdated and cannot analyze previously unseen names.
GeNom uses corpora to address the problem, because it offers the possibility of obtaining real and up-to-date name-gender links
and performs better than machine learning methods: 93% precision and 88% recall on a database of ca. 10,000 mixed names.
This software can be used to conduct large scale studies about gender, as gender bias for example, or for a variety of other NLP tasks,
such as information extraction, machine translation, anaphora resolution and others.
It is designed to work with Spanish names, as it works with a Spanish corpus, but it will be able to process names in other languages as well, provided that they use the same alphabet.
Web demo: http://www.tecling.com/genom
The interface is at the moment only in Spanish.
Contact: rogelio.nazar (imagine the 'at' symbol here) gmail.com
|
Jaguar:
Jaguar is a tool for corpus exploitation. This software can analyze textual corpora from a user or from the web and it is currently available as a web application as well as a Perl module. The functions that are available at this moment are: vocabulary analysis of corpora, concordance extractions, n-gram sorting and measures of association, distribution and similarity.
Jaguar is essentially a Perl module instantiated as a web application. A web application has the advantage of being executable in any platform without installation procedures. However, with the module users are capable of building their own sequence of procedures, taking the output of a process to be the input of another process. The web interface has the limitation that only one procedure can be executed at a time, meaning that the output of a process has to be manually fed as input for the next process.
Since July 2016, this project is funded by
the Innovation and Entrepeneurship 2016 Program of Pontificia Universidad Católica de Valparaíso, within the "Technological Prototyes" track.
The project is a full renovation and extension of the old "Jaguar Project" carried out at Universitat Pompeu Fabra in Barcelona from 2006 to 2012. The title of the current project is: "Jaguar: an open-source prototype for quantitative corpus analysis"
The results of this project will be officialy presented in January 2017 at the university headquarters, in Av. Brasil #2950, Valparaíso, Chile.
We are also planning to offer an introductory Workshop on the use of this tool in the summer of 2017, maybe in Valparaíso, maybe in Santiago, or maybe in both places. Drop a line if interested.
Web demo: http://www.tecling.com/jaguar
Related publications:
+ Nazar, R.; Vivaldi, J.; Cabré, MT. (2008). A Suite to Compile and Analyze an LSP Corpus. Proceedings of LREC 2008 (The 6th edition of the Language Resources and Evaluation Conference) Marrakech (Morocco), May 28-30, 2008.
We are preparing a new paper to describe the new version of the program.
Related concepts: corpus exploitation, concordances, n-grams, measures of association, distribution and similarity
Contact: rogelio.nazar at gmail.com
|
KIND (aka The Taxonomy Project)
We designed a statistically-based
taxonomy induction algorithm consisting of a combination of different strategies not involving explicit linguistic knowledge. Being all
quantitative, the strategies we present are however of different nature. Some of them are based on the computation of distributional
similarity coefficients which identify pairs of sibling words or co-hyponyms, while others are based on asymmetric co-occurrence and
identify pairs of parent-child words or hypernym-hyponym relations. A decision making process is then applied to combine the results
of the previous steps, and finally connect lexical units to a basic structure containing the most general categories of the language. We
evaluate the quality of the taxonomy both manually and also using Spanish Wordnet as a gold-standard. We estimate an average of
89.07% precision and 25.49% recall considering only the results which the algorithm presents with high degree of certainty, or 77.86%
precision and 33.72% recall considering all results.
Website: http://www.tecling.com/kind
Funding:
This research is supported by a grant from the Chilean
Government: Conicyt-Fondecyt 11140686, “Inducción
automática de taxonomías de sustantivos generales y especializados a partir de corpus textuales desde el enfoque de
la lingüística cuantitativa” (Automatic taxonomy induction from corpora for terminology and general vocabulary using quantitative measures). Lead researcher: Rogelio Nazar.
Related publications:
+ Nazar, R.; Balvet, A.; Ferraro, G.; Marín, R.; Renau, I. (2020). "Pruning and repopulating a lexical taxonomy: experiments in Spanish, English and French". Journal of Intelligent Systems, vol. 30 num. 1, pp. 376-394.
+ Nazar, R.; Obreque, J.; Renau, I. (2020). "Tarántula –> araña –> animal : asignación de hiperónimos de segundo nivel basada en métodos de similitud distribucional". Procesamiento del Lenguaje Natural, núm 64, pp. 29-36.
+ Nazar, R.; Soto, R.; Urrejola, K. (2017). Detección automática de nombres eventivos no deverbales en castellano: un enfoque cuantitativo basado en corpus. Revista Linguamatica, vol. 9, num. 2, pp. 21-31.
+ Nazar, R.; Arriagada, P. (2017). POL: un nuevo sistema para la detección y clasificación de nombres propios. Procesamiento del Lenguaje Natural, n. 58, pp. 13-20.
+ Nazar, R., Renau, I. (2016). “A Quantitative analysis of the semantics of verb-argument structures”. In S. Torner and E. Bernal (eds.), Collocations and other lexical combinations in Spanish. Theoretical and Applied approaches. New York: Routledge, pp. 92-109.
+ Nazar, R. (2016). Distributional analysis applied to terminology extraction: example in the domain of psychiatry in Spanish. Terminology: International Journal of Theoretical and Applied Issues in Specialized Communication, 22(2):142-170.
+ Nazar, R.; Renau, I. (2016). A taxonomy of Spanish nouns, a statistical algorithm to generate it and its implementation in open source code. Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC'16). European Language Resources Association (ELRA), May 2016.
+ Nazar, R.; Renau, I. (2016). Automatic extraction of lexico-semantic
patterns from corpora. Proceedings of the XVII EURALEX International
Congress: Lexicography and Linguistic Diversity.
Tinatin Margalitadze and George Meladze (eds). Tbilisi, Gergia: Ivane
Javakhishvili Tbilisi State University, pp. 823-830.
+ Nazar, R.; Renau, I. (2015). Agrupación semántica de sustantivos
basada en similitud distribucional: implicaciones lexicográficas. In
María Pilar Garcés Gómez (ed.): "Lingüística y diccionarios" (Anexos
Revista de Lexicografía, vol. 2: 272-295). Universidade da Coruña.
+ Nazar, R.; Renau, I. (2015). Ontology Population Using Corpus Statistics. Proceedings of the Joint Ontology Workshops 2015
co-located with the 24th International Joint Conference on Artificial
Intelligence (IJCAI 2015). Buenos Aires, Argentina, July 25-27, 2015.
Related concepts: corpus statistics, distributional semantics, Spanish, taxonomy induction
|
KWiCo:
This project is part (or a "spin-off") of the Perl module Jaguar, which is currently ongoing with funding from
the Innovation and Entrepeneurship 2016 Program of Pontificia Universidad Católica de Valparaíso, within the "Technological Prototyes" track.
KWiCo is a corpus indexing algorithm. It takes a corpus as input and produces a table with an index of the corpus, thus significantly reducing the time needed to retrieve concordances, especially when the corpus is very large.
Web demo: http://www.tecling.com/kwico
Source code and documentation:
http://www.tecling.com/index.php?l=kwico_source
Comments within the same scripts are at the moment only in Spanish but we are working in their translation to English.
|
NEVEN
We present a study in the field of the automatic
detection of non-deverbal eventive nouns, which
are those nouns that designate events but have not
experienced a process of derivation from verbs, such
as fiesta (‘party’) or cóctel (‘cocktail’) and, for this
reason, do not present the typical morphological features
of deverbal nouns, such as -ci´on, -miento, and
are therefore more difficult to detect.
In the present research we continue and extend the
work initiated by Resnik
(2010), who offers a number
of cues for the detection of this type of lexical unit. We
apply Resnik’s ideas and we also add new ones, among
them, the inductive analysis of the words that tend to
co-occur with eventive nouns in corpora, in order to
use them as predictors of this condition. Furthermore,
we simplify the classification algorithm considerably,
and we apply the experiments to a larger corpus, the
EsTenTen (Kilgarriff & Renau, 2013), comprising more
than 9 billion running words. Finally, we present
the first results of the automatic extraction of eventive
nouns from the corpus, among which we find plenty
non-deverbal nouns.
Web demo: http://www.tecling.com/neven
Source code:
http://www.tecling.com/neven/neven.pl
Usage:
perl neven.pl input.txt > result.htm
Beforehand, you need the contexts of occurrence of a word extracted from the corpus. But you will need to edit the script
in order to set the right path to the folder where the contexts are stored. These concordances
are stored in a file bearing the same name of the word's lemma.
You can obtain these concordances from any corpus using our free corpus concordancer Kwico.
Comments in the script are at the moment only in Spanish.
Pending Work: Users interested only in non-deverbal eventive nouns will need a few changes in the script que filter out those nouns having deverbal morphology (e.g. -ción, -miento). What is interesting about this program is that it completely ignores such morphological cues. The morphology filter is a safe and simple method and will be ready soon.
Funding:
This research is supported by a grant from the Chilean
Government: Conicyt-Fondecyt 11140686, “Inducción
automática de taxonomías de sustantivos generales y especializados a partir de corpus textuales desde el enfoque de
la lingüística cuantitativa” (Automatic taxonomy induction from corpora for terminology and general vocabulary using quantitative measures). Lead researcher: Rogelio Nazar.
Related publications:
Nazar, R.; Soto, R.; Urrejola, K. (2017). Detección automática de nombres eventivos no deverbales en castellano: un enfoque cuantitativo basado en corpus. Revista Linguamatica, vol. 9, num. 2, pp. 21-31.
Related concepts: computacional lexicography, inductive corpus analysis,
non-deverbal eventive nouns
Questions or comments? Feel free to drop a line.
|
Termout:
Termout.org is the first implementation of a new method for terminology extraction based on distributional analysis. The intuition behind the algorithm is that single or multi-word lexical units that refer to specialised concepts will show a characteristic co-occurrence pattern, described as a tendency to appear in the same contexts with other conceptually related terms. E.g. the term fluoxetine will systematically appear in the same sentences with other related terms such as depression, serotonin reuptake inhibitor, obsessive–compulsive disorder and others. Of course, terms will co-occur with general vocabulary units as well, but not with a characteristic pattern as when a conceptual relation holds. Experimental evaluation of this method was conducted in a corpus of psychiatry journals from Spain and Latin America, and concluded that the results are significantly better than other methods.
Web demo: http://www.termout.org/
A new version of the web interface has been published online today 8 September, 2018.
Related publications:
+ Nazar, R. (2016). Distributional analysis applied to terminology extraction: example in the domain of psychiatry in Spanish. Terminology: International Journal of Theoretical and Applied Issues in Specialized Communication, 22(2):142-170.
Related concepts: co-occurrence, distributional semantics, terminology extraction, topic signatures, text-mining
Contact: rogelio.nazar at gmail.com
|
POL
The purpose of this research is to develop a methodology for the detection
and categorisation of named entities or proper names (PPNN), in the categories of
geographical place, person and organisation. The hypothesis is that the context of
occurrence of the entity –a context window of n words before the target– as well as
the components of the PN itself may provide good estimators of the type of PN. To
that end, we developed a supervised categorisation algorithm, with a training phase
in which the system receives a corpus already annotated by another NERC system.
In the case of these experiments, such system was the open-source suite of language
analysers FreeLing, annotating the corpus of the Spanish Wikipedia. During this
training phase, the system learns to associate the category of entity with words of
the context as well as those from the PN itself. We evaluate results with the CONLL-
2002 and also with a corpus of geopolitics from the journal Le Monde Diplomatique
in its Spanish edition, and compare the results with some well-known NERC systems
for Spanish.
Web demo: http://www.tecling.com/pol
Source code:
http://www.tecling.com/pol/source/sourcePol.zip
It contains:
- config.pm: Configuration file. The user needs to adjust its values before execution.
- poltrain.pl: Script used for training.
- pol.pl: Script used for the actual processing of new data.
- convertmodel.pl: Script used to convert the model produced by poltrain.pl to the model that pol.pl needs to work.
Comments within the same scripts are at the moment only in Spanish.
To train POL for making a new model, you need to have Perl's Storable module installed.
Corpus and models: experiments have only been conducted in Spanish for the moment. Models for new languages will be added in the future. If you would like to help, you are welcome.
- WikipediaFreeling.zip (2,6Gb !!!). This is the training corpus, a Spanish Wikipedia tagged with Freeling.
- Model.zip: An example of model produced after training and conversion, ready to be used with pol.pl.
These models were created
with a x86_64 HP Proliant machine with GenuineIntel CPU 1064.000 MHz running Linux (Ubuntu 14.04). If you have a different kind of machine (e.g., a Desktop pc on Windows), then you will probably need to create the models again by using poltrain.pl.
Funding:
This research is part of the Fondecyt Project 11140686: “Inducción
automática de taxonomías de sustantivos generales y especializados a partir de corpus textuales desde el enfoque de
la lingüística cuantitativa” (Automatic taxonomy induction from corpora for terminology and general vocabulary using quantitative measures). Lead researcher: Rogelio Nazar.
Related publications:
+ Nazar, R.; Arriagada, P. (2017). POL: un nuevo sistema para la detección y clasificación de nombres propios. Procesamiento del Lenguaje Natural, n. 58, pp. 13-20.
Related concepts: Named entities, proper names, text linguistics
|
Poppins:
Poppins a very simple and yet effective algorithm for document categorization.
Text categorization has became a very popular
issue in computational linguistics and it has developed to great complexity, motivating a large
amount of literature.
Document categorization can be used in many scenarios. For instance,
an experiment on authorship attribution can be seen as a text categorization problem.
That is to say, each author represents a category and the
documents are the elements to be classified.
This system can be
used as a general purpose document classifier, for example by content instead of authorship,
because it only reproduces the criterion that it learned during the training phase.
This program is language independent because it uses purely mathematical
knowledge: an n-gram model of texts. It works in a very simple way and is therefore easy to
modify. In spite of its simplicity, this program is capable of classifying documents by author
obtaining more than 90% of accuracy.
Web demo: http://poppinsweb.com/
Document related with this project:
- Nazar, R & Sánchez Pol, M. (2006). "An Extremely Simple Authorship Attribution System",
(PDF),
Proceedings of the Second European IAFL Conference on Forensic Linguistics / Language and the Law, Barcelona 2006.
Contact: rogelio.nazar at gmail.com
|
Verbario:
Verbario is our first attempt to extract lexical patterns using corpus statistics. A pattern is a structure that combines syntactic and semantic features and is linked to a conventional meaning of a word. This means, for example, that the verb to die does not have intrinsic meanings, but potential meanings which are activated by the context: in ‘His mother died when he was five’, the meaning of the verb differs from ‘His mother is dying to meet you’, due to collocational restrictions and syntactic differences. With the automatic analysis of thousands of concordances per verb, we can make a first approach to the problem of detecting these structures in corpora, a very time-consuming task for lexicographers. The average precision is around 50%. The next step to increase precision is adding a dependency parser to the system and make adjustments to the automatic taxonomy we have created for semantic labeling.
Web demo: http://www.verbario.com/
Funding: This research is supported by a grant from the Chilean Government: Conicyt-Fondecyt 11140704, “Detección automática del significado de los verbos del castellano por medio de patrones sintáctico-semánticos extraídos con estadística de corpus” (Automatic Extraction of patterns of use of Spanish verbs using corpus statistics). Lead researcher: Irene Renau.
Related publications:
+ Nazar, R.; Renau, I. (forthcoming). A Quantitative Analysis of the Semantics Of Verb-Argument Structures. In S. Torner and E. Bernal (eds.) "Collocations and other lexical combinations in Spanish. Theoretical and Applied approaches", Routledge.
+ Nazar, R.; Renau, I. (forthcoming). Automatic extraction of lexico-semantic patterns from corpora. Proceedings of EURALEX 2016. Tbilisi, Georgia.
Related concepts: computational lexicography; lexical patterns; Spanish verbs; taxonomy
Contact: irene.renau at gmail.com
|