Tecling logo   Technologies for Linguistic Analysis
»The World is automatic
EMaD:
Screenshot of EMaD

Introducción

Emad es una herramienta que permite encontrar y clasificar elementos lingüísticos que, en un texto dado, funcionan como marcadores discursivos. Su implementación computacional se basa en los resultados (provisorios) de un proyecto de investigación en curso en lingüística computacional que tiene por objetivo la creación de un detector y clasificador automático de marcadores discursivos (Robledo, Nazar y Renau, 2017; Robledo y Nazar, 2018). La particularidad de este proyecto es que en él se recurre a una metodología totalmente inductiva, basada en datos obtenidos de grandes corpus textuales para la extracción y la clasificación de elemententos lingüísticos que pueden funcionar como marcadores del discurso.

Demo Web: http://www.tecling.com/cgi-bin/emad

La interfaz está en línea desde agosto 2018 y funciona solamente en castellano.

Metodología de clasificación

La metodología de extracción y clasificación de marcadores del discurso está basada en datos de corpus paralelos alineados a nivel de oración. La clasificación que aquí se propone se origina a partir de un proceso de agrupación por clusters jerárquicos (Rokach y Maimon, 2005; Dixon, 2003). El clustering es algoritmo estadístico que agrupa automáticamente los elementos, en virtud de la similitud entre sus componentes. El objetivo del clustering es, por lo tanto, identificar particiones en un conjunto no estructurado de objetos descritos según ciertos atributos (clasificación no supervisada). Esta identificación se basa solo en estos atributos y no requiere de ningún dato anotado.

Corpus de referencia de la clasificación

En esta investigación se ha recurrido a los datos paralelos bilingües proporcionados por el OPUS Corpus (Tiedemann, 2012, 2016). En este caso, se seleccionaron los textos paralelos español-inglés e inglés-español, fundamentalmente, debido a la disponibilidad de los datos: 1,1 mil millones de tokens en total para estos bitextos. El formato elegido es el tmx (memoria de traducción), alineado a nivel de oración. El proyecto OPUS Corpus (Tiedemann, 2012, 2016) proporciona conjuntos de datos paralelos que cubren varios dominios y están disponibles online de forma pública y gratuita (http://opus.nlpl.eu/).

Procesamiento de los datos: experimentos en lengua española

El procesamiento de los datos se inicia con la descarga del corpus paralelo español-inglés de la web del Opus Corpus y termina con la formación de los clusters o conjuntos de elementos aglomerados a partir de procedimiento de clustering jerárquico aglomerativo. Estos clusters preliminares darán origen a las categorías de marcadores discursivos que se proponen en este trabajo. Una vez descargados los archivos en formato tmx, se procede a su lectura automática implementando instrucciones de búsqueda a través de expresiones regulares y se extraen todos los segmentos textuales que ocurren entre signos de puntuación en cada lengua. Una vez aplicados una serie de filtros para seleccionar los segmentos textuales candidatos a marcadores discursivos (número de subcorpus en que ocurre una expresión, eliminación de nombres comunes), se cuenta con dos listados independientes de candidatos a marcadores discursivos en ambas lenguas. Se procede a alinear las unidades léxicas de estos listados en ambas lenguas a partir del cálculo del grado de asociación estadística en el corpus para obtener un conjunto de marcadores en inglés correspondientes a cada marcador discursivo en español de la lista. Por ejemplo, para el marcador en español "no obstante" se obtuvo un conjunto de marcadores correspondientes en inglés, ordenados según el grado de asociación estadística entre las ocurrencias de ellos en el corpus paralelo: however, nevertheless, though, nonetheless, entre otros.

Luego, de manera análoga, se procede a realizar el mismo procedimiento pero partiendo de los marcadores en inglés. De manera que, por cada marcador en inglés se obtiene un conjunto de marcadores correspondientes en español, ordenados según el grado de asociación estadística de sus coocurrencias en el corpus paralelo. El resultado es la obtención de datos en lengua española ordenados en una tabla que contiene, para cada marcador en español, un listado de otros marcadores en la misma lengua que cumplen una función similar en el corpus. A partir de estos datos se generan un total de {número de marcadores en español} vectores binarios compuestos por {número de marcadores en español} atributos, donde cada uno de ellos se rellenará con un 1 o un 0, dependiendo de si la coordenada del vector corresponde a o no a un marcador que está en la lista de atributos del marcador representado por ese vector. Estos datos binarios se procesan luego con un software estadístico para generar aglomeraciones de marcadores discursivo agrupados en virtud de su similitud y de la diferencia con los demás elementos. Para esto se usa el coeficiente de Jaccard como medida de similitud entre los vectores binarios y el algoritmo de Ward o el método de la media para obtener las aglomeraciones o clusters. Este método permite seleccionar el número de clusters finales que, para este elemento fue de 100. Finalmente, estos clusters son evaluados manualmente y etiquetados según nombres descriptivos extraídos de la literatura sobre marcadores discursivos en español, por ejemplo, "contraargumentativos", "causales", "consecutivos", entre otros.

Las categorías de la clasificación

Las etiquetas para las distintas categorías se escogieron manualmente inspirándose en los nombres de categorías de marcadores de distintas clasificaciones en la literatura en lengua española (Casado Velarde, 1993; Fuentes Rodríguez, 1996, 1998, 2009;Portolés, 1998; Calsamiglia y Tusón, 1999; Martín Zorraquino y Portolés, 1999; Montolío, 2001; Pons, 2000, 2004; Santos Río, 2003; Briz, Pons y Portolés, 2008). Las etiquetas escogidas (provisoriamente) para cada categoría y los marcadores que agrupan son las siguientes.
Adición

además
además de esto
adicionalmente
asimismo
aún más
es más
in addition
independientemente de ello
lo que es más
más aun
más aún
por añadidura
por cierto
por lo demás
por otra parte
por otro lado
y lo que es más
AditivosIndefinidos
entre otras cuestiones
entre otras medidas
entre otras razones
entre otros aspectos
entre otros elementos
entre otros factores
entre otros medios
entre otros objetivos
inter alia
AditivosSemejantes

a la vez
a su vez
análogamente
bajo cualquier forma
cabe señalar
como de costumbre
como es habitual
como siempre
de forma análoga
de forma paralela
de forma semejante
de forma similar
de igual forma
de igual manera
de igual modo
de la misma forma
de la misma manera
de manera análoga
de manera similar
de modo similar
del mismo modo
en el mismo sentido
en paralelo
esta es
este es
igualmente
paralelamente
se trata
simultáneamente
también
Argumentativos

a partir de ahí
aunque
aún más importante
básicamente
como se indica a continuación
como sigue
de la manera siguiente
de nuevo
desde allí
en el fondo
en esencia
esencialmente
fundamentalmente
insisto
lo que es más importante
lo repito
más importante
más importante aún
nuevamente
partiendo de esta base
pero sobre todo
por encima de todo
por sobre todo
principalmente
repito
sobre esa base
sobre esta base
sobre todo
también en este caso
una vez más
y lo que es más importante
y sobre todo
Conclusivos

antes de acabar
como punto final
en definitiva
en fin
en último lugar
finalmente
para acabar
para concluir
para finalizar
para terminar
por fin
por ultimo
y finalmente
y por último
a fin de cuentas
a la larga
a la postre
a modo de conclusión
al final
al final del día
al menos
como conclusión
como mínimo
con el tiempo
concluyendo
cuando menos
después de todo
en conclusión
en resumen
en última instancia
en último término
para resumir
por decir lo menos
por lo menos
por no decir algo peor
por no decir más
Condicionales

a condición de que
a que
al principio
así como
aunque no exclusivamente
bajo ciertas condiciones
bajo determinadas condiciones
cuando
cuando así proceda
cuando convenga
cuando corresponda
cuando proceda
cuando procede
cuando resulte apropiado
cuando sea necesario
cuando sea oportuno
cuando sea pertinente
dadas las circunstancias
de lo contrario
de no ser así
de otra forma
de otra manera
de otro modo
de ser así
de ser necesario
donde
en caso afirmativo
en caso contrario
en caso de necesidad
en caso de que
en caso necesario
en caso negativo
en determinadas condiciones
en esas circunstancias
en estas circunstancias
en estas condiciones
en los casos en que
en otro caso
en particular
en tales circunstancias
en un primer momento
en un principio
entre ellas
entre ellos
entre otras
entre otras cosas
entre otros
eventualmente
incluido
inicialmente
llegado el caso
o bien
que incluya
según convenga
según corresponda
según el caso
según los casos
según proceda
según sea el caso
si así fuera
si es así
si es necesario
si es preciso
si fuera así
si fuera necesario
si fuere necesario
si fuese necesario
si ha lugar
si no
si no es así
si resulta necesario
siempre que
siempre que sea necesario
siempre y cuando
teniendo en cuenta
y en caso afirmativo
Consecutivos

dado que
habida cuenta de que
puesto que
ya que
a consecuencia de ello
a raíz de ello
a resultas de ello
así
así pues
así que
como consecuencia
como consecuencia de ello
como resultado
como resultado de ello
como resultado de esto
como tal
como tales
con esto en mente
consecuentemente
consiguientemente
de ahí que
de esa forma
de esa manera
de ese modo
de esta forma
de esta manera
de este modo
de manera que
de modo que
debido a ello
en consecuencia
por consiguiente
por ello
por ende
por esa razón
por esas razones
por ese motivo
por eso
por esos motivos
por esta razón
por estas razones
por este motivo
por esto
por estos motivos
por lo tanto
por tal motivo
por tal razón
por tanto
por todas estas razones
por todo ello
por todos estos motivos
pues
teniendo esto en cuenta
teniendo esto presente
Contraargumetativos

a la inversa
a ser posible
al contrario
cuando sea posible
de ser posible
en contraste
en la medida de lo posible
en lo posible
en lugar de ello
en lugar de eso
en lugar de esto
en su lugar
en vez de ello
en vez de eso
inversamente
mejor dicho
más bien
si cabe
si es posible
si fuera posible
siempre que sea posible
sino que
todo lo contrario
a cambio
como contrapartida
y sin embargo
a pesar de ello
a pesar de todo
ahora bien
al mismo tiempo
así y todo
aun así
aún así
con todo
de todas formas
de todos modos
en cambio
en cualquier caso
en la práctica
en todo caso
es decir
no obstante
pero
pese a ello
por ejemplo
por el contrario
sin embargo
Demanda

muy brevemente
sabe
saben
sabes
seré muy breve
si me lo permite
usted sabe
ya saben
ya sabes
Digresores

a propósito
casualmente
dicho sea de paso
Distribuidores

de otro lado
de un lado
de una parte
en contrapartida
mientras que
pero por otro lado
por contra
por el otro
por el otro lado
por la otra
por otra
por otro
por su parte
por un lado
por una parte
y por otra
y por otra parte
y por otro
Ejemplificadores

a modo de ejemplo
a título de ejemplo
así por ejemplo
como
como ejemplo
como por ejemplo
concretamente
consideremos
en concreto
en dichos casos
en el caso presente
en el caso que nos ocupa
en el presente caso
en ese caso
en esos casos
en especial
en este caso
en este caso concreto
en este caso particular
en estos casos
en inglés
en tal caso
en tales casos
especialmente
este es el caso
muy especialmente
más concretamente
particularmente
por poner un ejemplo
tomemos
y en particular
Finalizativos
a este efecto
a este fin
a estos efectos
a tal efecto
a tal fin
con ese fin
con esta finalidad
con este fin
con este objetivo
con este propósito
con tal fin
para ello
para este fin
para que
para tal fin
Modalizadores

ciertamente
claro está
como es lógico
como es natural
como es obvio
cómo no
desde luego
evidentemente
lógicamente
naturalmente
obviamente
por descontado
por supuesto
sin duda
y por supuesto
a decir verdad
de hecho
efectivamente
en efecto
en realidad
en verdad
realmente
a mi entender
a mi juicio
a mi modo de ver
a mi parecer
a nuestro entender
a nuestro juicio
a nuestro modo de ver
a nuestro parecer
a su juicio
a título personal
afortunadamente
al igual que usted
al igual que ustedes
así lo espero
como bien sabe
como es sabido
como sabe
como sabe usted
como saben
como saben ustedes
como se sabe
como usted sabe
como ustedes saben
como ya sabemos
como ya saben
como bien sabemos
como sabemos
como todos sabemos
considero
creo que
creo
creo yo
desafortunadamente
desde mi punto de vista
desde nuestro punto de vista
desgraciadamente
en lo que a mí respecta
en mi opinión
en nuestra opinión
en su dictamen
en su opinión
espero
espero que
felizmente
lamentablemente
me parece
para mí
para nosotros
personalmente
por desgracia
por fortuna
por lo que a mí respecta
por mi parte
por suerte
quizá
quizás
según creo
tal vez
tristemente
yo creo
hasta donde yo sé
indudablemente
por lo que sé
que yo sepa
sin duda alguna
sin lugar a dudas
como norma
como norma general
como regla general
de forma general
de manera general
en conjunto
en general
en líneas generales
en principio
en su conjunto
en total
en términos generales
generalmente
globalmente
letras a y b
por lo general
por norma
por norma general
por regla general
Ordenadores
en cuarto lugar
ante todo
antes de nada
antes que nada
en primer lugar y ante todo
en primer lugar y sobre todo
en primer término
en primera instancia
para comenzar
para empezar
primeramente
en primer lugar
en quinto lugar
en segundo
en segundo lugar
en segundo término
en tercer lugar
en tercer término
segundo
y cuarto
y en cuarto lugar
y en segundo lugar
y en tercer lugar
y segundo
y tercero

OrdenadoresTemporales
a continuación
a estas alturas
a la fecha
actualmente
ahora
ahora mismo
con posterioridad
de momento
después
después de eso
después de esto
en aquel entonces
en aquel momento
en aquella época
en el día de hoy
en el momento actual
en el ínterin
en esa época
en ese momento
en esta etapa
en esta fase
en este momento
en estos momentos
en la actualidad
en su momento
entonces
entre tanto
hasta ahora
hasta el momento
hasta la fecha
hoy día
hoy en día
hoy por hoy
luego
mientras
mientras tanto
más adelante
más tarde
por ahora
por el momento
posteriormente
ulteriormente

Reformulativos
con inclusión
en su caso
incluso
incluyendo
si procede
a saber
así es
bien
como decía
como digo
como dije
como he dicho
como sea
como ya he dicho
como ya he señalado
con otras palabras
de acuerdo
de cualquier modo
de forma más general
de manera más general
de todas maneras
digo
en algunos casos
en ciertos casos
en determinados casos
en nombre de la comisión
en otras palabras
en otros
en otros términos
en términos más generales
eso es
eso es todo
esto es
está bien
muy bien
más generalmente
o sea
pues bien
quiero decir
sea como fuere
vamos
vaya
y bien
Sintetizadores
en breve
en pocas palabras
en resumidas cuentas
en suma
en síntesis
en una palabra
resumiendo
Tematizadores
a ese respecto
a este propósito
a este respecto
al respecto
allí
aquí
dentro de este marco
desde este punto de vista
en ese contexto
en ese marco
en ese sentido
en este aspecto
en este contexto
en este marco
en este punto
en este sentido
en relación con ello
en tal sentido


Polifuncionalidad de los marcadores discursivos

En una etapa posterior, se pretende examinar el fenómeno de la polifuncionalidad de los marcadores discursivos en el corpus de estudio. Con ello, se espera obtener la adscripción de un marcador del discurso a una o más categorías, según si el elemento cumple o no más de una función en el corpus.

Publicaciones relacionadas:

+ Robledo, H.; Nazar, R. (2018). "Una clasificación automatizada de marcadores discursivos", Procesamiento del Lenguaje Natural, n. 61, pp 109-116.

Concepts relacionados:

Contact: rogelio.nazar at gmail.com

      LogoAlt HOME || ABOUT || RESEARCH || SOFTWARE
Av. El bosque 1290, Viña del mar, Chile
+56 32 227 4424
CONTACT Contact