Tecling logo » The universe is not perfect, but it's working on it.      ABOUT RESEARCH SOLUTIONS SOFTWARE CONTACT
Technologies for Linguistic Analysis

3 de julio de 2025
Ayer tuvimos la presentación de Imma López-Solà


El miércoles 2 de julio de 2025 tuvo lugar esta charla de la profesora Imma López-Solà en el Doctorado en Lingüística de la Pontificia Universidad Católica de Valparaíso. El título de la exposición es 'Lecturas (mal) graduadas: Inconsistencias en la progresión de la complejidad lingüística en materiales de lectura para aprender español', y en ella, Imma nos habló de su investigación en aprendizaje de español como segunda lengua, que forma parte de su tesis doctoral de la de la Universitat Pompeu Fabra, de Barcelona.
El video de la exposición completa está disponible en este enlace:
https://youtu.be/FzvphPDO3sw

El trabajo fue recientemente publicado en forma de artículo en la revista Applied Linguistics:
https://doi.org/10.1093/applin/amaf017

Aquí un twit de la autora en el que describe esta investigación:
https://x.com/immakoolaid/status/1925255695248572726

El siguiente es un resumen de esta exposición:

Lecturas (mal) graduadas: Inconsistencias en la progresión de la complejidad lingüística en materiales de lectura para aprender español

El uso de lecturas graduadas (LGs) en la enseñanza de lenguas extranjeras es una práctica habitual, ya que permiten ofrecer input contextualizado adaptado al nivel de cada estudiante. Sin embargo y pese a que su elaboración se basa en criterios poco sistematizados (Claridge, 2012; Nation y Waring, 2020), se da por sentado que están bien calibradas y se utilizan, entre otras cosas, para desarrollar recursos y sistemas de aprendizaje de lenguas asistido por ordenador (ALAO) (p. ej., Dürlich y François, 2018). En este estudio analizamos la progresión de la complejidad lingüística en un conjunto representativo de LGs en español y, dado que su disponibilidad es limitada, evaluamos hasta qué punto determinadas obras literarias (OLs) dirigidas a hablantes nativos de distintas edades presentan una graduación comparable que permita su aprovechamiento didáctico. Con este objetivo, combinamos técnicas de procesamiento del lenguaje natural y aprendizaje automático del siguiente modo: a partir de un corpus compuesto por 50 LGs, 50 OLs y 8585 unidades léxicas graduadas, calculamos 40 medidas de complejidad léxica y morfosintáctica, y entrenamos modelos de bosque aleatorio para analizar la variación de la complejidad entre niveles. Posteriormente, realizamos tests de permutación con las cuatro medidas más informativas para comparar la complejidad entre subcorpus y también con un corpus de referencia de español general. Por último, empleamos técnicas distribucionales para estudiar la progresión del vocabulario más allá de cualquier lista predefinida de unidades léxicas graduadas. Los resultados evidencian que la complejidad lingüística no progresa de forma sistemática en ninguno de los dos tipos de lectura, siendo especialmente inconsistente en las LGs de nivel avanzado. Asimismo, se observa una diferencia sustancial entre los niveles iniciales de las LGs y las OLs, pero también una convergencia progresiva en los niveles intermedios y avanzados. Estos hallazgos tienen implicaciones relevantes tanto para el diseño de materiales educativos adecuados al nivel del estudiantado como para el desarrollo de aplicaciones de ALAO, que podrían beneficiarse del uso de OLs para ampliar sus datos de entrenamiento y generar input graduado. Recomendamos, en consecuencia, una mayor sistematización en la elaboración de las LGs, complementando el proceso cualitativo de escritura con análisis cuantitativos que optimicen la calibración de la complejidad lingüística en este tipo de materiales didácticos.

Referencias

Claridge, G. (2012). Graded readers: How publishers make the grade. Reading in a Foreign Language 24(1): 106–119. Dürlich, L., y François, T. (2018). EFLLex: A graded lexical resource for learners of English as a foreign language. Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018), pp. 873–879. European Language Resources Association.
Nation, P. y Waring, R. (2020). Teaching extensive reading in another language. Routledge.


10 de junio de 2025
Olga Batiukova dictó una clase en el Doctorado en Lingüística


Hoy martes 10 de junio tuvimos una clase abierta, organizada por el Doctorado en Lingüística de la PUCV, en el marco de la asignatura “Estudios Gramaticales: de la palabra al texto”. La expositora, en esta oportunidad, fue la distinguida profesora Dra. Olga Batiukova, de la Universidad Autónoma de Madrid. Olga es una especialista de renombre internacional en semántica léxica, y para nosotros es un gran honor que haya querido venir a visitarnos.
En esta oportunidad, desarrolló el tema de la polisemia léxica. En particular, se centró en el tema de la polisemia regular, que ha trabajado desde la teoría del lexicón generativo, junto con James Pustejovsky, creador de esta línea teórica y coautor de esta profesora en uno de sus libros más recientes. Desde esta teoría, la investigadora ha propuesto una explicación para la diferencia entre polisemia y homonimia. Además, desarrolló, entre otros temas, el fenómeno de la copredicación, en la que coexisten, en una misma palabra y en un mismo contexto, más de un significado. Explicó, también, una de sus últimas investigaciones, publicada en la Revista Signos, en la que aborda la relación entre la polisemia regular y la morfología de la derivación denominal en español.


June 1st, 2025
We have a new version of Kind, the taxonomy project


We have a new version of Kind, our lexical taxonomy project. This one is based on the English and Spanish sides of Wiktionary, so at the moment it is only available in these two languages. A French version will also be available soon.

This database has 25081 nouns in English and 44159 en Spanish. Each noun may have more than one hypernymy chain if it's a polysemous noun.
Take a look:
http://www.tecling.com/kind

You can, for instance, enter any arbitrary common single-noun (or a list of them, one per line) and obtain the corresponding hypernymy chains.
You can also request random samples of 100 entries to evaluate the quality.

As of today, the project is well documented and all the source code and the data is available for download.
Enjoy with moderation!


24 de mayo, 2025
Hernán Robledo presenta ponencia en Congreso ArDis


Nuestro colega y colaborador Hernán Robledo presentó una ponencia en el Congreso ArDis 2025 (La arquitectura del discurso: categorías, unidades y relaciones). Su ponencia se titula ``Variación formal y funcional de los conectores y operadores discursivos en interacciones digitales: el caso de los comentarios de YouTube en español'' y consite en una propuesta de metodología híbrida para sistematizar la variación formal y funcional de los marcadores del discurso en español. Esta investigación se enmarca en su proyecto Fondecyt de Postdoctorado N°3230617, titulado ``Variación formal de marcadores del discurso en español: extracción y clasificación de variantes mediante técnicas semiautomáticas de explotación de corpus'', patrocinado por la Pontificia Universidad Católica de Valparaíso (PUCV) y la profesora Irene Renau.

En su exposición, Hernán presentó los primeros hallazgos del análisis de un corpus de interacciones escritas extraídas de YouTube aplicando la distinción teórica entre conectores y operadores discursivos propuesta por Catalina Fuentes Rodríguez, directora del Grupo APL de la Universidad de Sevilla. Señaló además que, dado el caracter altamente interactivo, expresivo, argumentativo y dinámico de los intercambios en esta plataforma, es posible observar tanto las formas plenamente gramaticalizadas como aquellas construcciones emergentes o parcialmente fijadas, que aún presentan rasgos de flexibilidad estructural y semántica.

Felicitamos a nuestro amigo y nos enorgullece que lleve adelante un trabajo investigativo de calidad.


29 de abril, 2025
Imma López vino a hacer su estancia de investigación predoctoral


Tenemos el gran honor de recibir a Inmaculada López-Solá, profesora y doctoranda del Departamento de Traducción y Ciencias del Lenguaje de la Universitat Pompeu Fabra, quien ha decidido venir a Viña del Mar a realizar su estancia de investigación predoctoral con el Grupo Tecling.
Imma trabaja en el campo del Español como Lengua Extranjera aplicando sus conocimientos de lingüística computacional y lexicografía, y se interesa por el desarrollo de sistemas que sean capaces de detectar los errores de vocabulario, ofrecer retroalimentación y generar actividades de seguimiento personalizada para los estudiantes.
En el marco de su visita, participará de diferentes actividades, entre las que se incluye la presentación de una charla en el Doctorado en Lingüística de la Pontificia Universidad Católica de Valparaíso para dar a conocer los resultados de su investigación doctoral.
Pronto estaremos difundiendo por diferentes medios la fecha, hora y lugar de este evento.
Por ahora, le damos la bienvenida y estamos encantados con su presencia.


11 de abril, 2025
Tuvimos una conferencia de Cecilio Garriga


Hoy hemos tenido la Ceremonia de Inauguración del Año Académico del Doctorado en Lingüística de la Pontificia Universidad Católica de Valparaíso, y nuestro conferencista invitado fue Cecilio Garriga Escribano, quien nos presentó la charla titulada 'Los diccionarios, entre la tradición y la inteligencia artificial'.
El Prof. Garriga es catedrático de la Universidad Autónoma de Barcelona y director del Grupo de Lexicografía y Diacronía, del Departamento de Filología Española. Sus líneas de investigación son la lexicografía, la historia de la lengua, los lenguajes de especialidad, la morfología, y la enseñanza de la lengua.

Para quienes no pudieron asistir, aquí está el enlace a la grabación en video del evento.


4 de abril, 2025
Publicamos nuevo artículo sobre terminologización


Esta semana nos han publicado un nuevo paper en la Revista Procesamiento del Lenguaje Natural, titulado Detección de terminologización en sustantivos y firmado por Javiera Ahumada y Rogelio Nazar. Este artículo está basado en la tesis de Magíster de Javiera, defendida recientemente, y dirigida por el ahora coautor.
Este es el resumen del artículo:
Este artículo presenta una propuesta metodológica para detectar automáticamente la terminologización de sustantivos en un dominio especializado. La metodología se basa en la detección de alteraciones en los perfiles de coocurrencia de los sustantivos y es evaluada aplicándola a un corpus especializado compuesto por artículos de investigación en el ámbito del procesamiento del lenguaje natural. Si bien se trata de un trabajo aun preliminar, los resultados muestran que el método propuesto puede ser de utilidad, ya que permite identificar sustantivos con alta probabilidad de terminologización. La implementación es, por tanto, de interés para terminólogos e investigadores trabajando en el tema del cambio semántico. Además de una valoración del método, se señalan las limitaciones del enfoque y algunas ideas para su ulterior desarrollo.
Y aquí la referencia completa, con el enlace:
Ahumada, J.; Nazar, R. (2025). Detección de terminologización en sustantivos. Procesamiento del Lenguaje Natural, 74: 277-289.


1º de abril, 2025
¡Nos dieron una medalla!


Hace unos días, la Pontificia Universidad Católica de Valparaíso nos ha entregado a Irene y a mí (Rogelio), en gran ceremonia, una medalla (una a cada uno), por superar los 10 años de permanencia en el puesto (para ser exactos, 11 años y 4 meses).
Nos ha llamado la atención el objeto: tiene un peso extraordinario. No sabemos de qué material es, pero tiene gran densidad. Es como si condensara en tan poco volumen todo lo que pasamos.
¡Agradecemos sinceramente este reconocimiento!


February 20, 2025
We presented a talk about semantic typing at Universiteit Leiden


Irene Renau and Rogelio Nazar presented a seminar with the title ``Semantic Typing Adventures for Corpus Pattern Analysis''. Hosted by Carole Tiberius, the talk took place in the fine building of the Dutch Language Institute (Instituut voor de Nederlandse Taal), of Universiteit Leiden.

Abstract

Corpus Pattern Analysis (CPA) is a corpus-driven method that seeks to map the meanings of words in usage with recurrent syntagmatic patterns (Hanks, 2004, 2013; Greffenstete and Hanks, 2023). CPA has been successfully applied to verbs in different languages (Hanks, online; Jezek et al., 2014; Colman and Tiberius, 2018; Renau et al., 2019, among others). However, its manual implementation remains time-consuming and dependent on expert judgment. In this seminar, we present the Verbario project (http://www.verbario.com), which aims to automatize CPA by developing computational methods for extracting and classifying patterns in large corpora. A key challenge in CPA automation is semantic typing, i.e., the systematic assignment of semantic classes to argument slots in syntactic patterns (Ježek et al., 2014; Pustejovsky and Batiukova, 2019: 188-194). We will outline our strategy for achieving this, focusing on how different corpus-driven approaches can be integrated to improve the reliability of semantic classification. To illustrate our approach, we will show our current work in Spanish (Renau, Nazar and Mora, 2024) and present a pilot experiment on semantic typing for English verbs, showcasing preliminary results and discussing their implications. Finally, we will explore how this methodology can be extended to metaphor analysis, particularly in identifying and classifying metaphorical patterns in corpus data (Renau, 2021). By leveraging semantic typing, we aim to refine the automatic detection of metaphorical mappings and contribute to a more structured understanding of metaphor usage across domains. We conclude by discussing the broader implications of CPA automation for lexicography, computational linguistics, and cognitive semantics.

References
Colman, L., & Tiberius, C. (2018). A good Match: A Dutch Collocation, Idiom and Pattern Dictionary Combined. In J. Čibej, V. Gorjanc, I. Kosem, & S. Krek (Eds.), Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts (pp. 233–246). Ljubljana University Press. PDF
Grefenstette, G., & Hanks, P. (2023). Competing Views of Word Meaning: Word Embeddings and Word Senses. International Journal of Lexicography, 36(2), 211–219.
Hanks, P. (2004). Corpus Pattern Analysis. In G. Williams & S. Vessier (Eds.), 11th Euralex International Congress (Vol. 1, pp. 87–97). Université de Bretagne-Sud. PDF
Hanks, P. (2013). Lexical Analysis: Norms and Exploitations. The MIT Press.
Hanks, P. (Ed.). (Online). Pattern Dictionary of English Verbs. https://pdev.org.uk/
Ježek, E., Magnini, B., Feltracco, A., Bianchini, A., & Popescu, O. (2014). T-PAS; A resource of Typed Predicate Argument Structures for linguistic analysis and semantic processing. In N. Calzolari, K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14) (pp. 890–895). European Language Resources Association (ELRA). PDF
Pustejovsky, J., & Batiukova, O. (2019). The Lexicon. Cambridge University Press.
Renau, I., Nazar, R., Castro, A., López, B., & Obreque, J. (2019). Verbo y contexto de uso: Un análisis basado en corpus con métodos cualitativos y cuantitativos. Revista Signos, 52(101), 878–901. PDF
Renau, I., Nazar, R., & Mora, D. (2024). Towards the automatic generation of a pattern-based dictionary of spanish verbs. In K. Š. Despot, A. Ostroški Anic, & I. Brač (Eds.), Lexicography and Semantics. Proceedings of the XXI EURALEX International Congress (pp. 345–360). Institute for the Croatian Language. PDF


13 de febrero, 2025
Presentamos seminario en la Universitat de Barcelona


Irene Renau y Rogelio Nazar presentaron un seminario titulado ``Estrategias para la tipificación semántica de sustantivos en textos: aplicaciones en Verbario y Text·a·Gram''

El seminario tuvo lugar en la Facultad de Filologia i Comunicació de la Universitat de Barcelona,

Resumen

En este seminario presentamos los avances del grupo de investigación Tecling en la tipificación semántica de sustantivos en dos herramientas: Verbario y Text·a·Gram , a las que se dedicarán sendas partes de la exposición. La tipificación semántica (semantic typing) es la asignación sistemática de clases semánticas a los argumentos en una oración (Ježek et al., 2014; Pustejovsky and Batiukova, 2019: 188-194). Por ejemplo, en la frase La nave se hundió, se asigna el tipo semántico [[Objeto Físico]] al sustantivo nave. El uso de una ontología (Ježek y Hanks, 2010; Nazar y Renau, 2016), junto al uso de cálculos estadísticos que miden la coocurrencia léxica de los sustantivos diana (Renau, Nazar y Mora, 2024), permiten etiquetar automáticamente dichas unidades en un texto con alta precisión.

En la primera parte del seminario presentaremos el proyecto Verbario, una base de datos de verbos del español analizados con Corpus Pattern Analysis, una técnica para el análisis de patrones sintagmáticos asociados al significado léxico (Hanks, 2004, 2013). Trataremos especialmente del etiquetado automatizado de sustantivos y de los pasos para la construcción de los patrones, así como del trabajo en curso para la detección de metáforas en Verbario con inteligencia artificial generativa (Renau et al., 2019; Renau, Nazar y Mora, 2024; Renau, 2021; Puraivan, Renau y Riquelme, 2024). En la segunda parte del seminario, presentaremos Text·a·Gram, una herramienta para el análisis textual (Nazar, Renau y Robledo, 2024), con especial énfasis en las estrategias para la incorporación de información semántica al análisis de textos. Ambos proyectos buscan contribuir a la automatización del análisis semántico y al desarrollo de métodos más eficientes para el estudio del léxico en corpus.
Referencias
Hanks, P. (2004). Corpus Pattern Analysis. In G. Williams & S. Vessier (Eds.), 11th Euralex International Congress (Vol. 1, pp. 87–97). Université de Bretagne-Sud. PDF
Hanks, P. (2013). Lexical Analysis: Norms and Exploitations. The MIT Press.
Ježek, E., & Hanks, P. (2010). What lexical sets tell us about conceptual categories. Lexis, 4, 7–22.
Ježek, E., Magnini, B., Feltracco, A., Bianchini, A., & Popescu, O. (2014). T-PAS; A resource of Typed Predicate Argument Structures for linguistic analysis and semantic processing. In N. Calzolari, K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14) (pp. 890–895). European Language Resources Association (ELRA). PDF
Nazar, R., & Renau, I. (2016). A taxonomy of Spanish nouns, a statistical algorithm to generate it and its implementation in open source code. In N. Calzolari, K. Choukri, T. Declerck, S. Goggi, M. Grobelnik, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16) (pp. 1485–1492). European Language Resources Association (ELRA). PDF
Nazar, R., Renau, I., & Robledo, H. (2024). Dismark and Text·a·Gram: Automatic identification and categorization of discourse markers in texts. In C.-M. Popescu & O.-A. Duță (Eds.), Discourse Markers in Romance Languages. Crosslinguistic Approaches in Romance and Beyond (pp. 165–184). Peter Lang.
Puraivan, E., Renau, I., & Riquelme, N. (2024). Metaphor identification and interpretation in corpora with ChatGPT. SN Computer Science, 5(8), 976.
Pustejovsky, J., & Batiukova, O. (2019). The Lexicon. Cambridge University Press.
Renau, I. (2021). Using verb patterns to find recurrent metaphors in corpus. In Z. Gavriilidou, L. Mitits, & S. Kiosses (Eds.), Lexicography for Inclusion: Proceedings of the 19th EURALEX International Congress (pp. 673–682). Democritus University of Thrace. PDF
Renau, I., Nazar, R., Castro, A., López, B., & Obreque, J. (2019). Verbo y contexto de uso: Un análisis basado en corpus con métodos cualitativos y cuantitativos. Revista Signos, 52(101), 878–901. PDF
Renau, I., Nazar, R., & Mora, D. (2024). Towards the automatic generation of a pattern-based dictionary of spanish verbs. In K. Š. Despot, A. Ostroški Anic, & I. Brač (Eds.), Lexicography and Semantics. Proceedings of the XXI EURALEX International Congress (pp. 345–360). Institute for the Croatian Language. PDF


January 27, 2025
We have a new paper on discourse markers


We have a new paper published, actually a book chapter, where we describe some of our work with discourse markers. The following is the bibliographical reference:

Nazar, R.; Renau, I.; Robledo, H. (2024). Dismark and Text·a·Gram: Automatic identification and categorization of discourse markers in texts. In: Cecilia-Mihaela Popescu & Oana-Adriana Dută (eds.), Discourse Markers in Romance Languages. Crosslinguistic Approaches in Romance and Beyond. Berlin: Peter Lang.

The chapter offers an overview of Project Dismark and its discourse marker database, along with a description of Text·a·Gram, the program we made to detect discourse markers and other particles in texts.


2 de enero, 2025
Comenzamos el año con nuevo paper!


No hay nada mejor que empezar el año con un nuevo artículo: tenemos el agrado de compartir con ustedes la publicación 'Comparación entre textos naturales y textos sintéticos del género tesis en función de variables discursivas', por Yvone Laines y Rogelio Nazar, en el número 2 del volumen 62 de RLA: Revista de lingüística teórica y aplicada.
Dejamos aquí el enlace al paper: https://www.scielo.cl/pdf/rla/v62n2/0718-4883-rla-62-02-37.pdf

Tools & demos

We have implemented different types of applications and most of them can be tested online. Take a look.

+ Bifid: a parallel corpus aligner

+ Compare: a simple script to compare two lists of words

+ Cryptoman: a script to generate cryptograms

+ Dismark: a multilingual taxonomy of discourse markers

+ Estilector: computer assisted writing for Spanish

+ GeNom: a program to detect the gender of proper nouns

+ Jaguar: a tool for statistic corpus analysis

+ Kind: a lexical taxonomy induction algorithm

+ Kwico: a concordancer for big corpora

+ Lealem: a reading pacer for parallel German-Spanish texts

+ Leafran: a reading pacer for parallel French-Spanish texts

+ Linguini: a language detector

+ Neven: a program to detect eventive nouns

+ POL: named entity recognition and classification

+ Poppins: a supervised text classifier

+ Porcus: an interface for various taggers and parsers for Spanish

+ pullPOS: a project for the detection of plurals in Spanish

+ Punkt: punktuation of discourse markers in Spanish

+ Randall: a list randomizer

+ Readeutsch: a reading pacer for parallel German-English texts

+ Regex: a Perl script for regular expressions

+ Sapo: a program to detect similarities between documents

+ Sicam: a program to analyze Spanish poetry

+ Termout: a terminology extraction system

+ TEXT·A·GRAM: a program to analyze Spanish texts

+ Verbario: corpus pattern analysis in Spanish

Sausalito

This is the view from where we are located, in the Sausalito lagoon, a quiet and lovely place in Viña del Mar, Chile. Sunny days. Birds can be seen in the center of the lagoon (click to enlarge).

As researchers, we are currently affiliated to:
Pontificia Universidad Católica de Valparaíso
Instituto de Literatura y Ciencias del Lenguaje

Av. El Bosque 1290, Viña del Mar, Chile

Upcoming Events
[UPDATED: July 3rd, 2025]

Miércoles 23 de julio, entre las 15:30-17:00 h: presentación de Irene Renau y Rogelio Nazar en el XXII Congreso de la Asociación Internacional de Hispanistas (AIH). Las presentaciones formarán parte de la Mesa 61. Lexicología y lexicografía hispánica II, en la Sala 26 del Edificio de Biblioteca de la Universidad de los Andes, Chile, ubicado en calle Monseñor Álvaro del Portillo 12.455 (Las Condes, Santiago de Chile). El título de la ponencia de Irene es «Las metáforas en los diccionarios: hacia una propuesta de representación en Verbario» y la de Rogelio «Análisis de los patrones léxicos parafrásticos del discurso especializado en castellano». Compartirán también la mesa Olga Batiukova, de la Universidad Autónoma de Madrid, España, y Carles Tebé, de la Pontificia Universidad Católica de Chile.

Aproximadamente en la tercera semana de julio de 2025 (en fecha por definir): Estamos organizando una nueva edición de nuestros Winter seminars. En esta oportunidad, tendremos una jornada con exposiciones de invitados extranjeros, como Guillermo Rojo, José Ramón Carriazo y Olga Batiukova. Estamos aún en fase de preparativos, pero apenas tengamos más precisiones las difundiremos por aquí.

Latest ideas & research projects

We are developing new projects in computational linguistics and natural language processing:

+ Fondecyt Regular (2023-2027): "Mapa de las metáforas conceptuales en sustantivos y verbos del español: un estudio de los patrones metafóricos basado en corpus". Lead researcher: Irene Renau. Co-researcher: Rogelio Nazar. Ref.: 1231594.

+ Fondecyt Regular (2019-2021): "Polisemia regular de los sustantivos del español: análisis semiautomático de corpus, caracterización y tipología" (Regular polysemy of nouns in Spanish: semiautomatic analysis of corpus, characterization and tipology). Lead researcher: Irene Renau. Ref.: 1191204.

+ Fondecyt Regular (2019-2021): "Inducción automática de taxonomías de marcadores discursivos a partir de corpus multilingües" (Automatic induction of taxonomies of discourse markers from multilingual corpora). Lead researcher: Rogelio Nazar. Ref.: 1191481.

+ Ecos-Sud (International Project between Chile and France): "Inducción automática de taxonomías del español y el francés mediante técnicas cuantitativas y estadística de corpus". Lead researcher: Irene Renau. Ref.: C16H02.

+ Fondecyt Regular: "Desarrollo de la competencia terminológica a lo largo de la inserción disciplinar". Lead Researcher: Sabela Fernández. Co-researcher: Rogelio Nazar. Ref.: 11121597.

+ See more.

Recent publications

+ Nazar, R.; Renau, I.; Robledo, H. (In press). Dismark and Text·a·Gram: Automatic identification and categorization of discourse markers in texts. In Proceedings of DISROM 2022 (Discourse Markers in Romance Languages, Craiova, 16-18 June 2022).

+ Obreque, J.; Nazar, R. (2023). Detección de operadores modales: una primera exploración en castellano. Linguamatica. 15(2): 37--49. PDF

+ Renau, Irene. (2023). A corpus-based study of semantic neology of the Covid-19 pandemic. Quaderns de Filologia: Estudis Lingüístics XXVIII: 55-76. PDF

+ Nazar, R. (2023). Extensión, variación y evolución del léxico español. In Battaner, P., Torner, S, Renau, I. Lexicografía hispánica / The Routledge Handbook of Spanish Lexicography. Cap. 14, pp. 204-218.

+ López-Hidalgo, B.; Renau, I.; Nazar, R. (2023). Correlación entre la metáfora orientacional BUENO ES ARRIBA / MALO ES ABAJO y polaridad positiva/negativa en verbos del español: un estudio con estadística de corpus. Humanidades Digitales, Corpus y Tecnología del Lenguaje. University of Groningen Press, pp. 307-323. PDF

+ Nazar, R. & Acosta, N. (2023). Termout: a tool for the semi-automatic creation of term databases. In Haddad, Amal; Terryn, Ayla; Mitkov, Ruslan; Rapp, Reinhard; Zweigenbaum, Pierre and Sharoff, Serge (eds.) Proceedings of the Workshop on Computational Terminology in NLP and Translation Studies (ConTeNTS) Incorporating the 16th Workshop on Building and Using Comparable Corpora (BUCC), INCOMA, Shoumen, Bulgaria, pp. 9-18. PDF

+ Nazar, R. & Renau, I. (2023). Estilector: un sistema de evaluación automática de la escritura académica en castellano. Revista Perspectiva Educacional, 62(2): 37-59. PDF

+ Robledo, H.; Nazar, R. (2023). A proposal for the inductive categorisation of parenthetical discourse markers in Spanish using parallel corpora. International Journal of Corpus Linguistics. http://doi.org/10.1075/ijcl.20017.rob

+ Renau, I.; Nazar, R. (2022). Towards a multilingual dictionary of discourse markers: automatic extraction of units from parallel corpus. In: Klosa-Kückelhaus, A.; Engelberg, S.; Möhrs, C.; Storjohann, P. Dictionaries and Society. Proceedings of the XX EURALEX International Congress, Mannheim: IDS-Verlag, pp. 262-272. PDF

+ Nazar, R; Lindemann, D. (2022). Terminology extraction using co-occurrence patterns as predictors of semantic relevance. Proceedings of the TERM21 Workshop. Language Resources and Evaluation Conference (LREC 2022), Marseille, 20-25 June 2022, pp. 26-29. PDF

Solutions for text processing

It is critical for organizations to have the ability to process information automatically, and very often that information is contained in documents to be read by humans rather than machines. We have different methods for text processing depending on the goal.

We can be helpful teaching people how to automatize their text processing routines. We can batch-process thousands of documents to extract information from them or to derive different types of statistics. We can also change these document, or generate databases or email correspondence based on information extracted from them. Anything that involves intelligent management of information can benefit from different degrees of automatization, and by doing that we can free time, effort and resources.

Tell us which are your needs and we will show you what we can do about it.