Curso:
Procesamiento de corpus para lexicografía y terminología
Expositores: Irene Renau, Rogelio Nazar y Nicolás Acosta
Fechas: 30 y 31 de agosto, 1 de setiembre 2023
Horario: 15 a 17h
Lugar: Facultad de Filosofía y Letras, Universidad Nacional de Cuyo, Mendoza, Argentina.
Descripción:
El curso de Procesamiento de corpus para lexicografía y terminología tiene un enfoque eminentemente práctico y orientado al tratamiento masivo de datos textuales. Se revisarán técnicas para el análisis del vocabulario separando el léxico general de la terminología especializada. Se plantea un recorrido por distintas técnicas de análisis computacional de textos dispuestas en un orden progresivo de complejidad, desde el análisis de concordancias en un corpus monolingüe hasta análisis de corpus bilingüe (paralelos y comparables). Se revisarán desde herramientas web amigables hasta el empleo de instrucciones en la terminal de comandos. Al final el curso, los participantes tendrán una base metodológica como para emprender de manera autónoma un producto lexicográfico o terminológico basado en datos de corpus.
Objetivos
Proporcionar a los estudiantes herramientas teórico-metodológicas para la creación de bases de datos léxicas o terminológicas basadas en corpus.
Contenidos
- Fundamentos teóricos y antecedentes históricos del cruce disciplinar entre la lexicografía, la terminología y la lingüística computacional.
- La creación y gestión recursos léxicos y terminológicos.
- Aplicación de técnicas de lingüística computacional y lingüística de corpus.
- Herramientas, métodos y técnicas para el procesamiento de datos textuales: análisis de vocabulario, extracción de terminología, expresiones regulares y lenguajes de scripting.
Metodología de trabajo
El curso se dicta en una sala de clases dotada de computadoras para que los estudiantes puedan seguir las actividades prácticas. Las sesiones estarán constituidas por una primera sesión expositiva de 45 minutos para abordar los conceptos que se trabajarán. Esta exposición continuará con 15 minutos para consultas y diálogo. El resto del tiempo de la sesión se destinará al trabajo práctico individual o grupal de los participantes bajo la supervisión de los docentes.
Descripción de las actividades prácticas
A lo largo de las sesiones del curso, cada estudiante podrá comprender cómo distintas técnicas de la lingüística computacional y el procesamiento de lenguaje natural pueden servir para la producción de recursos terminológicos y lexicográficos, automatizando diversas tareas. Estas herramientas se presentan en orden progresivo de complejidad, comenzando por las que tienen interfaz gráfica, para pasar luego a otras más avanzadas, tales como la línea de comandos, expresiones regulares y lenguajes de scripting.
Programa de actividades:
- Día 1 (miércoles): Presentación general de la materia y del programa del curso. Creación y gestión de bases de datos léxicas y terminológicas.
- Día 2 (jueves): Primeras experiencias de trabajo práctico con herramientas para la explotación de corpus.
- Día 3 (viernes): Ejercicios de procesamiento de datos textuales con expresiones regulares y lenguajes de scripting.
Modalidad y requisitos de aprobación:
Porcentaje mínimo de asistencia para que el alumno acceda a la evaluación: 66%.
Software (instalable) utilizado en el curso:
Software en línea:
Corpus mencionados:
Materiales diversos y documentación sobre lingüística computacional:
http://www.tecling.com
Bibliografía
Bibliografía básica
- Atkins, S. & Rundell, M. (2008). The Oxford Guide of Practical Lexicography. Oxford: Oxford University Press.
- Manning, C.; Schütze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge: MIT Press.
- Porto Dapena, J. Á. (2002) Manual de técnica lexicográfica. Madrid: Arco Libros.
- Rojo, G. (2021). Introducción a la lingüística de corpus en español. Londres y Nueva York: Routledge, 2021.
- Sager, Juan Carlos. (1990). A practical course in terminology processing. Amsterdam/Philadelphia: John Benjamins.
Bibliografía complementaria
- Baayen, R. H. (2008). Analyzing Linguistic Data. A Practical Introduction to Statistics Using R. Cambridge: Cambridge University Press.
- De Schryver, G.-M. (2003). Lexicographers’ dreams in the electronic dictionary age. International Journal of Lexicography 16(2): 143-199.
- De Schryver, G.-M. (2012). Lexicography in the crystal ball: facts, trends and outlook (pp. 93-146). En R. Fjeld & J. M. Torjusen (eds.), Proceedings of the 15th EURALEX International Congress. Oslo: University of Oslo.
- Escandell, V. (2007). Apuntes de semántica léxica. Madrid: UNED.
- Fillmore, C. J. (1975). An alternative to checklist theories of meaning (pp. 123-131). Proceedings of the First Annual Meetings of the Berkeley Linguistics Society. Berkeley: Berkeley Linguistic Society.
- Fontenelle, T. (2008). Practical Lexicography. A Reader. Oxford: Oxford University Press.
- Foo, Jody. (2012). Computational Terminology: Exploring Bilingual and Monolingual Term Extraction. Licenciate Thesis - Linköping University, Department of Computer and Information Science, NLPLAB - Natural Language Processing Laboratory. Disponible en línea: https://www.diva-portal.org/smash/get/diva2:508245/FULLTEXT01.pdf
- Gries, S. (2009). Quantitative corpus linguistics with R: a practical introduction. Londres & New York: Routledge, Taylor & Francis Group.
- Hanks, P. (2004). Corpus Pattern Analysis (pp. 87-97). En G. Williams & S. Vessier (eds.), Proceedings of the Eleventh EURALEX International Congress, Euralex 2004, Lorient: Université de Bretagne-Sud.
- Hanks, P. (2013). Lexical Analysis: Norms and Exploitations. Cambridge, MA: MIT Press.
- Humbley, John (2022). The reception of Wüster’s general theory of terminology. En Pamela Faber y Marie-Claude L'Homme. Theoretical Perspectives on Terminology. Explaining terms, concepts and specialized knowledge, John Benjamins Publishing Company, pp. 15-36.
- Landau, S. 2001. Dictionaries. The Art and Craft of Lexicography. Cambridge: Cambridge University Press.
- Lara, L. F. (1997). Teoría del diccionario monolingüe. México, D. F.: El Colegio de México.
- Martínez de Sousa, J. (2009). Manual básico de lexicografía. Gijón: Trea.
- Pavel, Silvia & Nolet, Diane. (2002). Manual de Terminología. Translation Bureau. Canadá: Public Works and Government Services. Disponible en línea: http://kit.consellodacultura.gal/web/uploads/adxuntos/arquivo/593fa5d6bf451-manual_terminoloxia_canada.pdf
- Porto Dapena, Á. (2014). La definición lexicográfica. Madrid: Arco Libros.
- Sinclair, J. (2004). Trust the text. Language, corpus and discourse. Londres: Routledge.
- Stubbs, M. (1996). Text and Corpus Analysis. Oxford: Blackwell.
- Verzani, J. (2002). SimpleR: Using R for Introductory Statistics [en línea]. Disponible en: https://cran.r-project.org/
- Zgusta, L. (1971). Manual of Lexicography. París: Mouton.
Contacto:
rogelio.nazar@pucv.cl