Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) extracción (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: extracción


Is in goldstandard

1
paper corpusSignosTxtLongLines124 - : Para su funcionamiento, este tutor virtual consta de 7 módulos interrelacionados, a saber, un módulo que permite llevar a cabo la extracción de lenguaje, un clasificador de actos de habla, un módulo de LSA, un plan curricular, una interfaz visual (un rostro con movimientos gestuales ), un administrador de diálogo y un modulo selector de problemas.^[91]6

2
paper corpusSignosTxtLongLines179 - : (4) Extracción de más información: “¿Qué más ?”

3
paper corpusSignosTxtLongLines230 - : El texto seleccionado para lectura en este momento de la experiencia que relatamos es el capítulo Investigaciones geológicas de la Enciclopedia del Mar, de Jacques Cousteau, editado por Folio (Barcelona) y de difusión masiva en la Argentina. Es un texto de divulgación breve, compuesto de cuatro párrafos. Se trata de un macro-género (Eggins, 1994; Eggins & Martin, 2003; Martin & Rose, en prensa), que combina un breve informe sobre los dispositivos utilizados para la extracción de muestras del fondo del mar, una breve justificación^[37]13 del interés del análisis del testigo, una explicación del procedimiento de análisis de la muestra y una justificación del valor de este tipo de investigaciones como cierre del texto .

4
paper corpusSignosTxtLongLines320 - : El dominio elegido para el experimento de extracción de terminología es la lingüística y la muestra elegida para el análisis son los textos de las actas de congresos que publicó la Asociación Española de Lingüística Aplicada desde el año 1983 hasta 2006, que se encuentran disponibles en formato digital^[27]2 . Se reporta por tanto la aplicación a este corpus de un algoritmo estadístico independiente de lengua que acepta como entrada un conjunto de ficheros de texto organizados por años y como salida selecciona términos del corpus calculando las propiedades geométricas de las curvas que representan sus frecuencias de uso a lo largo del tiempo.

5
paper corpusSignosTxtLongLines320 - : La noción de término en este caso está metodológicamente sesgada por razones de conveniencia práctica. Un término es simplemente una palabra o una secuencia de palabras con una frecuencia especialmente informativa, es decir, que el criterio no es estrictamente terminológico sino estadístico. La estrategia de extracción de términos consiste en asignar a una palabra o una secuencia de palabras un valor de ‘terminologicidad´ basado en su rareza . La rareza de un término está dada por una frecuencia de aparición relativamente alta en el corpus de especialidad (en este caso las actas de los congresos) y relativamente baja en un corpus de referencia del lenguaje general (en este caso prensa española). También por conveniencia práctica, el corpus no es sometido a ningún tipo de procesamiento, como lematización, etiquetado morfosintáctico o agrupación de constituyentes sintácticos. Esta simplificación obviamente se hace a expensas de un grado de error en la detección terminológica, pero el

6
paper corpusSignosTxtLongLines320 - : La metodología para la extracción de arcaísmos (en el sentido técnico ya explicitado) y neologismos consiste en plantear una curva modelo de la frecuencia de unos y otros y a partir de entonces calcular la similitud que tienen con ellos las curvas de frecuencias de cada uno de los términos de la muestra . En el caso de los arcaísmos, utilizamos la Ecuación 5 para definir este arcaísmo ideal, función que es representada en la Figura 6. Para calcular la similitud que tienen cada uno de los términos con este arcaísmo ideal utilizamos la distancia euclideana. La Ecuación 7 define la distancia euclideana entre dos vectores X e Y. Para poder llevar a cabo esta comparación entre curvas previamente tenemos que normalizar los valores (Ecuación 8), es decir, llevar los términos de distinta frecuencia a la misma escala. La [46]Figura 7 muestra la curva de frecuencias de la forma ‘generativa´, que es una de las que muestra mayor similitud con el arcaísmo ideal, y la[47] Tabla 6 muestra las 20 formas co

7
paper corpusSignosTxtLongLines320 - : s vías de investigación ya trascenderían el tema del presente artículo, en el que se intenta promover una visión holística para superar el acuerdo tácito acerca de que la extracción de terminología es el vaciado de unidades terminológicas a partir del documento o del corpus especializado tomado como unidad . Se trata de pasar entonces de una terminología orientada hacia el documento a una terminología orientada hacia el dominio de especialidad en su conjunto.

8
paper corpusSignosTxtLongLines321 - : El presente trabajo se sitúa en el terreno de la extracción de información y su objetivo principal consiste en delimitar un método de extracción de pares hipónimo/hiperónimo usando un conjunto de patrones léxicos propios del español . Básicamente, el método propuesto en esta investigación aplica dichos patrones a documentos recopilados de Internet (textos escritos en prosa) y detecta automáticamente un conjunto de hipónimos relacionados a un vocabulario previamente proporcionado.

9
paper corpusSignosTxtLongLines375 - : El proceso semiautomático de extracción terminológica para la construcción de GLOBALCRIMETERM se dividió en cinco fases: (i ) elaboración de los filtros, (ii) construcción e indización del corpus, (iii) extracción de n-gramas y cálculo estadístico, (iv) identificación de los términos y (v) validación del corpus. Se trata de un proceso semiautomático porque las fases (iii) y (v) se realizaron de manera automática, las fases (i) y (iv) de manera asistida, y en la fase (ii) se empleó un método híbrido. En las siguientes secciones, describimos con más detalle cada una de estas fases.

10
paper corpusSignosTxtLongLines375 - : Una vez almacenado nuestro repositorio documental, se extrajeron todos los n-gramas^[37]11 del corpus (en nuestro caso, unigramas, bigramas y trigramas) y se calculó su peso estadístico. Las investigaciones en extracción terminológica automática, muchas de las cuales se han centrado en el descubrimiento de unidades multiléxicas (por ejmplo: compuestos nominales o locuciones idiomáticas ) y colocaciones, suelen adoptar un enfoque estadístico, lingüístico o híbrido. Por una parte, existe un amplio repertorio de medidas estadísticas de asociación léxica, las cuales suelen centrar el foco en dos aspectos diferentes: (i) la significancia de la asociación, p.ej. puntuación T (Church, Gale, Hanks & Hindle, 1991) o logaritmo de la razón de verosimilitudes (Dunning, 1994) y (ii) el grado de asociación, p.ej. información mutua (Kenneth & Hanks, 1989) o cociente de probabilidades (Blaheta & Johnson, 2001)^[38]12. Por otra parte, podemos adoptar un enfoque que tenga en consideración las propiedades li

11
paper corpusSignosTxtLongLines375 - : Con el fin de destacar los beneficios de la metodología empleada en la construcción de las Ontologías Satélites, presentamos en primer lugar los problemas más recurrentes en la extracción terminológica a través de las herramientas informáticas incorporadas en la mayoría de los programas de gestión de córpora:

12
paper corpusSignosTxtLongLines381 - : partir de las que hay que razonar. Puede pensarse, de esta manera, que el hecho de que los sujetos perfeccionen a veces los condicionales refuerza la posición de Henlé (1962), ya que la extracción incorrecta de conclusiones desde el punto de vista lógico en problemas en los que se ve implicado el razonamiento condicional puede no ser causada por dificultades intrínsecas en los seres humanos para realizar este tipo de razonamiento, sino por una comprensión de las expresiones presentes en dichos problemas de una manera diferente a la esperada, esto es, de una manera distinta a la que corresponde a la expresión literal de dichas expresiones^[25]1 . Desde este punto de vista, los errores lógicos podrían no atribuirse a las actividades inferenciales en sí mismas, sino a los procesos previos a tales actividades en los que los sujetos construyen sus representaciones mentales. Y es que una conclusión no válida lógicamente para un condicional puede serlo perfectamente, como vamos a ver más abajo, si

13
paper corpusSignosTxtLongLines400 - : [2]vol.48 número88 [3]Hacia una extracción automática de colocaciones en definiciones de verbos de un diccionario explicativo en español [4]Transitividad en el español de Chile: Exploración desde la perspectiva sistémico-funcional [5] índice de autores [6]índice de materia [7]búsqueda de artículos [8]Home Page [9]lista alfabética de revistas

14
paper corpusSignosTxtLongLines416 - : Extracción abierta de información a partir de textos de Internet en español utilizando reglas sobre categorías de palabras en secuencias: Problemas del método, sus causas y posibles mejoras

15
paper corpusSignosTxtLongLines475 - : arcadas desde el IULA, comunes a todos los observatorios de la red (^[51]OBNEO, 2004). Dicha extracción tuvo como principal base metodológica la aplicación de un criterio de exclusión lexicográfica, que consiste en detectar la presencia de una determinada unidad en un corpus de exclusión compuesto por diccionarios representativos de una lengua dada (^[52]Nazar & Vidal, 2008 ) y, en el caso de no encontrarla, considerarla como neologismo.

16
paper corpusSignosTxtLongLines511 - : Ahora bien, los procesos de identificación y extracción de los sustantivos de ^[36]Augusta (1916) y ^[37]Febrés ([1765]^[38]1882) fueron diferentes en cada uno de ellos: en el primero, las marcas gramaticales asignadas a la gran mayoría de los nombres permitieron orientar estos procesos, mientras que, en el segundo, la escasa presencia de estas marcas nos llevó a considerar la morfología y/o la definición como criterios de selección . De esta forma, obtuvimos un total de 5.113 nombres -2.021 extraídos de ^[39]Febrés ([1765]1882) y 3.101, de Augusta (1916)-, de los cuales 4.193 correspondieron a formas distintas. De ellas, solo se analizaron desde el punto de vista de su creación 2.779 unidades -un 66% del total-; el resto no pudo ser analizado por corresponder a nombres monomorfémicos o por presentar una morfología o una semántica opacas.

17
paper corpusSignosTxtLongLines522 - : La extracción de muestras aleatorias de concordancias por cada verbo fue abordada ya en el apartado dedicado al análisis manual. La extracción aleatoria de concordancias a partir de corpus de tamaño tan grande como los utilizados requiere de un proceso de indización, que en nuestro caso se realizó utilizando el software Jaguar (http://www .tecling.com/jaguar). El indexador de este programa permite extraer concordancias de cualquier verbo del esTenTen de forma instantánea, lo que sería imposible con los extractores de concordancias habituales, que no son capaces de procesar tanta información.

18
paper corpusSignosTxtLongLines8 - : La poeta reclama la restitución de un vínculo perdido porque siente cada vez más las consecuencias del caer. Entre ellas, el enajenamiento que provoca la disgregación del yo, su multiplicación. Ya que al perder su unidad primordial, el sujeto se hace acreedor de la dispersión cósmica. Así se manifiesta en el siguiente pasaje de «Caminos del espejo», serie poemática de Extracción de la piedra de la locura:

19
paper corpusSignosTxtLongLines8 - : Este presentimiento se torna evidencia cuando la poeta descubre la imposibilidad de su tentativa creadora, cuando advierte la debilidad de su propio lenguaje^[103]77. Ante la posibilidad de ser absorbida por el silencio mortal, la poeta debe disponerse a hablar. Es la forma de evitar que canten «los funestos, los dueños del silencio». Este sentido del canto se confirma en el poema "Fragmentos para dominar el silencio», de Extracción de la piedra de la locura:

20
paper corpusSignosTxtLongLines89 - : La tarea de esta sorprendente máquina podría considerarse más sencilla y simplificada si a la hora de codificar cada oración del texto le correspondiese tan sólo una idea que fuese representada proposicionalmente como una unidad en el cómputo de la comprensión. Dicha tarea podría realizarse de una manera cuasi automática, y consistiría básicamente en la extracción de la información de la base del texto, esto es, de la información explicitada en el texto . Pero la realidad no suele ser tan simple y mecánica, ya que, por un lado, los textos u otras formas de discurso suelen presentarse con oraciones que pueden contener varias ideas y proposiciones y, por otro, otras ideas y proposiciones relacionadas a lo leído se añaden desde el conocimiento previo del lector. Es precisamente el conocimiento del que dispone el lector y su relación con lo que se lee, el motor que induce a la realización de inferencias. Esto explica la importante variedad de inferencias que pueden ser producidas mientras se le

Evaluando al candidato extracción:


1) corpus: 10 (*)
3) términos: 6
4) texto: 5 (*)
6) concordancias: 4 (*)
7) análisis: 4
8) automática: 4
9) terminológica: 4 (*)
10) método: 4
11) terminología: 4 (*)
12) textos: 4 (*)
13) asociación: 4
15) frecuencia: 4 (*)
16) consiste: 4
17) llevar: 3
20) nuestro: 3

extracción
Lengua: spa
Frec: 115
Docs: 44
Nombre propio: 4 / 115 = 3%
Coocurrencias con glosario: 7
Puntaje: 7.902 = (7 + (1+6.08746284125034) / (1+6.85798099512757)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
extracción
: Aguilar, H. (2012). Extracción automática de información semántica basada en estructuras sintácticas. Unpublished master’s thesis, Instituto Politécnico Nacional, Mexico.
: Santana, O., Pérez, J., Sánchez, I. & Gutiérrez, V. (2011). Extracción automática de colocaciones terminológicas en un corpus extenso de lengua general. Procesamiento del Lenguaje Natural, 47, 145-152.
: Vivaldi, J. (2001). Extracción de candidatos a término mediante combinación de estrategias heterogéneas. Barcelona: IULA, Sèrie Tesis 9.