Update: February 24, 2023
The new version of
Termout.org is now online,
so this web site is now obsolete and will soon be dismantled.
|
Lista de candidatos sometidos a examen:
1)
n-grama (*)
(*) Términos presentes en el nuestro glosario de lingüística
Is in goldstandard
1
paper corpusSignosTxtLongLines211 -
: Una secuencia, paquete léxico, cluster o n-grama es una cadena de elementos que se repiten juntos frecuentemente en un corpus determinado . Estos paquetes pueden o no cumplir una función sintáctica ya que pueden estar formados por elementos que no configuran una unidad sintáctica (e.g. de la).
2
paper corpusSignosTxtLongLines374 - : En cuanto al algoritmo basado en ontologías, muestra el mejor desempeño con un 80.1%, superando al algoritmo de funciones en un 1.1%, que es más que el porcentaje obtenido en la comparación entre el algoritmo basado en funciones y el algoritmo basado en
n-gramas con una diferencia del 0.91
%. Por lo tanto, el mejoramiento que se pudo realizar entre el algoritmo basado en n-grama de letras y el algoritmo basado en ontología es de un 12%, la cual es una diferencia representativa .
3
paper corpusSignosTxtLongLines375 - : En realidad, la tarea de depuración terminológica se basa en un método en cascada (Jurafsky & Martin, 2009), donde es preciso que termine el filtrado de
n-gramas de un nivel antes de que empiece el siguiente. En nuestro caso, este método solo puede ser aplicado de manera descendente, permitiendo recorrer los
n-gramas desde el más específico hasta el más general en cuanto a su contenido semántico. Así, los trigramas (nivel A) son potencialmente más restrictivos en cuanto a su contenido semántico que los unigramas (niveles C-E) y el filtrado avanzado (nivel C) lo es más que el filtrado funcional (nivel E). En sentido estricto, la depuración terminológica conlleva simplemente la decisión de eliminar el
n-grama, o dejarlo como término relevante para su conceptualizació
n. Si un n-grama resulta ser un candidato falso, podemos eliminar dicho n-grama de manera parcial o total:
4
paper corpusSignosTxtLongLines375 - : [59]^1
1. En nuestro caso, un n-grama es una cadena de texto formada por n raíces correspondientes a palabras contiguas en el texto, ya sean separadas por un espacio en blanco o por un signo de puntuación, donde 0 < n ≤ 3 .
Evaluando al candidato n-grama:
1) algoritmo: 6 (*)
2) basado: 5
4) filtrado: 3
n-grama
Lengua: spa
Frec: 21
Docs: 3
Nombre propio: / 21 = 0%
Coocurrencias con glosario: 1
Puntaje: 1.899 = (1 + (1+3.90689059560852) / (1+4.4594316186373)));
Candidato aceptado
No se encontraron referencias bibliográficas sociadas al/ alos término(s)
(Que existan referencias dedicadas a un término es también indicio de
terminologicidad.)