Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) n-grama (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: n-grama


Is in goldstandard

1
paper corpusSignosTxtLongLines211 - : Una secuencia, paquete léxico, cluster o n-grama es una cadena de elementos que se repiten juntos frecuentemente en un corpus determinado . Estos paquetes pueden o no cumplir una función sintáctica ya que pueden estar formados por elementos que no configuran una unidad sintáctica (e.g. “de la”).

2
paper corpusSignosTxtLongLines374 - : En cuanto al algoritmo basado en ontologías, muestra el mejor desempeño con un 80.1%, superando al algoritmo de funciones en un 1.1%, que es más que el porcentaje obtenido en la comparación entre el algoritmo basado en funciones y el algoritmo basado en n-gramas con una diferencia del 0.91%. Por lo tanto, el mejoramiento que se pudo realizar entre el algoritmo basado en n-grama de letras y el algoritmo basado en ontología es de un 12%, la cual es una diferencia representativa .

3
paper corpusSignosTxtLongLines375 - : En realidad, la tarea de depuración terminológica se basa en un método en cascada (Jurafsky & Martin, 2009), donde es preciso que termine el filtrado de n-gramas de un nivel antes de que empiece el siguiente. En nuestro caso, este método solo puede ser aplicado de manera descendente, permitiendo recorrer los n-gramas desde el más específico hasta el más general en cuanto a su contenido semántico. Así, los trigramas (nivel A) son potencialmente más restrictivos en cuanto a su contenido semántico que los unigramas (niveles C-E) y el filtrado avanzado (nivel C) lo es más que el filtrado funcional (nivel E). En sentido estricto, la depuración terminológica conlleva simplemente la decisión de eliminar el n-grama, o dejarlo como término relevante para su conceptualización. Si un n-grama resulta ser un candidato falso, podemos eliminar dicho n-grama de manera parcial o total:

4
paper corpusSignosTxtLongLines375 - : [59]^11. En nuestro caso, un n-grama es una cadena de texto formada por n raíces correspondientes a palabras contiguas en el texto, ya sean separadas por un espacio en blanco o por un signo de puntuación, donde 0 < n ≤ 3 .

Evaluando al candidato n-grama:


1) algoritmo: 6 (*)
2) basado: 5
4) filtrado: 3

n-grama
Lengua: spa
Frec: 21
Docs: 3
Nombre propio: / 21 = 0%
Coocurrencias con glosario: 1
Puntaje: 1.899 = (1 + (1+3.90689059560852) / (1+4.4594316186373)));
Candidato aceptado

No se encontraron referencias bibliográficas sociadas al/ alos término(s)

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)