Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) frecuencias (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: frecuencias


Is in goldstandard

1
paper corpusSignosTxtLongLines186 - : La explicación de estas frecuencias habría que buscarla en la equivalencia entre estas formas: el contexto didáctico alterna ‘pero’ y ‘sin embargo’ ; en los otros contextos la alternancia es con la locución conjuntiva ‘no obstante’, forma característica del modo de comunicación escrito, con valores semánticos y sintácticos diferenciadores.

2
paper corpusSignosTxtLongLines269 - : Gráfico 2. Frecuencias relativas de Modo: grado = 'profundamente' a través

3
paper corpusSignosTxtLongLines269 - : Gráfico 3. Frecuencias relativas de Modo: grado = 'profundamente' a través de los diferentes

4
paper corpusSignosTxtLongLines282 - : Se transcribieron los textos según las pautas desarrolladas por los analistas de la conversación (Jefferson, 2004). Para el análisis se seleccionaron y analizaron todas las secuencias que incluían reformulaciones. Para identificar el comportamiento comunicativo de cada uno de los participantes se compararon los diferentes tipos de procedimientos de reformulación, así como los contextos de aparición en cada uno de los textos. Se consideraron como medidas las frecuencias relativas de aparición y dos índices elaborados para comparar la relación entre la cantidad de procedimientos y la cantidad de enunciados: el Índice de Concentración de Reformulaciones (ICR ) y el Índice de Concentración de Procedimientos de Reformulación (ICPR). Estos índices se calcularon a partir de considerar la relación entre la cantidad de procedimientos y la cantidad de enunciados. De esta forma cuando el ICR o el ICPR se aproxime a 1 se considera como la expresión de grado de concentración máxima, en la que en todos

5
paper corpusSignosTxtLongLines285 - : Se transcribieron los textos según las pautas desarrolladas por los analistas de la conversación (Jefferson, 2004). Para el análisis se seleccionaron y analizaron todas las secuencias que incluían reformulaciones. Para identificar el comportamiento comunicativo de cada uno de los participantes se compararon los diferentes tipos de procedimientos de reformulación, así como los contextos de aparición en cada uno de los textos. Se consideraron como medidas las frecuencias relativas de aparición y dos índices elaborados para comparar la relación entre la cantidad de procedimientos y la cantidad de enunciados: el Índice de Concentración de Reformulaciones (ICR ) y el Índice de Concentración de Procedimientos de Reformulación (ICPR). Estos índices se calcularon a partir de considerar la relación entre la cantidad de procedimientos y la cantidad de enunciados. De esta forma cuando el ICR o el ICPR se aproxime a 1 se considera como la expresión de grado de concentración máxima, en la que en todos

6
paper corpusSignosTxtLongLines318 - : Por su parte, en el estrato medio bajo, las frecuencias de empleo de dicho componente de las narrativas en hombres y en mujeres se acercan considerablemente: 11,6% (31/268 ) en el caso de las hablantes femeninas y 11,2% (30/268) en los hablantes masculinos.

7
paper corpusSignosTxtLongLines318 - : En lo que sigue, presentamos la [39]Tabla 4 y el [40]Gráfico 3 donde se señalan las frecuencias de empleo de las categorías evaluativas utilizadas por los hablantes de la muestra, cada una de dichas categorías identificada con las siglas propuestas por Jiménez (2006): emoción (EMO ), cognición (COG), percepción (PER), estado físico (PHY), intención (INT), relación (REL), habla reportada (RPS), habla reportada directa (RPD), habla reportada indirecta (RPI) y habla reportada libre (RPF).

8
paper corpusSignosTxtLongLines320 - : iografía de los cambios de paradigma que se van dando a lo largo de la historia del campo, pero también de una neología y una arqueología de su terminología, rescatando términos que sería difícil encontrar mediante inspección manual debido a la escala del corpus. El objetivo específico del artículo es proponer una alternativa a otros modelos existentes para el estudio de unidades en la escala temporal que se limitan a seguir la curva de distribución de frecuencias en el tiempo de unidades elegidas arbitrariamente por un usuario . La alternativa en este artículo ofrece una visión distinta porque es proceder del modo inverso, en lugar de introducir unidades léxicas para ver sus curvas, introducir las curvas para obtener las unidades. La utilidad de estos conjuntos de unidades puede variar en función de las necesidades. Por ejemplo, la creación de glosarios terminológicos de distintos tipos (en papel o en formato electrónico) puede requerir ya sea una nomenclatura que incluya sólo la terminol

9
paper corpusSignosTxtLongLines320 - : Figura 4. Distribución de frecuencias de ‘Drae´, una forma con alta concentración .

10
paper corpusSignosTxtLongLines320 - : La metodología para la extracción de arcaísmos (en el sentido técnico ya explicitado) y neologismos consiste en plantear una curva modelo de la frecuencia de unos y otros y a partir de entonces calcular la similitud que tienen con ellos las curvas de frecuencias de cada uno de los términos de la muestra. En el caso de los arcaísmos, utilizamos la Ecuación 5 para definir este arcaísmo ideal, función que es representada en la Figura 6. Para calcular la similitud que tienen cada uno de los términos con este arcaísmo ideal utilizamos la distancia euclideana. La Ecuación 7 define la distancia euclideana entre dos vectores X e Y. Para poder llevar a cabo esta comparación entre curvas previamente tenemos que normalizar los valores (Ecuación 8), es decir, llevar los términos de distinta frecuencia a la misma escala. La [46]Figura 7 muestra la curva de frecuencias de la forma ‘generativa´, que es una de las que muestra mayor similitud con el arcaísmo ideal, y la[47] Tabla 6 muestra las 20 formas co

11
paper corpusSignosTxtLongLines338 - : Se puede inferir de estos estudios que en cualquier indagación de las frecuencias de un texto, se generan tres áreas: una pequeña zona de palabras de alta frecuencia, una zona de frecuencia media, y una gran zona de palabras de baja frecuencia . Sin embargo, los modelos lineales de estimación solo representan adecuadamente las palabras de la zona intermedia. Las posibles causas de esta desviación, según Gelbukh y Sidorov (2001), serían las diferencias gramaticales y la riqueza léxica que existen entre los diversos idiomas.

12
paper corpusSignosTxtLongLines362 - : En el [39]Gráfico 1 se presentan las frecuencias de empleo de las variantes generales del discurso referido registradas en el corpus, esto es, discurso directo (DD ) y discurso indirecto (DI).

13
paper corpusSignosTxtLongLines362 - : Pese a que desde el punto de vista cuantitativo, en términos de frecuencias porcentuales generales se registraron frecuencias de empleo de las variantes generales del discurso referido muy cercanas entre hombres y mujeres (en el DD, 33,5% los hombres y 40,8% las mujeres, y en el DI, 11,1% los hombres y 14,6% las mujeres), una aproximación más interpretativa del fenómeno develó que las mujeres suelen emplear el DD como una estrategia pragmática mediante la cual intentan dotar de mayor teatralidad a sus narraciones en la forma de ‘mini-dramas’ . Es decir, a diferencia de lo que ocurre en las narraciones producidas por los hombres que conforman la muestra, en los relatos femeninos existe una tendencia a la proliferación del mencionado recurso en un mismo intercambio, intercalándose una gran cantidad de voces en el discurso, como se observa en el ejemplo 6.

14
paper corpusSignosTxtLongLines377 - : Una hipótesis interesante a indagar a partir de estos datos tiene relación con la vinculación que establecen estos artefactos con la disciplina y el género discursivo en el que aparecen. El hecho de que la Fórmula, el Gráfico, la Tabla y el Complejo Estadístico aparezcan con frecuencias importantes en todos los manuales estudiados supone que estos artefactos son característicos en la construcción, transmisión y enseñanza del conocimiento especializado de la Economía . Mientras que la ocurrencia escasa y alternada de los artefactos Esquema, Ilustración e Ícono sugiere elecciones que tienen más relación con las características propias del género Manual. Así el Esquema respondería a exigencias vinculadas con el propósito pedagógico de este género, al presentar conceptos y procesos, poniendo particular énfasis en los aspectos destacados; mientras que la Ilustración y el Ícono podrían responder a criterios relacionados con los participantes (hacer más interactiva y accesible la lectura,

15
paper corpusSignosTxtLongLines383 - : Tanto en los porcentajes como en las frecuencias absolutas, queda reflejado que la posición preverbal de ‘yo’ coaparece con aquellos textos más relacionados con la modalidad discursiva argumentativa (informativos-debates y tertulias), en las cuales el hablante establece su opinión o punto de vista a partir de la representación de su propia persona . Hay que destacar la elevada frecuencia del sujeto en los programas estrictamente informativos. Esto es debido a que en estas emisiones se producen frecuentes intervenciones de personas ajenas al programa que dan su opinión o parecer sobre alguna cuestión de actualidad. Aun así, las frecuencias absolutas muestran que en general la presencia de sujetos de primera persona es mucho menor que en otros géneros.

16
paper corpusSignosTxtLongLines399 - : La conceptualización y caracterización de las colocaciones puede ser atendida básicamente desde dos enfoques: el estadístico y el semántico o fraseológico. En el primero de ellos se establece que las palabras en una colocación co-ocurren de manera más frecuente que sus respectivas frecuencias y, además, que puede predecirse la longitud del texto que separa a los miembros de la colocación (distancia colocacional), esto es, el número de palabras, tanto a la derecha como a la izquierda, que separan a la base del colocativo ( Jones & Sinclair, 1974 ). Este enfoque ha visto su influencia en la lexicografía con la creación de dos diccionarios de colocaciones para el idioma inglés que están basados en corpus: A Dictionary of English Collocations (Sinclair, 1995) y COBUILD-English Collocations on CD-ROM (Kjellmer, 1998). Aún con estas contribuciones, este enfoque ha sido ampliamente cuestionado subrayando que los datos ofrecidos al investigador finalmente deben discriminarse atendiendo criterios en

17
paper corpusSignosTxtLongLines399 - : El contraste que existe entre el método que proponemos en este artículo y los enfoques antes mencionados, es el siguiente: no adoptamos un enfoque estadístico porque no trabajamos con corpus de textos, en donde se presta especial atención al procesamiento de frecuencias de palabras, sino que trabajamos con un diccionario explicativo, de forma que aprovechamos diversas ventajas que se pueden obtener de estos repositorios, como el hecho de que la información tiene una estructura homogénea (en la macroestructura encontramos una ordenación de los materiales léxicos que se definen, también llamados ‘entradas’, y en el plano de la microestructura, una disposición constante de los elementos informativos que acompañan a cada entrada, la manera en que se representan y el orden en que aparecen ), y la existencia de una relación léxica, que podemos identificar, entre la entrada y la base de la colocación.

18
paper corpusSignosTxtLongLines405 - : Otra alternativa de normalización a la ‘frecuencia relativa’ y la ‘normalización de frecuencias por millón de palabras’ es el ‘índice normalizado de dispersión’ (Ham, 1979 ), aplicado a la normalización de frecuencias del Corpus del Español Mexicano Contemporáneo (CEMC). Este ofrece una medida que da cuenta de la frecuencia de un vocablo, su dispersión entre géneros y el tamaño relativo de cada uno de ellos. Se calcula a partir de la ‘frecuencia corregida’ (Korrigierte Frequenz (KF)), propuesta original de Jan Lanke, según reporta Ham (1979), que sirve para subsanar diferencias ocasionadas por ponderaciones de ciertos tipos documentales frente a otros, dentro de un corpus. El ‘índice normalizado de dispersión’ (C[i]) considera el tamaño relativo del género en el que aparece el vocablo (r[j]) y un índice de dispersión de este entre géneros (S[i]). La fórmula descrita por Ham (1979) es la siguiente:

19
paper corpusSignosTxtLongLines405 - : El cálculo de las medias móviles atenúa las diferencias entre cortes temporales y dibuja una tendencia, pero de ninguna manera normaliza las frecuencias registradas para cada uno de los cortes temporales. Por ello, en este punto es necesario otro paso adicional para este método de normalización de frecuencias: recuperar un valor que refleje el número máximo de documentos posibles que hay en el corpus, para este mismo periodo de tiempo, tomando en cuenta los mismos cortes temporales que se han considerado para el análisis de la unidad léxica ‘país’ .

20
paper corpusSignosTxtLongLines405 - : En este caso, se encuentran disponibles en línea^[31]7 cuatro listas de frecuencias de las unidades léxicas recogidas en el CREA, a saber: ‘1 .000 formas más frecuentes’, ‘5.000 formas más frecuentes’, ‘10.000 formas más frecuentes’ y ‘Lista total de frecuencias’. La información que aportan estas listas indica que la preposición ‘de’ es la forma más frecuente del español en el CREA. Entonces, considerando que la palabra más frecuente del CREA es la preposición ‘de’ y asumiendo que también podría serlo para el CORDE, el siguiente paso sería plantear un método de comparación efectiva entre esta palabra y la unidad léxica estudiada (en este caso: ‘país’).

21
paper corpusSignosTxtLongLines405 - : Este procedimiento es una alternativa diferente de normalización de frecuencias, respecto a los trabajos existentes, en la que está implícita una comparación entre la aparición de otro hecho lingüístico: otra unidad léxica regular y altamente frecuente en el corpus, y no una normalización de frecuencias basada en el tamaño del léxico recogido en él .

22
paper corpusSignosTxtLongLines405 - : En este punto de la normalización de frecuencias es necesario, primero, darle un valor a las ocurrencias cuantificadas respecto al tamaño de las muestras para cada corte temporal y, luego, una alternativa de representación de los datos que subsane estas diferencias . Los pasos seguidos en la normalización de frecuencias son los mismos que en el ejemplo de ‘país’, a saber, primero, calcular las medias móviles de ‘agora’ y ‘ahora’, para los siglos representados. Veamos, en el Gráfico 8, cómo se suavizan las líneas de tendencia después de este procedimiento.

23
paper corpusSignosTxtLongLines405 - : El proceso de normalización de frecuencias que aquí se propone, tal cual se ha descrito, no pretende manipular los datos para sustituir la realidad lingüística del español, sino que es una alternativa que permite la comparación de hechos lingüísticos que se encuentran representados desproporcionadamente en los corpus académicos .

24
paper corpusSignosTxtLongLines405 - : Los pasos propuestos para esta normalización de frecuencias son los siguientes, en este orden: primero, considerar la aparición de cualquier fenómeno lingüístico que se estudie en la base de datos por documento (D ). Después, es preciso calcular las medias móviles para los periodos de tiempo estudiados (ma[D]), con ello lo que se estudiaría es una tendencia de uso. Luego, se calcula el valor logarítmico natural de estas medias móviles (ln ma[D]), para darle al fenómeno estudiado un valor comparable independientemente del alto o bajo número de documentos que haya en cada periodo. En este punto es indispensable repetir este mismo procedimiento para las ocurrencias de la forma léxica más frecuente en ambos corpus, a saber, la preposición “de”; con ello obtendremos el número virtual de documentos por periodo de tiempo estudiado (N). Del que, luego, calcularemos las medias móviles y su valor logarítmico natural (ln ma[N]).

25
paper corpusSignosTxtLongLines411 - : 15 De estos marcadores, ‘claro’ solo llega al 73,54% de suma de frecuencias relativas en los dos corpus conversacionales, pero ya es una cifra alta de frecuencia .

26
paper corpusSignosTxtLongLines425 - : Integra tres dimensiones: de puntuación (García Negroni, 2010; R.A.E., 2011), morfológica (Bosque & Demonte, 1999) y fonografémica (García Negroni, 2010; R.A.E., 2011) (Tabla 5). Las concordancias fueron registradas como categorías nominales. En las otras dimensiones fueron registradas para cada texto las frecuencias relativas respecto del total de palabras en el texto: exactas para la puntuación y la dimensión fonografémica y con rangos para las palabras encadenadas (por ejemplo, “muchascosas” ) e hipersegmentadas (por ejemplo, “es pecial”).

27
paper corpusSignosTxtLongLines448 - : tas realizadas a hablantes santiaguinos. En términos específicos, los objetivos de nuestro trabajo son: a) identificar los marcadores que cumplen la función de reformulación explicativa en la muestra, b) determinar su frecuencia de empleo y c) correlacionar dichas frecuencias con las variables sociodemográficas: sexo, edad y grupo socioeconómico de los informantes . Por otro lado, las hipótesis que someteremos a comprobación en este trabajo son: a) si bien existe un paradigma amplio de marcadores explicativos, ‘o sea’ es el que se emplea de modo preponderante y b) los factores sociodemográficos de los sujetos inciden de manera irregular en el empleo de los reformuladores de explicación.

28
paper corpusSignosTxtLongLines448 - : trabajo seguimos las sugerencias e indicaciones de Moreno Fernández (1990), López Morales (1994) y Hernández Campoy y Almeida (2005). El análisis estadístico atendió a dos niveles de observación: a) en términos descriptivos, según las frecuencias absolutas y los porcentajes de frecuencia de cada rectificador y b) en términos interpretativos o inferenciales, con base en la comparación entre las medias o tendencias centrales de los marcadores más frecuentes, esto es, de aquellos con más de 25 ocurrencias . El paquete estadístico al que hemos recurrido para la estadística inferencial es el SPSS (Statistical Package for the Social Sciences), versión 15.0 para Windows, específicamente, la prueba Análisis de varianza ANOVA. En atención a que la distribución de los datos, en algunos casos, pudiera ser anormal, se complementará dicho análisis con su análogo de tipo no paramétrico, esto es, Anova de Kruskal Wallis. En ambos casos, el grado de significación se definirá en el 5%, según el cua

29
paper corpusSignosTxtLongLines448 - : Los reformuladores explicativos, como indicamos más arriba, introducen un segmento del discurso que aclara o amplía el contenido que se ha querido expresar con otro segmento anterior. En nuestros materiales se verificó un total de 2403 ocurrencias de este tipo de marcadores que se distribuyen en el siguiente paradigma de reformuladores explicativos, con las frecuencias absolutas que se indican: ‘o sea’ (2217 ), ‘onda’ (55), ‘digamos’ (92), ‘es decir’ (21), ‘por ser’ (17) y ‘vale decir’ (1). El [29]Gráfico 1 muestra las frecuencias porcentuales de estos marcadores en el corpus:

30
paper corpusSignosTxtLongLines448 - : En nuestros materiales, se identificaron 2403 ocurrencias de la función discursiva (variable) “reformulación de explicación mediante marcadores”, la que se materializó por medio del siguiente paradigma de reformuladores explicativos (variantes), con las frecuencias absolutas y porcentuales que se indican: ‘o sea’ (2217= 92,3% ), ‘onda’ (55= 2,3%), ‘digamos’ (92= 3,8%), ‘es decir’ (21= 0,87%), ‘por ser’ (17= 0,7%) y ‘vale decir’ (1= 0,03%). Estos resultados nos permitieron corroborar nuestra primera hipótesis, esto es, la preponderancia de ‘o sea’ como marcador explicativo.

31
paper corpusSignosTxtLongLines520 - : patrón se repite en el grupo con estudios medios, donde de un total de 42 casos, 34 corresponden a usos masculinos y solo 8 a usos femeninos. El único grupo que presenta un comportamiento divergente, aunque con una diferencia de frecuencias muy menor, es el grupo con estudios bajos, donde de los 39 casos registrados, 18 son utilizados por hombres y 21 por hablantes mujeres . Pese a esta divergencia, en términos generales, del total de usos 59/90 (65,5%) son registrados en discursos masculinos mientras que solo 31/90 (34,4%) son utilizados por mujeres, es decir, los hombres casi duplican a las mujeres en su empleo de ‘su’ con valor afectivo y ponderativo.

32
paper corpusSignosTxtLongLines538 - : Las frecuencias reconocidas por el CORPES son dos, una que nombra como frecuencia absoluta o conjunta (Freq .) y que refleja el número de veces que aparece un vocablo en un área lingüística; y la otra, denominada en este corpus como normalizada (Fnorm.) porque ofrece el número de ocurrencias por millón de palabras. Una vez obtenidos todos estos datos que aparecen en el Anexo, se ha procedido a un análisis cuantitativo que haga posible contestar las preguntas de investigación.

33
paper corpusSignosTxtLongLines571 - : En consonancia con los datos generales de atenuación, se observa que en los tres niveles de instrucción se recurre mayoritariamente a los modificadores externos. Sin embargo, las frecuencias relativas, obtenidas a partir del total de los recursos empleados en cada grupo, nos indican que estos mecanismos son más utilizados por los estratos medio (15,8%) y bajo (16,2%) que por los hablantes universitarios (12,8% ). Además, al contrario de lo que sucede con los otros dos grupos, los informantes del nivel bajo emplean con mayor frecuencia, tras los modificadores externos, los diminutivos, otro procedimiento que afecta al contenido proposicional del mensaje; el porcentaje (10,3%) es, de hecho, considerablemente elevado si lo comparamos con el sociolecto medio (7,1%) y, sobre todo, con el alto (5,2%). El tercer mecanismo atenuador del dictum, el empleo de formas más suaves como las lítotes o los eufemismos, aparece en proporciones similares en los tres grupos.

34
paper corpusSignosTxtLongLines571 - : Como se puede observar, la suma de las frecuencias relativas de los tres procedimientos mitigadores del contenido proposicional de los enunciados va siendo mayor a medida que desciende el nivel de instrucción de los sujetos entrevistados: 25% en el nivel alto, 31% en el medio y 34,2% en el bajo^[114]^4 . Estos resultados han sido comparados con los obtenidos por los hablantes de la norma culta (entrevistados hace ahora 30 años), que, en los casos seleccionados para el estudio de la atenuación, eran no solo personas con estudios universitarios, sino además profesionales de reconocido prestigio en la sociedad canaria (^[115]Samper Hernández, 2018); en ellos el porcentaje de recursos del dictum desciende al 20,3%, lo que permite dibujar el perfil lineal representado en el [116]Gráfico 4:

Evaluando al candidato frecuencias:


2) corpus: 11 (*)
3) términos: 9
4) palabras: 9 (*)
5) procedimientos: 9
6) normalización: 9 (*)
8) gráfico: 8 (*)
10) relativas: 8 (*)
11) empleo: 8
12) hablantes: 7
15) análisis: 7
16) marcadores: 7 (*)
20) aparición: 6

frecuencias
Lengua: spa
Frec: 246
Docs: 69
Nombre propio: 2 / 246 = 0%
Coocurrencias con glosario: 6
Puntaje: 6.853 = (6 + (1+6.62935662007961) / (1+7.94836723158468)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
frecuencias
: - El Diccionario de Frecuencias del Castellano Moderno, Difcam (Sadowsky & Martínez, 2011), un diccionario de frecuencias léxicas que contempla 637 millones de tokens.
: 5. Aplicación de la propuesta: identificación y registro de las frecuencias de aparición de las unidades retóricas del Relato del Caso en todo el Corpus CCM-2009.
: Alameda, J. R. & Cuetos, F. (1995). Diccionario de frecuencias de las unidades lingüísticas del castellano. Oviedo, España: Universidad de Oviedo.
: Sadowsky, S. & Martínez, R. (2004). Lista de frecuencias de palabras del castellano de Chile (Lifcach). Versión 1.0/1.1. Base de datos electrónica [en línea]. Disponible en: [140]http://sadowsky.cl/lifcach.html
: Sadowsky, S. & Martínez, R. (2011). Diccionario de frecuencias del castellano moderno (Difcam) [en línea]. Disponible en [67]http://ssadowsky.hostei.com/corpora.html
: Sadowsky, S. & Martínez, R. (2012). Lista de Frecuencias de Palabras del Castellano de Chile (Lifcach). Versión 2.0. Base de datos electrónica [on line]. Retrieved from: [174]http://sadowsky.cl/lifcach.html.