NOVLEX: Une Base de Données Lexicales pour les Elèves de Primaire

FOIRE AUX QUESTIONS

Q: comment faire une recherche dans cette base de données ?

R: à côté de chaque critère de recherche il y a une bulle d'aide. En cliquant dessus, vous obtiendrez quelques informations sur ce qui est attendu dans le champ correspondant. Ne remplissez que les champs pour lesquels vous voulez imposer un critère. Par exemple, pour rechercher tous les mots commençant par "to", saisissez "to" dans le champ sur la ligne libellée "mot", et sélectionnez "commence par" dans la boîte déroulante (à droite). Cliquez sur "rechercher".

Q: Il y a des mots que je ne vois pas, comme par exemple bilan.

R: La base a été constituée à partir de 38 livres pour enfants. Le mot bilan n'est pas dans la base car il n'est apparut dans aucun des ouvrages.

Q: la fréquence d'apparition ou d'utilisation du verbe être est nulle.

R: C'est tout à fait possible car la valeur de la fréquence d'être a été affectée à la forme nominale. La base de donnée a été construite à partir de la forme orthographique et la fréquence est calculée sur cette forme. Un nom n'est pas différencié d'un verbe pour la fréquence. Afin d'éviter les confusions, il a été choisi d'affecter la valeur de fréquence à une seule des entrées d'une forme orthographique, les autres formes recevant la fréquence nulle.

Q: des mots apparaissent parfois en double dans la liste. La seule différence me semble venir du genre ( vide, m, f, h).

R: Il est tout à fait normal que des mots apparaissent plusieurs fois dans la mesure où il peut s'agir d'homographes: à une forme orthographique peut correspondre plusieurs fonctions ou plusieurs genre, etc.
Par exemple, romain est à la fois un nom et un adjectif, ce qui lexicalement correspond à deux entrées différentes. Rond est un adjectif (masculin) et un adverbe (ne peut pas avoir de genre). Ou encore rouille, qui est un nom féminin et aussi un adjectif qui peut être masculin et féminin (genre noté "h").

Q: quelle valeur de fréquence défini un mot rare ou fréquent ?

R: Nous sommes souvent interrogé sur les critères de décision pour définir un mot rare ou un mot fréquent à partir de la base NOVLEX.
De notre point de vue, il est impossible de donner la valeur d’une frontière absolue de fréquence pour distinguer les mots rares des mots fréquents.
Toute fréquence doit être restituée dans son contexte: la base de données dont elle est issue (cela implique tous les mots contenus dans cette base), mais aussi l’origine des textes dont sont issus ces mots.
Par exemple pour NOVLEX la fréquence la plus faible est de 238, et la plus forte de 4245235. Indéniablement les mots de fréquence 238 (par exemple acétylène) sont des mots rares dans le corpus d’origine (et probablement par ailleurs) ou le mot le, qui présente la plus forte fréquence, est surement un mot très fréquent dans l’ensemble des corpus similaires. Toutefois, tout cela doit être rapporté à l’ensemble des autres fréquences des mots et la valeur numérique considérée n’apporte pas d’indication en soi. Car si l’on veut élargir les frontières pour trouver d’autres mots, à quelle valeur peut-on s’arrêter ? Le double, le triple de la valeur la plus basse ? Nous n’avons aucune donnée absolue sur laquelle nous appuyer.
La plupart des études qui utilisent la fréquence comme variable opposent les hautes et basses fréquences en prenant les extrêmes de leur base de données de référence. Nous ne connaissons pas d’étude portant sur les valeurs de fréquence en tant que tel.
La variable « fréquence » est une variable continue et aucun critère linguistique ne nous permet de décider arbitrairement de cette frontière.

Alors comment faire ?
La solution est souvent apportée en sélectionnant des mots différents quant à leur fréquence. Si nous n’avons pas de critère pour une valeur absolue, il est clair qu’en sélectionnant des mots de valeurs très contrastées, on peut avoir une certaine assurance d’une différence significative sur leur fréquence lexicale.
En conclusion il faut donc voir la fréquence comme un critère relatif aux autres mots et spécifique à une base donnée.

NovLex © E. Lambert & D. Chesnet, 2000-2012.Mise à jour: 25 janvier 2012