• Bases lexicales et listes de fréquence

    En relisant un document du MEN sur l'enseignement de l'orthographe, j'ai découvert, en plus de listes de fréquences, une ressource permettant de créer des listes de mots critériées.

     

    1) la base lexicale eManulex :

    eManulex a été initialement créée par des chercheurs du CNRS et de l'université de Lyon, puis développée sur Internet par les mêmes. A partir de 54 manuels destinés aux élèves du CP au CM2, ont été extraites 48 900 formes orthographiques (différenciant les pluriels et des formes verbales aux différents temps et personnes) représentant en fait 23 800 lemmes (l'ensemble des formes orthographiques d'un même mot ; pour simplifier, c'est l'entrée du dictionnaire).

    Il est à noter que les lemmes répertoriés incluent aussi bien des nombres, que des mots composés, des locutions adverbiales ou des noms propres.

    Cette base eManulex est très précise, puisqu'elle permet de réaliser des requêtes personnalisées en fonction des critères suivants :

    • le niveau de classe du CP au CM2
    • choix entre lemmes ou formes orthographiques
    • 9 catégories grammaticales
    • groupes de lettres ou phonèmes présents
    • nombre de lettres
    • fréquence lexicale (avec plusieurs sous-critères)

    La liste obtenue se présente sous forme d'un tableau avec la catégorie du mot et est exportable en fichier texte format csv.

    Il existe également une autre version, eManulex infra, qui permet d'accéder à des critères supplémentaires, assez techniques ouch, mais heureusement les auteurs ont pensé à tout, car on trouve également sur le site une description des abréviations utilisées et le mode de calcul des différents critères de fréquence lexicale (ouf !).

    Enfin, pour les lecteurs assidus de théorie, les auteurs du site proposent également diverses publications sur leur base eManulex ou s'y référant.

     

    2) l'échelle orthographique de Dubois-Buyse :

    La liste de fréquence plus connue ou répandue est certainement l'échelle Bubois-Buyse, consultable en ligne en version pdf ou tableur (Merci Charivari !) et qui répertorie la liste des mots les plus fréquemment rencontrés par les élèves du CP au lycée.

    Comme son nom l'indique, elle présente des mots par ordre de fréquence décroissante et les sépare en plusieurs échelons, que l'élève peut gravir au fur et à mesure de ses apprentissages.

     

    3) l'échelle orthographique de Nina Catach :

    Elle présente l'avantage d'être plus limitée (et donc exploitable ?) que la précédente, car en plus de présenter les 100 mots (lemmes) de la langue parlée les plus fréquents par ordre décroissant, elle propose pour les principales catégories grammaticales (nom, verbe, adjectif) les 100 mots (lemmes) les plus utilisés.

    Elle est consultable en version pdf, visiblement directement extraite de sa publication.

     

    4) la liste de fréquence lexicographique d'Eduscol :

    Elle est composée des 1500 mots (lemmes) les plus fréquents de la langue écrite, extraits de lectures littéraires et non littéraires destinées aux élèves.

    On peut consulter cette liste de fréquence directement à l'écran avec différentes présentations ou bien même l'exporter dans un tableur Open Office ou Excel.

    Je ferai juste une remarque concernant cette liste : j'ai été surprise de voir que le mot le plus fréquent est "le", mais aucune trace de "la" aww... J'espère que c'est uniquement parce que les formes masculine et féminine ce déterminant ont été fusionnées en une seule... Chez Nina Catach elles sont clairement séparées arf...

     

    Partager via Gmail

    Tags Tags : , , , , , , , , , , , ,
  • Commentaires

    Aucun commentaire pour le moment

    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :