Centre d'analyse et de traitement du français québécois.


Banque de données textuelles de Sherbrooke

 

Le corpus

Le présent corpus comprend quelques deux millions d'occurrences (61 843 formes) tirées de 1054 textes différents. Il constitue un sous-ensemble de la BDTS (qui contient plus de 16 millions de mots à l'heure actuelle). Ce corpus est composé de huit sous-ensembles d'environ 250 000 mots chacun et traités selon une norme commune, ce qui rend leurs données comparables; plusieurs d'entre eux sont en outre lemmatisés. Ils sont représentatifs de divers domaines, types de discours et niveaux de langue suivants :


  1. Textes techniques : langue spécialisée
  2. Corpus constitué par Normand Maillet (thèse soutenue)

    Corpus lemmatisé

    8384 vocables

    12 513 unités complexes ou syntagmes

    Composition : 100 textes extraits de rapports, guides, manuels de formation, normes, procédures, etc.

    Domaines : aluminium, environnement, mines, pâtes et papier, télécommunication, transport, hydro-électricité, informatique, et autres.

     

  3. Textes scientifiques : langue spécialisée
  4. Corpus constitué par Linda Pépin (en rédaction de thèse)

    Corpus lemmatisé

    8653 vocables

    2257 unités complexes ou syntagmes

    Composition : 100 textes extraits de mémoires, de thèses, d'articles scientifiques et de rapports de recherche.

    Domaines : biologie, chimie, physique, génie chimique et génie mécanique.

     

  5. Textes sociopolitiques : langue générale
  6. Corpus constitué par Nadine Vincent (thèse soutenue)

    Corpus lemmatisé

    8355 vocables

    Composition : 100 textes de mémoires sélectionnés à partir des 583 mémoires présentés à la Commission.

    Domaines : mémoires ou extraits de mémoires de la Commission Bélanger-Campeau.

     

  7. Textes administratifs : langue générale
  8. Corpus non lemmatisé

    Composition : 54 textes

    Domaines : débats de l'Assemblée nationale, conventions collectives, textes juridiques, textes du Bureau d'audiences publiques sur l'environnement (BAPE), rapports du vérificateur général du Québec, etc.

     

  9. Textes journalistiques : langue générale
  10. Corpus non lemmatisé

    Composition :

    52 textes tirés de L'Actualité

    55 textes tirés du Devoir

    17 textes tirés d'Interface

    63 textes tirés de La Presse

    57 textes tirés de Québec Science

    75 textes tirés du Soleil

     

  11. Textes littéraires : langue générale
  12. Corpus non lemmatisé

    Composition : 25 textes

    Domaines : romans, chansons, essais, textes de poésie, pièces de théâtre, etc.

     

  13. Textes environnementaux : langue générale
  14. Corpus constitué par Steeve Tremblay (en rédaction de mémoire)

    Corpus semi-lemmatisé

    Composition : 107 textes (certains textes ont été ajoutés pour compléter le corpus oral de Gérald Charland présenté ci-dessous)

    Domaines : textes divers du ministère de l'Environnement du Québec, journaux, périodiques et magazines spécialisés dans le domaine, etc.

     

  15. Textes oraux : langue générale

Corpus constitué par Gérald Charland (thèse soutenue)

Corpus lemmatisé

Composition : 20 enquêtes

Domaines : enquêtes sociolinguistiques effectuées dans la région des Bois-Francs

 

Certains de ces sous-ensembles ont été constitués par des chercheurs qui ont rassemblé les textes selon les principes de l'échantillonnage aléatoire. La référence bibliographique donne le nom de ces auteurs et le domaine auquel appartiennent les textes; il s'agit de

  1. Normand Maillet, pour le sous-ensemble de langue technique;
  2. Linda Pépin, pour le sous-ensemble de langue scientifique;
  3. Steeve Tremblay, pour le sous-ensemble de langue environnementale;
  4. Nadine Vincent, pour le sous-ensemble de langue sociopolitique;
  5. Gérald Charland, pour le sous-ensemble de la langue orale des Bois-Francs.

 

Les contextes tirés du présent corpus

Tous les mots du corpus ont été indexés. Théoriquement, il existe donc exactement deux millions de contextes correspondant à chaque " mot " ou occurrence du corpus. Pour des raisons pratiques visant à respecter les droits d'auteur des œuvres stockées dans la BDTS (impossibilité de donner accès à des parties " substantielles " d'un texte ou d'une œuvre), nous donnons 50 contextes par mot figurant à l'index.

 

La consultation du corpus s'effectue très simplement à partir de l'index des formes présentées en contextes et qui conduit directement à l'exemple cité.