Centre d'analyse et de traitement du français québécois.
Banque de données textuelles de Sherbrooke
Le corpus Le présent corpus comprend quelques deux millions d'occurrences (61 843 formes) tirées de 1054 textes différents. Il constitue un sous-ensemble de la BDTS (qui contient plus de 16 millions de mots à l'heure actuelle). Ce corpus est composé de huit sous-ensembles d'environ 250 000 mots chacun et traités selon une norme commune, ce qui rend leurs données comparables; plusieurs d'entre eux sont en outre lemmatisés. Ils sont représentatifs de divers domaines, types de discours et niveaux de langue suivants :
Corpus constitué par Normand Maillet (thèse soutenue) Corpus lemmatisé 8384 vocables 12 513 unités complexes ou syntagmes Composition : 100 textes extraits de rapports, guides, manuels de formation, normes, procédures, etc. Domaines : aluminium, environnement, mines, pâtes et papier, télécommunication, transport, hydro-électricité, informatique, et autres.
Corpus constitué par Linda Pépin (en rédaction de thèse) Corpus lemmatisé 8653 vocables 2257 unités complexes ou syntagmes Composition : 100 textes extraits de mémoires, de thèses, d'articles scientifiques et de rapports de recherche. Domaines : biologie, chimie, physique, génie chimique et génie mécanique.
Corpus constitué par Nadine Vincent (thèse soutenue) Corpus lemmatisé 8355 vocables Composition : 100 textes de mémoires sélectionnés à partir des 583 mémoires présentés à la Commission. Domaines : mémoires ou extraits de mémoires de la Commission Bélanger-Campeau.
Corpus non lemmatisé Composition : 54 textes Domaines : débats de l'Assemblée nationale, conventions collectives, textes juridiques, textes du Bureau d'audiences publiques sur l'environnement (BAPE), rapports du vérificateur général du Québec, etc.
Corpus non lemmatisé Composition : 52 textes tirés de L'Actualité 55 textes tirés du Devoir 17 textes tirés d'Interface 63 textes tirés de La Presse 57 textes tirés de Québec Science 75 textes tirés du Soleil
Corpus non lemmatisé Composition : 25 textes Domaines : romans, chansons, essais, textes de poésie, pièces de théâtre, etc.
Corpus constitué par Steeve Tremblay (en rédaction de mémoire) Corpus semi-lemmatisé Composition : 107 textes (certains textes ont été ajoutés pour compléter le corpus oral de Gérald Charland présenté ci-dessous) Domaines : textes divers du ministère de l'Environnement du Québec, journaux, périodiques et magazines spécialisés dans le domaine, etc.
Corpus constitué par Gérald Charland (thèse soutenue) Corpus lemmatisé Composition : 20 enquêtes Domaines : enquêtes sociolinguistiques effectuées dans la région des Bois-Francs
Certains de ces sous-ensembles ont été constitués par des chercheurs qui ont rassemblé les textes selon les principes de l'échantillonnage aléatoire. La référence bibliographique donne le nom de ces auteurs et le domaine auquel appartiennent les textes; il s'agit de
Les contextes tirés du présent corpus Tous les mots du corpus ont été indexés. Théoriquement, il existe donc exactement deux millions de contextes correspondant à chaque " mot " ou occurrence du corpus. Pour des raisons pratiques visant à respecter les droits d'auteur des œuvres stockées dans la BDTS (impossibilité de donner accès à des parties " substantielles " d'un texte ou d'une œuvre), nous donnons 50 contextes par mot figurant à l'index.
La consultation du corpus s'effectue très simplement à partir de l'index des formes présentées en contextes et qui conduit directement à l'exemple cité.
|