CTLF Corpus de textes linguistiques fondamentaux Imprimer Retour écran
Menu CTLF Notices Bibliographie Images Textes Articles

CTLF - Le projet de recherche

Bernard Colombat (HTL, Université de Paris 7)

Voir également la version anglaise de cet article, établie par Mallory Thompson et Joseph Harris : CTLF - Research Project.

1. Objectifs généraux

2. Description des tâches et procédure envisagée

3. Plan de travail

4. Produits finaux

5. Dissémination des résultats obtenus

1. Objectifs généraux

Si l’on admet que les sciences du langage progressent par augmentation de connaissances, en d’autres termes si l’on admet que la connaissance du passé (ancien et récent) de la discipline est utile au progrès de cette dernière, on ne peut se contenter des moyens anciens mis à la disposition du chercheur pour étudier ce passé (éditions critiques, reprints papier, monographies sur auteur, etc.). De fait, l’histoire des sciences du langage est une discipline en pleine extension : plusieurs projets (récents ou en cours de parution) de grande ampleur en attestent, par ex. : Geschichte der Sprachwissenschaft, éd. par P. Schmitter, Tübingen, Narr (depuis 1987, 4 vol. parus) ; Histoire des idées linguistiques, éd. par S. Auroux, 3 vol., 1989-2000, Liège, Mardaga ; Lexicon Grammaticorum, Who’s Who in the history of World Linguistics, éd. par H. Stammerjohann et al., Tübingen, Niemeyer, 1996 ; History of the Language Sciences - An International Handbook on the Evolution of the Study of Language from the Beginnings to the Present, éd. par S. Auroux et al., 3 vol. Berlin, W. de Gruyter, 2000, 2001 et à par., etc. Ces nouveaux outils attestent de la vitalité du champ de recherche, mais ne font pas explicitement place à ne serait-ce qu’une anthologie de textes linguistiques. En effet tel n’est pas leur but : il s’agit soit de dictionnaires biographiques (le Lexicon Grammaticorum), soit de vastes synthèses, dont l’utilité ne fait aucun doute, mais qui laissent place à un corpus de textes.

Il est donc temps d’utiliser la technologie moderne pour mettre en oeuvre un corpus de textes représentatifs du passé des sciences du langage. Deux démarches (au moins) sont alors possibles : envisager les "traditions linguistiques" (on sait que la tradition linguistique occidentale, pour être maintenant dominante, n’est ni la plus ancienne, ni la seule ; certaines traditions "exotiques"sont plus anciennes, comme la tradition sanskrite, ou à l’origine aussi importantes, comme la tradition arabe ou la tradition chinoise) ; envisager les textes traitant du langage en général, ce qui correspond à un moment plus récent du développement de la pensée linguistique. Les deux démarches sont légitimes. L’urgence semble néanmoins du côté de ces textes linguistiques généraux. Certains outils spécifiques sont en effet déjà en cours d’élaboration pour certaines traditions (par exemple la tradition tamoule), et ces dernières posent souvent un problème crucial de commensurabilité et de comparaison, sans compter les problèmes spécifiques à leur ‘exotisme’ même (difficulté de la traduction, utilisation de diacritiques, etc.). Au contraire, les textes linguistiques généraux, même s’ils mettent en oeuvre des théories différentes et posent eux aussi des problèmes de traduction (ils sont rédigés pour l’essentiel en anglais, allemand, espagnol, français, italien ou russe), sont d’une certaine façon comparables par leur objet même (le langage en tant que tel) et, sur le plan épistémologique, leur connaissance est évidemment cruciale pour l’évaluation du développement global de la discipline. Il s’agit d’asseoir une terminologie linguistique (et son histoire) sur un corpus défini — comme la base Frantext l’a été pour le Trésor de la Langue Française. C’est donc à ces ouvrages que nous nous intéressons d’abord. Dans un second temps, il serait indispensable d’élargir cette base à des textes importants notamment pour la connaissance de la tradition linguistique occidentale (textes fondateurs de la grammaire grecque, ou textes linguistiques rédigés en latin, développés du Ier siècle a.C. au XVIIe siècle p.C., pour la plupart encore peu exploités, qui constituent de fait la première ossature de la réflexion linguistique en occident).

Notre objectif dans un premier temps est quadruple : 1) établir un corpus de textes linguistiques de valeur générale, reconnus pour leur intérêt dans le développement de la discipline ; 2) rendre facilement accessibles ces textes aux chercheurs et au grand public, par un support approprié (cédérom et/ou internet, etc.), à la fois dans la langue originale et en traduction française ; 3) permettre leur exploration systématique, tant en ce qui concerne l’élaboration des concepts que la constitution et l’évolution de la terminologie linguistique, cette dernière étant le premier moyen d’accès aux concepts. Ce dernier point est particulièrement important : seule la possibilité d’explorer systématiquement un grand nombre de textes, qui, pour être fondamentaux, ne sont aujourd’hui pas forcément accessibles, permettra d’établir une histoire fine des concepts et la datation précise des créations terminologiques, sans lesquelles l’histoire de la discipline ne peut être convenablement établie ; 4) associer à la base de données textuelles une base de données bibliographiques en histoire des théories linguistiques donnant toute la bibliographie disponible non seulement sur les textes retenus, mais sur leur contexte au sens le plus large du terme.

À notre connaissance, il n’existe encore aucun projet global de corpus de textes linguistiques généraux, alors qu’il existe de nombreux corpus de textes littéraires, d’encyclopédies et de dictionnaires (par exemple dictionnaires de langue française ; cf. les sites de l’Université de Toronto et de l’ATILF, les cédéroms de Champion Electronique et des éditions Redon, etc.).

Les retombées pour la région Rhône-Alpes sont évidentes. La région dispose d’un atout technologique remarquable, sous la forme des locaux "intelligents" de l’ENS Lettres et Sciences Humaines. Dotée d’un appareil technologique puissant et récent, d’une équipe puissante et reconnue dans la construction et l’élaboration des corpus (ICAR), d’une équipe spécialisée dans le domaine de l’histoire des théories linguistiques, l’ENS LSH peut fournir, en association avec les Universités de Lyon II et Lyon III, une vitrine pour la mise en valeur des recherches dans le domaine des textes linguistiques. Par la qualité des outils qu’il peut fournir, le portail mis à la disposition des linguistes peut devenir un site incontournable. De même, la production d’éditions critiques, dont l’élaboration peut être confiée à des partenaires éditoriaux reconnus (ENS Éditions, Presses Universitaires de Lyon), peut contribuer à la visibilité et au rayonnement des recherches linguistiques du pôle lyonnais sur le plan national et international.

2. Description des tâches et procédure envisagée

2.1. Procédure

Le lancement de ce corpus sera rapide, car

  • d’une part, nous pouvons mettre en oeuvre des moyens - tant humains que matériels - importants, notamment à l’ENS-LSH et à la MOM,
  • d’autre part. nous disposons, pour le choix des textes, d’une première expertise fournie par le Corpus représentatif des grammaires et des traditions linguistiques. Il s’agit d’un ensemble de notices (établies par 123 chercheurs) comprenant 14 champs prédéterminées et décrivant matériellement et conceptuellement 540 textes linguistiques jugées fondamentaux dans les principales traditions linguistiques du monde. Ces notices ont été publiées dans la revue Histoire Épistémologie Langage, hors série, 2 et 3, 1998 et 2000. Nous proposons de les rendre accessibles sur le Web et de permettre une recherche interactive grâce à une interface dynamique.

Nous envisageons la procédure suivante : mise à disposition des notices du Corpus représentatif des grammaires et des traditions linguistiques sur le Web (site de l’ENS Lettres & Sciences Humaines, UMR 7597).

Le type d’usage de cette base peut être précisé ainsi :

  • usage interne pour le travail de recherche ;
  • diffusion vers les pairs et travail de groupe ;
  • diffusion dans l’univers académique ;
  • diffusion vers un publique plus large, enseignants, public cultivé, espace socio-culturel régional, etc.

Une gestion de droits d’accès (lecture/mise à jour) sera peut-être nécessaire, la mise en ligne de documents entraînant des charges de représentation, de rédaction, et d’assistance, jusqu’à la réponse à des questions posées par les personnes qui consultent les informations.

Protocoles et interfaces : la logique d’interrogation de la base sera de type documentaire avec une interface HTML/CGI, mémorisation pour affinage des requêtes, et si possible respect de la norme Z3950.

Identification des textes et des éditions retenu(e)s et recherche des ouvrages sous forme papier ; en raison de l’expertise déjà évoquée et du réseau de collaborateurs dont nous disposons et facilement mobilisables, cette première étape sera réalisée d’autant plus rapidement que la liste des textes est arrêtée, même si elle peut subir un léger remaniement.

Identification des textes libres de droits et des textes soumis à droits. Pour la compétence juridique, une coopération avec certains départements spécialisés du ministère ou avec le PNER (Projet Numérisation pour l’Enseignement et la Recherche) sont nécessaires. Il faudra fédérer cette compétence avec les autres projets de corpus du CPER : corpus oraux, fonds médiévaux, textes du XVIIIe siècle, etc.

Les droits concernent : le droit d’auteur (patrimonial, moral), le droit d’éditeur (patrimonial, de diffusion) ; et dépend de la juridiction de chaque pays où se trouvera l’édition de référence du texte utilisé.

En première approximation, pour un usage privé entre pairs par l’intermédiaire du réseau, seul le droit de citation courte (300 caractères max.) est possible/toléré. Ce qui peut imposer un bridage des interfaces de consultation. En fait le droit à négocier avec l’éditeur est lié à l’usage que l’on veut faire d’un texte : à son type de diffusion et au contrôle que l’on a sur cette diffusion (certains éditeurs demandent même un droit de regard permanent sur le contrôle de cette diffusion : cf. réseau interne BNF).

Dans cette perspective il est clair que la fourniture de textes bruts intégraux engage beaucoup plus que l’accès à travers un moteur de recherche plein texte.

En accord avec Patrick Desfarges, la numérisation des textes sera réalisée par recours à la chaîne de numérisation Transvision de la MOM, puis océrisation : il est prévu une collaboration étroite entre la MOM et l’UMR 7597, concernant les procédures de traitement, et notamment l’utilisation et l’évaluation de la chaîne de traitement.

Le but est d’obtenir une numérisation des textes sous forme "image", afin d’établir l’image de référence du texte et de permettre à tout instant le recours à l’analyse philologique du texte de référence. On peut distinguer deux numérisations différentes et complémentaires : la numérisation fine de conservation (stockée au format TIFF par exemple) ; la numérisation moins fine pour la lecture web : au format JPEG.

Puis, sous forme texte par intégration d’un OCR/saisie : obtention d’un texte brut, d’un texte Word, d’un texte TEI aux normes XML avec DTD acceptée par la communauté. Les textes seront encodés selon les standards en vigueur : la norme XML avec la DTD TEI P4 pour l’entête et le corps de chaque texte. L’entête sera renseigné selon les standards minimum de description de ressources : les champs Dublin Core et la forme RDF (Ressource Description Format) en XML. Les informations nécessaires seront générées par une passerelle à partir de la base bibliographique des textes. Bien sûr, ceci ne préjuge pas des informations que chaque équipe souhaitera associer à chaque texte dans le projet, mais fournit un socle commun d’export obligatoire. Chaque texte numérisé disposera d’une référence web unique selon le protocole OpenURL. Le corps du texte sera enrichi d’un balisage normalisé pour encoder : sa forme éditoriale et les diverses informations nécessaires à l’indexation sémantique (terminologie, texte rapporté + langue, auteur cité, ouvrage cité).

La méthode utilisée suppose la correction des textes, par relecture par une personne formée en linguistique, spécialement en histoire de la linguistique.

Traduction des textes en langue étrangère : certains textes sont déjà traduits ; dans la mesure où la traduction est satisfaisante, elle sera utilisée ; dans le cas contraire, on établira la traduction. Besoin humain : une équipe de traducteurs "linguistes" spécialistes de la langue concernée ; la faculté des lettres de l’Université de Lausanne (Institut d’études slaves) a déjà une expérience précieuse en ce domaine.

Elaboration d’un moteur de recherche pour l’exploitation des textes (identification des sources, des auteurs cités, mise à jour de la terminologie spécifique mise en oeuvre) et pour leur utilisation (notamment fabrication d’index). Besoins techniques : ceux d’un laboratoire spécialisé en linguistique de corpus (comme l’équipe ICAR de l’ENS). Besoin humain : un spécialiste de la constitution et de l’exploitation de corpus.

L’indexation des sources, auteurs, etc. dépend de leur repérage sous forme de balises dans les textes. Sur la base de cette indexation, le moteur de recherche prend en entrée une requête d’interrogation et retourne divers résultats possibles : la référence (texte, page) des apparitions de l’objet recherché, une concordance de cet objet, un index hiérarchique de ses réalisations, etc.

A l’issue de ce travail de balisage, peut être fourni un texte préparé pour l’édition critique. Celle-ci peut se présenter classiquement sous une forme papier, ou sous une forme électronique, grâce aux liens hypertextuels.

Il doit être notamment possible de mettre au point un apparat critique permettant de comparer les différentes versions d’une même texte ; d’annoter ce texte pour le situer dans un cadre historique et épistémologique, en préciser les sources, évaluer son influence sur les travaux ultérieurs.

Elaboration en parallèle d’une base de données bibliographiques. Besoin technique : un ordinateur + scanner + graveur de cédérom ; besoin humain : une personne formée en bibliographie et informatique pour concevoir la base bibliographique ; une fois le modèle établi, une personne pour alimenter la base et assurer une veille en bibliographie de l’histoire de la linguistique.

Remarque : nous procéderons par étapes, le projet portant sur le long terme.

2.2. Cahier des charges du moteur de recherche

Le but étant de permettre une analyse fine de l’élaboration et de l’évolution de la terminologie et des concepts linguistiques sur le long terme, le moteur de recherche doit permettre, par un balisage prévu en conséquence, de repérer :

  • tous les items de la terminologie linguistique, au sens le plus large du terme (c’est-à-dire non seulement substantifs et adjectifs, mais aussi verbes décrivant une procédure linguistique, ex. ‘transiter’ à côté de ‘transitif’, ‘transitivité’) et d’en établir un thesaurus cumulatif ;
  • tous les textes rapportés (lettre, phonème, mot, fragment de mot [morphème], exemple [construit, littéraire, etc.]) en identifiant la langue utilisée ;
  • tout auteur cité (grammairiens, linguistes, auteurs de textes littéraires, etc.) ;
  • toute œuvre (de toute nature, ex. linguistique ou littéraire) citée.

2.3. Volumétrie

2.3.1. Notices

Corpus représentatif des grammaires et des traditions linguistiques : 540 notices (pour une moyenne de 8000 signes par notice), soit 1188 pages.

2.3.2. Textes

Dans un premier temps : 99 textes, représentant 119 millions de signes [hors traduction], répartis en 4 sections (compilations : 8 titres [19200MS (MS = millier de signes)] ; linguistique historico-comparative : 25 titres [31322MS], linguistique générale : 44 titres [49316MS] ; phonétique et phonologie : 22 titres [19185MS]).

Ces textes sont rédigés dans des langues européennes (allemand, anglais, espagnol, français, italien, latin, russe) ; il est prévu qu’ils soient donnés dans la langue originale et en traduction française.

2.3.3. Base de données bibliographiques

En parallèle aux textes sélectionnés, sera élaborée une base de données bibliographique en Histoire des théories linguistiques : cette base, développée à partir de la bibliographie du Corpus représentatif des grammaires et des traditions linguistiques, est destinée à contenir des informations sur plusieurs centaines d’articles et d’ouvrages en liaison avec les textes sélectionnés, organisée en arborescence et pourvu d’outils de recherches (mot-clés, etc., type Endnote).

2.4. Partenaires académiques

Cf. "CTLF - Equipe et partenaires".

3. Plan de travail

La première phase du travail sera effectuée en partenariat avec la maison de l’Orient méditerranéen. Phase éminemment technique puisqu’il faudra numériser les textes, puis les baliser. Elle met en œuvre avant tout l’expertise technique. Dans un deuxième temps se mettra une phase de réflexion critique sur l’exploitation du balisage à fin d’exploration des textes et d’édition critique. Elle associe expert techniques et experts linguistes. Pour ces derniers, le séminaire d’"Histoire des théories et des outils linguistiques" (ENS LSH) pourra être le lieu de convergence de leurs réflexions. A titre d’échantillon, nous avons mis au programme du séminaire une traduction et une édition critique du premier texte sélectionné pour le Corpus de textes linguistiques fondamentaux : le Mithridate de Conrad Gessner (Zurich, 1555), qui est la première compilations linguistique. L’auteur y réunit des données sur toutes les langues connues à cette époque, en donnant en particulier une version de Notre Père en 29 langues, un procédé qui sera amplement repris par la suite. Mais le texte pose de tels problèmes (identification des sources, expertise sur les fragments de langues donnés) qu’il suppose l’intervention de spécialistes de langues rares (arménien, hongrois, etc.) que nous réunirons dans un colloque synthèse (non encore budgété) qui permettra un établissement définitif de la traduction et du commentaire.

En fait, la plupart des textes sélectionnés méritent aussi une édition critique. Par exemple, le célèbre et important traité de Saussure, le Mémoire sur le système primitif des voyelles dans les langues indo-européennes, (Leipzig, 1879), n’est actuellement plus disponible dans le commerce. Nous disposons, tant sur la région qu’au nouveau national et international, d’un réseau d’experts qui nous aideront à établir une vraie politique d’édition.

4. Produits finaux

Les produits finaux seront les suivants :

  • site WEB associant l’ENS-LSH et la MOM - avec liens vers l’université Louis Lumière Lyon II, l’université Jean Moulin Lyon III, l’université Stendhal Grenoble III, l’ENSSIB - et proposant : une base de données des notices de description des textes ; un corpus de textes linguistiques en accès direct, donnés à l’état brut ou sous forme bridée, selon que le texte est libre de droits ou non (cf. la base Frantext) ; une base de données bibliographiques en accès direct, destinée à devenir la référence dans le domaine.
  • corpus de textes linguistiques sur cédérom ou DVD-rom, sous une forme enrichie.
  • édition papier du corpus de textes linguistiques et de la base de données bibliographique.
  • éditions critiques, éventuellement traductions des textes numérisés et balisés.

5. Dissémination des résultats obtenus

Les objectifs sont de :

  • fournir à l’ensemble de la communauté linguistique un pôle permanent et régulièrement actualisé de documentation sur les textes principaux de la linguistique ;
  • de ce fait, contribuer à installer l’histoire et l’épistémologie au coeur des recherches actuelles en linguistique ;
  • permettre d’élaborer sur cette base plusieurs outils de grande ampleur, permettre notamment l’élaboration d’un dictionnaire de la terminologie linguistique qui prenne en compte le développement des théories et des pratiques linguistiques sur le long terme.