CTLF Corpus de textes linguistiques fondamentaux Imprimer Retour écran
Menu CTLF Notices Bibliographie Images Textes Articles

Frantext CTLF - Avertissement

Equipe CTLF (CID, ENS de Lyon)

Compatibilité des textes du CTLF avec Frantext

Accès à Frantext CTLF

Définition du corpus de travailLe formulaire simpleLa recherche multicritèreLes recherches spécialisées

Recherche dans les textesRecherche simple avec expression régulière ou expression de séquenceRecherche par flexion du françaisRecherche de cooccurrencesRecherche des mots du corpusFréquence d'un mot ou des mots d'une listeEtude du voisinage d'un motCréation d'une liste à partir des mots du corpus de travail

AnnexesLes métadonnéesLa répartition détaillée des textes

Le CTLF, c'était déjà une encyclopédie (voir Notices), une bibliographie, une collection de fac-similés (voir Images), et une base textuelle (voirTextes). La base des textes s'enrichit d'un puissant outil de recherche, celui de Frantext. La base Frantext CTLF est hébergée par le site général Frantext (ATILF-CNRS, Université de Lorraine). Elle permet de déterminer un corpus de travail et d'y faire des recherches simples ou avancées. La base est en accès libre à l'adresse www.frantext.fr/ctlf/.

Le visiteur qui passe du site CTLF au site Frantext CTLF doit être informé des singularités de la nouvelle application (dans sa version actuelle) lorsqu'elle fonctionne sur le corpus CTLF. Il peut également avoir besoin d'une formation minimale pour utiliser au mieux les outils de Frantext.

Il doit aussi savoir qu'on n'y voit jamais les textes: on y voit des contextes de requêtes particulières et on obtient des informations quantitatives sur la fréquence ou la distribution des mots. C'est un outil de recherche lexicale. A la différence de la fonction Textes du site CTLF, où l'on peut lire les textes dans leur intégralité (à la condition qu'ils soient libres de droits), la base Frantext CTLF opère les recherches dans l'ensemble des textes (même dans ceux qui sont sous droits). La taille des contextes résultants change selon que le texte est libre de droits ou non.

Compatibilité des textes du CTLF avec Frantext

Les textes du CTLF suivent la norme XML/TEI et les caractères relèvent du standard Unicode (encodage UTF-8).

Les éléments textuels balisés sont les suivants: paragraphes ordinaires; titres (titre général et intertitres de niveau 1 à 7); titres ajoutés (ou reconstitués); pseudo-titres; paragraphes périphériques (exergues, signatures, etc.); regroupements de paragraphes (image ou tableau avec légende et/ou descriptif); images et tableaux; sauts de ligne (éditoriaux ou permanents); pagination et renvoi au fac-similé; appels de note et notes de bas de page ou de fin de texte; effets typographiques (gras, italique, exposant, indice, majuscules, petites majuscules, effet autre, texte spécial – texte disposé de manière inattendue); amorces d'intertitre, de paragraphe ordinaire, de légende, de note, etc.; diverses indications éditoriales (coquilles, ajouts, caractères indéfinis, changements d'auteur).

Les textes sont multilingues à deux titres: les langues d'écriture sont au nombre de 7 (allemand, anglais, espagnol, français, italien, latin et portugais – voir «La répartition détaillée des textes»); le nombre des langues citées et exemplifiées est considérable).

Une version future de Frantext est annoncée depuis quelque temps déjà. Elle devrait prendre en charge la quasi totalité des spécifications techniques des textes du CTLF résumées ci-dessus.

La version actuelle de Frantext est en pleine évolution, mais elle ignore encore un certain nombre des enrichissements des textes du corpus. Elle n'exploite que partiellement le balisage des titres et intertitres, ou la pagination. Elle ignore les notions de pseudo-titre, de périphérique, de regroupement de paragraphes, de note, d'effet typographique, d'amorce ou d'indication éditoriale. Elle peut afficher certains caractères Unicode étendus, tels que les caractères grecs, mais on ne peut rechercher des formes contenant ces caractères. Et elle ne peut afficher la totalité des caractères étendus.

Par ailleurs, certaines des fonctionnalités de Frantext ne s'appliquent qu'aux textes français ou, plus précisément qu'aux portions des textes rédigées en français: flexion d'un verbe, flexion d'un substantif ou adjectif, flexion et variantes médiévales, etc.

Accès à Frantext CTLF

L'accès à Frantext CTLF est gratuit. Toutefois, une inscription est nécessaire.

Page d'accueil de Frantext CTLF

Lors de la première connexion, cliquer sur Demande d'accès. Etape 1: entrer un nom d'utilisateur ou son adresse électronique. Etape 2: entrer les informations demandées [1] (nom, prénom, statut, établissement professionnel, adresse professionnelle, adresse électronique et mot de passe. Envoyer la demande.

Ensuite, avec son nom d'utilisateur et son mot de passe, cliquer sur Accès à Frantext CTLF.

Définition du corpus de travail

Les outils de Frantext ne fonctionnent que si l'on a défini un corpus de travail (voir Que signifie corpus de travail?, lien proposé dans la marge gauche, sur fond noir, lorsqu'on a ouvert Corpus de travail). Si l'on souhaite travailler sur l'ensemble de la base, il faut quand même passer par ce service et enregistrer la sélection en n'entrant aucun critère (Sélectionner tous les textes). Pour sélectionner un corpus de travail ou pour mieux connaître la base, différents modes de sélection sont proposés: Formulaire (simple) | Multicritères | Auteurs | Date | Langue | Domaine | Type | CRGTL.

Le formulaire simple

Le formulaire simple permet de rechercher une chaîne de caractères: dans l'auteur, dans le titre, dans la date, dans CRGTL ou n'importe où (bouton [*]).

Pour regrouper les textes d'Austin, on saisit «Austin» et on clique sur le bouton dans l'auteur. On obtient 24 textes (les 12 conférences en anglais et leur traduction en français).

Pour travailler sur le Cours de linguistique générale, on saisit «Saussure» et on clique sur le bouton dans l'auteur. Puis, dans un deuxième temps, on désélectionne la référence C069 (le Mémoire…). On peut aussi saisir «Cours» et cliquer sur le bouton dans le titre. Dans ce cas, il faudra désélectionner la référence C111 (la préface de Bally et Sechehaye).

Pour isoler les traductions, on saisit le mot «traduction» et on clique sur le bouton [*].

La recherche multicritère

Exemple de définition multicritère du corpus de travail

La recherche multicritère permet de combiner plusieurs éléments.

Pour extraire les textes français de linguistique générale d'avant 1950, on mobilise trois requêtes [2]: le domaine, la langue et la date.

Pour regrouper les conférences d'Austin en anglais, on précise, en 2 requêtes, que l'auteur contient Austin et que la langue est Anglais.

Pour sélectionner les textes français de phonétique du XIXe siècle, on a besoin de 4 requêtes: la langue est Français, le domaine est Phonétique et phonologie, la date est après 1799 et la date est avant 1899. Il faut 2 formules pour un encadrement de dates.

Les recherches spécialisées

Les recherches spécialisées (onglets Auteurs, Date, Langue, Domaine, Type et CRGTL) permettent de découvrir les listes de valeurs correspondantes. Les recherches par Auteurs, Langue, Domaine et Type présentent les listes correspondantes avec le nombre des textes concernés.

Date offre une très grande précision dans la sélection chronologique des textes: Date exacte, Avant la date, Après la date, Entre les dates.

CRGTL (Corpus représentatif des grammaires et des traditions linguistiques), donne la liste des cotes correspondantes. Leur aspect technique peut rebuter, mais leur maîtrise peut aider à sélectionner des sous-ensembles pertinents. La cote 5202_fr_Raynouard_1_T01 se décompose de la manière suivante: «5202» est le codage du domaine (les 5201 et suivants appartiennent au domaine «Linguistique historico-comparative»). «fr» code la langue d'écriture du texte (ici, français). «Raynouard» renvoie à l'auteur. Le «1» qui suit signale qu'il s'agit du premier volume d'une œuvre qui en comporte plusieurs. Enfin, le «T01» code le texte dans le volume. La sélection des références commençant par «5202_fr_Raynouard_1» et un clic sur Voir les textes sélectionnés est un moyen de choisir le volume 1 de Raynouard (Choix des poésies originales des troubadours (1)).

Quel que soit le mode de sélection adopté, on doit cliquer sur Ajouter les textes sélectionnés au corpus de travail pour réellement construire le dit corpus.

Quand un corpus de travail existe, on peut le modifier, soit en faisant de nouvelles sélections et en les ajoutant, soit en choisissant la commande Visualiser le corpus de travail (dans le menu de gauche) et en désélectionnant certaines références. Dans ce dernier cas, ne pas oublier de Conserver les textes sélectionnés.

Recherche dans les textes

Nous ne donnerons pas un mode d'emploi complet de Frantext. La base Frantext CTLF offre en maints endroits des aides générales ou contextuelles: onglets Documentation et Ressources didactiques sur la page d'accueil; les boutons Aide au bas des différentes pages (Corpus de travail, Recherche dans les textes, Calculs de fréquence, etc.).

Le site du CID, pour sa part, présente plusieurs articles consacrés à Frantext intégral (cid.ens-lyon.fr/aide/): voir, plus particulièrement, Frantext 1, 2, 3, 6 et 7.

Nous préférons donner quelques exemples de recherche, sur des corpus de travail différents, et illustrer ainsi quelques-uns des outils majeurs du moteur de recherche de Frantext.

Dans tous les cas, après l'étape où l'on entre sa requête, on aboutit (par le bouton Lancer la recherche) au paramétrage de la visualisation (critères de tri – par ordre chronologique ou alphabétique –, et d'affichage des contextes – texte en continu, concordancier et quantifié). On voit les résultats en cliquant sur Visualiser les résultats.

Lors de l'affichage des contextes, on voit un bouton Image [3]. En cliquant dessus, on accède à l'image de la page correspondante.

Recherche simple avec expression régulière ou expression de séquence

On recherche les occurrences des mots formés sur la racine «adverb». Sélectionner tous les textes. Rechercher «adverb.*», en cochant expression régulière (comparer avec «Recherche des mots du corpus»).

On s'intéresse aux langues citées derrière la préposition «en» dans les textes français de phonétique du XXe siècle. Corpus de travail «la langue est Français», «le domaine est Phonétique et phonologie» et «la date est après 1900» (Multicritères). Rechercher «en (français|allemand|anglais|italien|grec|latin)» en cochant expression de séquence (fonctionne également avec texte exact). On peut également créer une liste. Création de la liste Langues avec les mots «français, allemand, anglais, italien, grec, latin». Rechercher «en &llangues» en cochant expression de séquence (fonctionne également avec texte exact).

Recherche par flexion du français

On étudie le lemme du verbe «parler» dans les textes français de linguistique générale du XXe siècle. Corpus de travail «la langue est Français», «le domaine est Linguistique générale» et «la date est après 1900» (Multicritères). Rechercher «&cparler» en cochant expression de séquence (fonctionne également avec texte exact). On peut également créer une liste par flexion d'un lemme. Lemme à fléchir «parler». Nom de la liste à créer «parler».

Recherche de cooccurrences

On recherche les cooccurrences des mots «Syntax» et «Satz» ou «Sätze» dans les textes allemands. Corpus de travail. Langue allemand. Recherche des cooccurrences: la séquence 1 est «Syntax»; la séquence 2 est «(Satz|Sätze)» dans une même phrase.

Recherche des mots du corpus

On recherche la liste des mots dérivés de la racine «adverb». Sélectionner tous les textes. Appliquer «^adverb.*» en cochant expression régulière (comparer avec «Recherche simple avec expression régulière»).

Fréquence d'un mot ou des mots d'une liste

On s'intéresse aux expressions (en français) des parties du discours dans l'ensemble des textes. Sélectionner tous les textes. Création de la liste Parties avec les mots «nom, article, adjectif, pronom, verbe, adverbe, préposition, conjonction, interjection». On aura pris soin d'entrer chaque mot au singulier et au pluriel. Fréquence des mots de la liste Parties (fréquences décroissantes et dans un fichier à télécharger).

Etude du voisinage d'un mot

On étudie le contexte immédiatement à droite du mot «verbe» dans l'ensemble des textes. Sélectionner tous les textes. Etude du voisinage du mot «verbe»; avec portion de texte à 0 mots avant et 3 mots après.

Création d'une liste à partir des mots du corpus de travail

On veut extraire la liste des mots dérivés de la chaîne «synta» dans l'ensemble des textes. Sélectionner tous les textes. Création d'une liste Syntaxe à partir des mots du corpus de travail. Critère de sélection «.*synta.*» (expressions régulières autorisées). L'édition de la liste permet de regrouper les racines plus conformes suivantes: syntact, syntagm, syntakt et syntax.

Annexes

Les métadonnées

A chaque texte de la base, sont attachées des métadonnées bibliographiques et descriptives.

  • Cote Frantext: de C001 à C762 (janvier 2017).
  • Auteur(s): le nom de l'auteur est suivi du prénom entre parenthèses; une virgule sépare plusieurs auteurs.
  • Date: il s'agit de la date de l'édition numérisée (la date originale est rappelée dans le champ Editeur).
  • Titre(s): le titre du texte proprement dit est parfois précédé du titre du volume.
  • Type: référence à l'un des 3 types du CTLF (texte principal, préface ou annexe).
  • Nombre de mots: taille du corpus choisi. Un «mot» Frantext recouvre l'ensemble des chaînes de caractères séparées par des espaces (autrement dit, les traditionnels mots lexicaux et les ponctuations – «c'est-à-dire» compte pour 7 mots).
  • Domaine: référence à l'un des 4 domaines du CTLF (compilations, linguistique générale, linguistique historico-comparative, ou phonétique et phonologie).
  • Langue: langue d'écriture du texte (allemand, anglais, espagnol, français, italien, latin ou portugais).
  • Editeur: référence bibliographique de l'édition numérisée.
  • Droits: texte du domaine public ou texte sous droits (influence la taille du contexte qui résulte d'une requête).
  • CRGTL: identifiant du texte dans le Corpus représentatif des grammaires et des traditions linguistiques.

Fiche du texte C017

L'interrogation des métadonnées dépend du mode de sélection.

Formulaire

Multicritères

Outil dédié

1

Cote Frantext

bouton étoile (*)

la cote

2

Auteur(s)

dans l'auteur

l'auteur

Auteurs

3

Date

dans la date

la date

Date

4

Titre(s)

dans le titre

le titre

5

Type

le type

Type

6

Nombre de mots

7

Domaine

le domaine

Domaine

8

Langue

la langue

Langue

9

Editeur

bouton étoile (*)

l'éditeur

10

Droits

11

CRGTL

dans CRGTL

la cote CRGTL

CRGTL

Champs interrogeables selon les modes de sélection

La répartition détaillée des textes

Les quantités indiquées rendent compte de l'état du corpus en janvier 2017.

La base Frantext CTLF renferme 756 textes (extraits de 123 volumes). Cela représente plus de 36 000 pages imprimées.

Répartition des textes selon les droits:

sous droits, 395 textes.

domaine public, 361 textes.

Répartition des textes selon les types:

Textes principaux = 642.

Préfaces = 65.

Annexes = 49.

Répartition chronologique des textes:

XXe siècle = 593 [4].

XIXe siècle = 123.

XVIIIe siècle = 32.

XVIIe siècle = 2.

XVIe siècle = 6.

Répartition des textes par la langue d'écriture:

Français = 352.

Anglais = 349.

Allemand = 30.

Portugais= 11.

Espagnol = 6.

Latin = 5.

Italien = 3.

Répartition thématique des textes:

Linguistique générale = 509.

Phonétique et phonologie = 130.

Compilations = 74.

Linguistique historico-comparative = 43.

Répartition des textes et des traductions par langues

Il y a 75 textes traduits, au total [5]. Pour l'espagnol, il s'agit d'une traduction depuis l'anglais; pour l'anglais, une traduction depuis l'allemand. Les 73 traductions françaises se répartissent comme suit: 49 depuis l'anglais, 12 depuis l'allemand, 6 depuis le danois et 6 depuis le russe.


[1] Ces données sont importantes, en particulier pour montrer aux éditeurs que l'usage de Frantext CTLF est fondamentalement un usage professionnel, pour la recherche.

[2] Pour faire apparaître une nouvelle ligne de requête, on clique sur le bouton +. Pour connaître les valeurs disponibles derrière chaque critère, on clique sur le bouton liste correspondant.

[3] Sauf lorsque le contexte se trouve dans une note. Cette fonction n'existe pas dans Frantext Intégral.

[4] Nous comptons l'avant-propos de J.-L. Chiss et C. Puech aux études de Victor Henry, Antinomies linguistiques et Le langage martien, avec les textes du XXe siècle, bien que cette préface (13 pages) ait été publiée en 2001.

[5] Cette répartition date de 2015. Ces données doivent donc être mises à jour.