CTLF Corpus de textes linguistiques fondamentaux • IMPRIMER • RETOUR ÉCRAN
CTLF - Menu général - Textes

Delattre, Pierre. Studies in French and Comparative Phonetics – T29

Un triangle acoustique des voyelles
orales du français *1

Un gros obstacle vient d'être franchi dans les travaux de phonétique. La mesure
objective du timbre des voyelles — ce qui distingue phonétiquement /e/ de /ɛ/, par de
pour — est maintenant chose aisée. On possède un nouveau moyen d'enregistrer la
décomposition acoustique des ondes vocaliques qui permet de distinguer visuellement
une voyelle d'une autre avec grande facilité. Désormais, on pourra voir jusqu'aux
moindres nuances, et on pourra les traduire instantanément en chiffres — deux chiffres
pour être exact. Ce qui prenait des jours de calculs mathématiques — la décomposition
acoustique des ondes sonores d'une petite phrase — ne sera plus l'affaire que de
quelques minutes.

De fait, cette décomposition vocalique est tellement aisée que l'on peut prévoir le
moment très proche où l'on ne mentionnera plus le timbre d'une voyelle sans le
définir numériquement. Ainsi, les terminaisons en ais de M. Untel ne seront plus
“entre l'e fermé et l'e ouvert mais tendant plutôt légèrement vers ce dernier”, elles se
décriront par des chiffres tels que 430-2100 qui auront une signification très nette car
chacun saura que l'e fermé est de 350-2200 et l'e ouvert de 500-2000! 12 Ou encore, les
variations de timbre d'un atlas linguistique seront indiquées sur toutes les cartes par
des chiffres obtenus objectivement, et l'on n'aura plus l'occasion de lire que “le
linguiste X a eu la curiosité de vérifier tel atlas dans tel village, et qu'il ne comprend
pas comment l'investigateur Z a pu noter telle voyelle avec tel timbre quand lui, X,
est certain de l'entendre avec tel autre timbre”. De la sorte nous ne serons plus à la
merci des préjugés individuels des investigateurs.

On peut prévoir aussi que la description physiologique des sons, telle qu'on l'a
faite jusqu'à présent, va être reléguée au second plan de par le fait qu'elle est souvent
un peu illusoire et toujours plus approximative que la description acoustique dont il
est question ici. Les caractères physiologiques des sons ne perdront d'ailleurs rien
à ce rôle secondaire; ils y gagneront même, grâce aux relations que l'on établira entre
les deux caractères — relations qui ajouteront à nos connaissances de la physiologie
des sons et contribueront à les préciser.236

Le triangle des voyelles qu'on trouve dans les manuels de phonétique et dans
beaucoup de grammaires a une signification physiologique. (C'est du moins celle
qu'on entend lui donner.) D'une manière générale, dans le sens vertical le triangle
indique le degré d'ouverture des mâchoires, et dans le sens horizontal le degré d'antériorité
du point d'articulation; d'une manière plus spécifique, il indique le point le
plus élevé de la langue pour chacune des voyelles. 23

(Remarquons en passant que, sur les triangles physiologiques, on devrait superposer
les voyelles arrondies antérieures /y ø œ/ aux voyelles non arrondies antérieures /i e ɛ/
puisque les points les plus élevés de la langue sont les mêmes pour ces deux séries. Or,
presque partout, on trouve /y ø œ/ entre /i e ɛ/ et /u o ɔ/. Physiologiquement, c'est
une erreur. Mais acoustiquement, nous allons voir que c'est exact. On a donc fait,
sans le savoir, des triangles plus acoustiques que physiologiques.)

Le nouveau triangle 34 que nous présentons ici (voir planche) n'est aucunement basé
sur la position des organes — du moins pas directement — mais sur les fréquences
(nombre de vibrations à la seconde) de certaines résonances des voyelles: les fréquences
des deux résonances les plus basses. Appelons l'enregistrement visible de ces deux
résonances les formantes 1 et 2. Sur la planche, ces formantes 1 et 2 se voient sous la
forme de larges bandes horizontales. Ce sont les bandes les plus nettes et les plus
rapprochées de la base, la formante 1 reposant, ou presque, sur cette base, et la
formante 2 variant considérablement de hauteur. (Pour le moment, ne parlons pas des
autres bandes. 45)

La planche présente les spectrogrammes (enregistrements de spectres acoustiques
de voyelles) de deux séries complètes des voyelles orales françaises. En haut, l'ordre
des voyelles est tel que la formante 2 va en descendant continuellement de gauche à
droite. En bas, l'ordre des voyelles est tel que la formante 1 va en montant en cinq
étapes: première étape: /i y u/; 2e: /e ø o/; 3e: /ɛ œ ɔ/; 4e: /ɑ/; 5e: /a/.

Sur nos spectrogrammes, l'échelle des fréquences s'étend, de bas en haut, en progression
arithmétique (échelle linéaire), de 0 à 3500 cycles. On peut y évaluer la
fréquence d'une bande par le niveau de sa limite supérieure. Techniquement, la
fréquence d'une bande est celle de son centre auquel on ajoute 150 cycles, à condition
237qu'elle ait au moins 300 cycles de hauteur. 56 Les fréquences des formantes 1 et 2 (dans
cet ordre) suivent:

i 240-2500
e 350-2200
ɛ 510-1950
y 240-1850
ø 350-1600
œ 510-1400
a 725-1300
ɑ 650-1200
ɔ 510-1000
o 350-865
u 240-750

Si nous portons les fréquences de la formante 2 horizontalement et celles de la formante
1 verticalement sur du papier logarithmique, nous obtenons le triangle de la
planche. (Il est nécessaire de reporter les fréquences sur une échelle logarithmique
afin que des longueurs égales sur le triangle correspondent à des intervalles acoustiques
égaux pour l'oreille. 67 Retenons donc que des distances égales, de direction quelconque,
sur notre triangle acoustique, représentent des intervalles vocaliques égaux, dans le
sens où l'on dit que des intervalles musicaux, tels que deux tierces, ou deux quintes,
ou deux octaves, nous paraissent égaux à l'oreille, quelle que soit leur place sur le
registre musical.)

Ce qui frappe le plus sur notre triangle vocalique, c'est la presque égalité de beaucoup
d'intervalles. De /i/ à /e/, de /e/ à /ɛ/, de /y/ à /ø/, de /ø/ à /œ/, de /u/ à /o/ et de /o/
à /ɔ/, les intervalles sont presque égaux dans les deux sens (vertical et horizontal).
(Horizontalement cependant, on pourrait voir une indication de l'avantage de certaines
voyelles, du point de vue de la perceptibilité, dans le fait que les intervalles sont
d'autant moins grands que les voyelles sont plus antérieures et écartées; mais il
faudrait se garder de rien conclure avant d'en avoir trouvé confirmation dans un
nombre suffisant de statistiques.) Encore presque égaux dans les deux sens sont les
intervalles vocaliques qui séparent /a/ de /ɛ/ et de /ɔ/.238

image i | e | ɛ | y | ø | œ | a | ɑ | ɔ | o | u

image i | y | u | e | ø | o | ɛ | œ | ɔ | ɑ | a

image i | y | u | e | ø | o | ɛ | œ | ɔ | ɑ | a

Fig. 1.insert

En général, la répartition des sons sur notre tableau met en évidence la fermeté
avec laquelle chaque voyelle prend une position distinctive. Seul /ɑ/ joue un rôle de
satellite.

Mais nous allons voir que la richesse de ce triangle n'est pas épuisée quand on en a
compris tout le sens acoustique. Il possède aussi une grande valeur physiologique.

Le fait qu'il existe des relations entre les fréquences des formantes et les positions des
organes articulatoires n'a pu manquer de sauter aux yeux. Mais pour aider à les
comprendre, il sera bon de rappeler quelques notions d'acoustique.

Les résonances qui caractérisent le timbre d'une voyelle orale résultent du filtrage
que subit le ton glottal (la pure vibration des cordes vocales) en passant par la bouche
(et par les cavités gutturales que nous sous-entendrons ici). La bouche se comporte
comme un filtre (ou un résonateur, ce qui revient au même) qui ne laisse passer que
certaines des vibrations issues de la glotte. Les fréquences que la bouche laisse passer
sont différentes pour chaque voyelle; et si elles sont différentes c'est principalement
que les cavités de résonance qui les filtrent changent de forme et/ou de dimensions.
Or ces cavités de résonance sont si complexes qu'il a été jusqu'ici impossible de les
analyser vraiment objectivement (mathématiquement). On en est réduit à procéder
par comparaisons. Il faudra donc se contenter de savoir que l'ensemble des résonateurs
buccaux et gutturaux se comporte sensiblement comme un résonateur dont la
forme serait celle d'une bouteille à long goulot; les résonances du goulot seraient celles
des cavités qui se trouvent entre les lèvres et le point le plus élevé de la langue, et les
résonances de la bouteille celles qui se trouvent derrière le point le plus élevé de la
langue. Pratiquement, donc, il semble qu'on puisse parler de deux résonateurs: un
résonateur antérieur (le goulot) que nous appellerons résonateur buccal, et un résonateur
postérieur (la bouteille) que nous appellerons résonateur guttural.

Revenons-en maintenant au triangle acoustique de la planche.

Dans le sens vertical — où la fréquence va en augmentant de haut en bas — nous
constatons qu'il existe une relation constante et directe entre la fréquence et l'ouverture
buccale
: plus la langue s'écarte du palais, plus les fréquences s'élèvent. Cette relation
ne fait pas de doute. Mais la complexité des cavités empêche d'en donner une explication
certaine. Les acousticiens constatent simplement que la fermeture favorise
l'émission des fréquences basses. Autrement dit, le goulot de la bouteille, à mesure
qu'il se rétrécit, laisse passer des fréquences de plus en plus basses. Ils n'osent pas
affirmer que la mise en évidence de la formante 1 soit principalement le produit du
filtrage du résonateur guttural.

Les mêmes faits peuvent naturellement s'observer directement sur les spectrogrammes.
Mais il faut alors les exprimer un peu différemment: il existe une relation
directe et constante entre la hauteur de la première formante et l'ouverture buccale
.
Cela peut aussi bien se constater d'après la succession des formantes 1 du bas de la
planche que d'après la succession en forme de v renversé des formantes 1 du haut de la
planche.239

Dans le sens horizontal, la relation acoustico-physiologique est moins simple à
établir.

Allons de droite à gauche, dans le sens où la fréquence augmente, tout en notant
ce que nous observons. De /u/ à /y/, l'augmentation de fréquence est accompagnée
d'un avancement de la langue qui raccourcit la cavité buccale; de /y/ à /i/, elle est
accompagnée d'un écartement des commissures qui raccourcit encore plus le goulot;
et de /u/ à /i/, l'augmentation de fréquence est considérable parce qu'elle est accompagnée
d'un double raccourcissement du goulot: par avancement de la langue et par
désarrondissement des lèvres. On ferait des constatations exactement parallèles sur
les séries /o/ — /ø/ (raccourcissement par avancement de la langue), /ø/ — /e/ (raccourcissement
par écartement des commissures) et /o/ — /e/ (raccourcissement par
avancement de la langue et par écartement des commissures). Et de même sur les
séries /ɔ/ — /œ/, /œ/ — /ɛ/ et /ɔ/ — /ɛ/. De plus on constate que, de même que les fréquences
diffèrent moins les unes des autres dans la troisième série, /ɔ/ — /œ/ — /ɛ/, que
dans la seconde, /o/ — /ø/ — /e/, et dans la seconde que dans la première, /u/ — /y/ — /i/,
de même, les différences physiologiques (recul de la langue et arrondissement) sont
moins accusées dans la troisième série que dans la seconde, et dans la seconde que
dans la première. Si encore on compare les fréquences dans la série complète des
voyelles arrondies (petit triangle), /u/ — /o/ — /ɔ/ — /œ/ — /ø/ — /y/, on constate que ces
fréquences augmentent au fur et à mesure que le goulot de la bouteille se raccourcit
par avancement progressif de la langue. On pourrait multiplier les comparaisons en
trouvant toujours la même relation. Énonçons-la donc: dans le sens horizontal, nous
constatons qu'il existe une relation constante et inverse entre la fréquence et la longueur
de la cavité buccale
: à mesure que la fréquence augmente, la longueur de la cavité
buccale diminue; et inversement, à mesure que la fréquence diminue, la longueur de
la cavité buccale augmente. Physiologiquement, la cavité buccale s'allonge principalement
par le recul de la langue, par l'arrondissement des lèvres, ou par les deux.

Si l'on observe directement les spectrogrammes, il faut s'exprimer ainsi: il existe
une relation constante et inverse entre la hauteur de la formante 2 et la longueur de la
cavité de résonance buccale
. On la constate aussi bien d'après la longue succession
descendante des formantes 2 du haut de la planche que d'après les trois successions
descendantes du bas de la planche. De plus, remarquons que, de /i/ à /y/, la hauteur
de la formante 2 descend assez fortement quand les lèvres passent du maximum
d'écartement au maximum d'arrondissement; puis très fortement quand la langue
passe du maximum d'antériorité au maximum de postériorité. Dans cette série, on
peut admettre que la longueur de la cavité buccale subit une plus grande modification
par l'effet du recul de la langue que par l'effet de l'arrondissement des lèvres. Dans la
série suivante, /e/ — /ø/ — /o/, ces deux effets sont moins différents l'un de l'autre;
et dans la troisième série, /ɛ/ — /œ/ — /ɔ/, ces deux effets semblent être presque équivalents.
Enfin la série ascendante /a/ — /ɑ/ montre encore la même relation inverse entre
la hauteur de la formante 2 et la longueur de la cavité buccale: tandis que la formante
2 monte, la longueur de la cavité diminue.240

Une des révélations du triangle, c'est le fait que /ɛ/ et /y/ ont sensiblement la même
fréquence de formante 2, ce qui indiquerait une même longueur de cavité buccale.
Cela se comprend facilement, d'ailleurs, une fois qu'on l'a constaté. En effet, ce que
/y/ perd par avancement de la langue, il le regagne par arrondissement des lèvres.

Il existe un moyen pratique de constater cette équivalence des niveaux de fréquence
de la formante 2 de /y/ et /ɛ/: il suffit de chuchoter ces deux voyelles en écoutant attentivement
la note de résonance qui leur correspond à chacune; et pour mieux démontrer
l'équivalence (ou la proximité) des deux notes, on introduit entre elles une troisième
voyelle de résonance très différente. Ainsi, chuchotons /ɛ/ et marquons la note
musicale de résonance; puis passons graduellement au chuchotement de /i/: la note
monte considérablement; enfin arrondissons les lèvres pour /y/: la note redescend
presque aussi bas que pour /ɛ/. Ce procédé permet d'ailleurs de découvrir la note de
résonance de la cavité buccale de chacune des voyelles, mais d'autant plus difficilement
qu'elles sont plus ouvertes.

Soulignons maintenant le fait que le triangle acoustique que nous présentons ici n'est
pas le triangle acoustique français, mais un triangle acoustique du français — comme
l'indique le titre. Le triangle acoustique français exigera de longs travaux statistiques
dans lesquels il faudra tenir compte, non seulement des prononciations de diverses
personnes, mais de la prononciation de chaque voyelle dans toutes les conditions
phonétiques notoires qu'elle rencontre au cours de la chaîne parlée, aussi bien que
des voyelles isolées.

Ici, notre triangle n'entre dans aucune de ces complexités car il vaut mieux n'en
aborder aucune si l'on ne peut les traiter toutes. Il est simplement basé sur l'enregistrement
de voyelles isolées qui ont été dites en deux groupes formant chacun un spectrogramme
entier de deux secondes et quatre dixièmes. Sur le premier spectrogramme
sont enregistrés: /i/, /y/, /u/, /e/, /ø/, /o/; et sur le deuxième: /ɛ/, /œ/, /ɔ/, /a/, /ɑ/,
dans ces ordres. Les deux enregistrements ont été faits à quelques minutes d'intervalle.
La seule garantie de la qualité française des timbres vient de ce que, dans chaque cas,
les voyelles ont été d'abord enregistrées sur la bande magnétique du spectrographe,
puis ont été écoutées, effacées, enregistrées à nouveau et écoutées à nouveau jusqu'à
ce que le timbre de toutes les voyelles soit entièrement satisfaisant à l'oreille. C'est
alors seulement que les spectrogrammes ont été tournés. Ces enregistrements ont été
faits par l'auteur de cet article aux Laboratoires Bell Telephone de New York dans le
cours de l'été 1947.

Sur les spectrogrammes, chaque voyelle a de 30 à 50 centièmes de seconde de durée.
Sur la planche, les coupures juxtaposées de chaque voyelle ont environ une durée de
10 centièmes de seconde. Nous avons fait ces coupures pour pouvoir ranger toutes
les voyelles orales sur la largeur d'une page. Comme les coupures ont été faites sur
des photographies, les originaux restent intacts.

A quoi devons-nous l'invention du spectrographe acoustique? En grande partie aux
241recherches que la compagnie Bell Telephone poursuit en vue de permettre aux sourds
de lire une conversation téléphonique comme les autres l'entendent. L'instrument
qui permet de lire les voyelles, les consonnes, les mots, les phrases, comme ils se
voient sur un écran lumineux à mesure qu'on parle s'appelle un Traducteur Direct
(Direct Translator). Mais pour enseigner aux sourds la forme visible des sons, il faut
pouvoir aussi en faire des enregistrements permanents. C'est là qu'on a besoin du
Spectrographe Acoustique (Acoustic Spectrograph) dont les enregistrements s'appellent
des Spectrogrammes (Spectrograms). L'un et l'autre de ces deux instruments se
fabriqueront plus tard pour la vente au public. Pour le moment, il n'en existe que
quelques unités expérimentales. C'est avec l'une d'elles que nous avons travaillé l'été
dernier, et nous tenons à remercier ici même les ingénieurs des laboratoires de recherches
de la compagnie Bell Telephone qui nous ont autorisé à en faire usage.242

1* Déjà publié dans The French Review, XXI, 6 (May, 1948), pp. 477-484.

21 Bien entendu, ces chiffres ne sont qu'approximatifs (on n'a encore pu établir la charte des sons
types d'aucune langue), mais ils ne sont pas fictifs, comme on peut le voir en les comparant à ceux du
triangle de la planche.

32 Ces points les plus élevés de la langue ont fait l'objet de sérieuses études radiographiques, mais
leurs positions relatives sur les chartes varient beaucoup selon les expérimentateurs, sans doute parce
que la technique radiographique n'est pas encore au point pour un organe aussi mobile que la langue.
(Elle ne sera sûre que lorsqu'on pourra prendre de très bonnes vues radiographiques cinématographiques
de l'articulation de la parole normale en action). La forme des chartes est donc toujours plus
ou moins impressioniste. Pour une langue où l'a antérieur et l'a postérieur sont nettement significatifs,
il est sans doute plus indicatif de la réalité physiologique de leur donner la forme d'un quadrilatère,
comme Daniel Jones le fait pour l'anglais et Kenyon pour l'anglo-américain. Pour une langue comme
le français, où un a central tend à unir et remplacer les a antérieur et postérieur, la charte triangulaire
est sans doute préférable.

43 Notre triangle est en réalité un pentagone. Mais sans doute vaut-il mieux en rester au terme de
“triangle” puisque la forme d'ensemble rappelle fort le triangle physiologique bien connu.

54 Bien qu'il y ait d'autres résonances, surtout en dessus de la formante 2, dans les spectres des
voyeles, ces formantes 1 et 2 comprennent toujours les harmoniques les plus intenses, et elles suffisent
à caractériser le timbre des voyelles orales. C'est pourquoi nous pouvons oublier ici les autres bandes.

65 Cette méthode de mesure est nécessitée par le fait que nos spectrogrammes sont à filtrage “large”
de 300 cycles — méthode de filtrage qui met le plus en évidence les niveaux de résonance. Les bandes
horizontales de nos spectrogrammes peuvent englober plusieurs harmoniques. Une autre méthode
de filtrage, le filtrage “étroit” de 45 cycles, laisse voir séparément chacune des harmoniques.

76 Les spectrogrammes sont à échelle linéaire. Sur une telle échelle, les distances augmentent comme
les fréquences; de la sorte, des intervalles musicaux qui paraissent égaux à l'oreille ne sont pas
représentés par des distances égales: de deux intervalles égaux, celui qui est le plus haut est représenté
par une plus grande distance puisqu'il s'étend sur une plus grande fréquence. L'échelle logarithmique
fait une compensation telle que des intervalles égaux à l'oreille sont représentés par des distances
égales.