CTLF Corpus de textes linguistiques fondamentaux • IMPRIMER • RETOUR ÉCRAN
CTLF - Menu général - Textes

Delattre, Pierre. Studies in French and Comparative Phonetics – T11

Voyelles diphtonguées et voyelles pures *1

S'il est deux langues qui contrastent par la stabilité du timbre des voyelles, c'est bien
l'anglais et le français. Les professeurs de français en font l'expérience tous les jours;
et s'il n'est pas nécessaire de les en convaincre, il est du moins utile de leur en fournir
la confirmation pratique et scientifique. Ces deux langues sœurs, si rapprochées quant
au vocabulaire depuis Guillaume le Conquérant, contrastent d'ailleurs dans tout le
domaine phonétique. Elles occupent, dans le tableau des langues du monde, les deux
extrémités phonétiques. Rythme à alternation de temps forts et faibles en anglais,
égalité des syllabes successives en français. Ici accentuation syllabique par surcroît
d'intensité, là par surcroît de durée. Ici prédominance d'intonation descendante, là
d'intonation montante. Ici tendance à la syllabation fermée, là à la syllabation
ouverte. Ici des consonnes aspirées, palatalisées, postérieures, là des consonnes
inaspirées, dures, antérieures. Et ainsi de suite. Le contraste de stabilité vocalique
dont nous allons nous entretenir n'est donc qu'un seul élément dans un grand tableau
contrastif d'ensemble.

Distinguons, avant d'aller plus loin, entre les termes “diphtongue” et “voyelle
diphtonguée”. On entend habituellement, par diphtongue une voyelle complexe dont
le timbre change à un tel point qu'on peut y reconnaître deux voyelles différentes de
la langue en question. C'est le cas du nucleus syllabique dans les mots anglais mouse
[maus], mice [maɪs], moist [mɔɪst]. Les symboles phonétiques ci-dessus sont ceux
du dictionnaire de la prononciation américaine de John S. Kenyon et Thomas A.
Knott, A Pronouncing Dictionary of American English (G. and C. Merriam Co.,
1944). Les auteurs de cet excellent dictionnaire transcrivent par [u], [ɪ], la portion
vocalique faible de ces mots parce qu'ils estiment subjectivement qu'elle se rapproche
sensiblement des voyelles de took [tuk], tick [tɪk]. D'autres croient y entendre plutôt
les voyelles de mood [mud], meed [mid], et transcrivent ces diphtongues: [maus],
[mais], [mɔist]. D'autres encore préfèrent transcrire l'élément faible par des semi-voyelles:
[maws], [majs], [mɔjst]. S'il y a ainsi plusieurs écoles quant à la meilleure
transcription, toutes sont du moins d'accord pour distinguer deux timbres différents
dans chacune de ces diphtongues.

Notons que l'une des deux parties d'une diphtongue doit être nettement plus
accentuée que l'autre, car la diphtongue entière forme le nucleus inséparable d'une
95syllabe. S'il apparaît deux timbres vocaliques distincts et contigus possédant des
intensités plus ou moins égales, il y a deux syllabes, comme dans le français ma haine
[ma ɛn]. Dans l'anglais mine [ma̍ɪn], il y a une portion faible, représentée par [ɪ], qui
est l'appendice de la portion forte. Ainsi on peut distinguer les diphtongues “décroissantes”
du type anglais mine [ma̍ɪn], des diphtongues “croissantes” du type espagnol
nueve [nue̍ve], tiene [tie̍ne], bien différent du type français tiennent [tjɛn] où [jɛ] n'est
plus une diphtongue mais une séquence “semi-voyelle + voyelle”, c'est-à-dire
“consonne + voyelle”, le premier élément étant plus bref et plus fermé qu'en
espagnol.

Au contraire des voyelles complexes dites “diphtongues”, les “voyelles diphtonguées”
sont celles dont le timbre ne change pas à un tel point qu'on y reconnaisse
nettement deux voyelles différentes. Les voyelles diphtonguées changent bien de
timbre au cours de leur émission, mais l'appendice vocalique qui termine la voyelle
ne prend pas le caractère d'une autre voyelle aussi nettement que dans les diphtongues
de foul [faul], file [faɪl], foil [fɔil]. Ainsi /es voyelles diphtonguées de fail, foal, sont
transcrites [fel], [fol], sans appendice vocalique, dans le dictionnaire de prononciation
américaine de Kenyon, mentionné plus haut. Il est vrai que d'autres linguistes les
transcriraient avec appendice, soit [feɪl], [foul], soit [feil], [foul], soit [fejl], [fowl],
soit encore [fɛjl], [fɔwl]. (Il n'y a pas de langue qui soit le sujet de plus de controverse
que l'anglais!). Mais il y en a aussi beaucoup qui remplaceraient tout appendice
vocalique par une simple marque de durée: fail [feːl], foal [foːl]. Car, se plaçant du
point de vue phonémique, ils considèrent que ce qui permet de distinguer (à l'audition)
fail de fell ou de fill, foal de fail ou de full, ce n'est pas tant une différence de timbre
(ou la présence d'un appendice vocalique) qu'une différence de durée vocalique.
Tandis que ce qui distinguerait foul de file, file de foil, ce serait le timbre vocalique,
soit dans l'élément faible de la diphtongue [faul], [faɪl], soit dans l'élément fort
[faɪl], [fɔɪl].

Ce sont les voyelles diphtonguées qui nous intéressent ici, et non les diphtongues
proprement dites. Nous nous proposons de les comparer, par des méthodes objectives,
aux voyelles correspondantes du français qu'on appelle communément “voyelles
pures”. Avant de nous engager dans cette étude comparative il était utile de définir
nos termes, d'apprendre à distinguer “voyelle diphtongue” de “voyelle diphtonguée”,
et de considérer la grande variété de transcriptions phonétiques qu'on trouve pour ces
classes de sons. Cette variété même reflète les divergences d'opinions qui existent, et
le fait que ces opinions sont toutes plus ou moins basées sur des impressions subjectives.
Elle fait sentir le besoin qu'il y a d'employer des méthodes d'investigation
objectives.

Le terme de voyelle pure n'exige pas de définition élaborée. En principe, une voyelle
est dite pure si elle n'est pas diphtonguée, si son timbre ne change pas en cours
d'émission. En réalité la pureté d'une voyelle doit être relative plutôt qu'absolue.
C'est précisément un des objets de la présente étude de déterminer dans quelle mesure
les termes de voyelle pure et voyelle diphtonguée sont justifiés.96

Au cœur du problème de la diphtongaison se trouvent les voyelles anglaises de
mots tels que fail, foal, feel, fool, et les voyelles françaises correspondantes de mots
tels que fée, faux, file, foule. Ce ne sont certes pas les seules voyelles qui se diphtonguent
— le [ɪ] bref de tin, till est très souvent diphtongue en [ɪə] et dans le dialecte de
beaucoup d'Américains presque toutes les voyelles se diphtonguent — mais ce sont
elles qui se soumettent le plus régulièrement à de notables changements de timbre en
cours d'émission. Ces huit voyelles forment tout l'objet de notre investigation. Elles
seront comparées deux à deux — celle de fail à celle de fée (jamais en syllabe fermée en
français), celle de foal à celle de faux (rarement en syllabe fermée en français), celle de
feel à celle de file, et celle de fool à celle de foule.

Méthode de recherche

Chacune des quatre figures numérotées 1, 2, 3, et 4 présente la séquence cinématographique
de l'articulation d'une voyelle anglaise passible de diphtongaison (à
gauche) et de la voyelle française correspondante (à droite). Le but de ces figures est de
rendre aussi pratique et aisée que possible la comparaison objective du déroulement
articulatoire dans ces deux langues.

Pour arriver à produire ces quatre figures, nous avons commencé par composer des
paires de mots et de phrases du type know/nos, say/ces, qui plaçaient les voyelles
correspondantes de chaque paire dans des conditions phonétiques d'accent et d'entourage
consonantique assez semblables pour rendre la comparaison valable. En voici
des exemples:

Comparaison des /o/ anglais et français:

They can tow where they go for the bow.
Ces bateaux sont égaux et sont beaux.

Comparaison des /e/ anglais et français:

The day before pay wasn't gay.
Céder à l'épée n'est pas gai.

Comparaison des /u/ anglais et français:

It will do to say “boo” when they coo.
Monsieur Ledoux est dans la boue jusqu'au cou.

Comparaison des /i/ anglais et français:

McKee has a bee in his tea.
Chez qui sont partis ses habits?

Puis nous avons pris des films cinématographiques d'un bon nombre de sujets
américains et français lisant les listes de mots et de phrases de leur langue respective.
97Dans ces films les prises de vue se font de face et de profil (simultanément à l'aide d'un
miroir) pour les lèvres, et par rayon-X de profil pour la langue. Pour les rayons-X le
centre de la langue est recouvert d'une couche de barium, ce qui permet de faire la
distinction entre la ligne centrale du haut de la langue et ses ailes (contours extérieurs
des deux côtés de la langue s'ils dépassent le centre en vue de profil).

Ces films ont ensuite été longuement étudiés, observés, analysés, à vitesse normale,
au ralenti, et surtout vue par vue sur des projecteurs spéciaux, afin de découvrir,
pour chacune des voyelles, ce qui est caractéristique d'une langue, c'est-à-dire ce qui
est partagé par la majorité des sujets photographiés. Les rayons-X de six sujets ont été
choisis pour chaque langue. Enfin des tracés composites des positions successives de la
langue ont été dessinés par transparence agrandie pour représenter le mouvement
caractéristique de chacune des voyelles dans les deux langues et ils ont été synchronisés
avec des films de mouvements des lèvres sélectionnés et avec les films du son correspondant
aux films respectifs des lèvres.

Organisation des figures

Sur les figures, le résultat final de notre recherche est présenté en cinq colonnes verticales
pour chaque voyelle.

Colonne 1: (de gauche à droite): Transcription phonétique du son qui correspond
approximativement aux vues cinématographiques de droite.

Colonne 2: Profil des lèvres pendant l'articulation, pris à 24 vues à la seconde. Le
temps qui sépare chaque vue de la suivante est d'environ 4 centièmes de seconde.
On verrait plus de détail dans le mouvement à 60 vues à la seconde, mais le nombre
des vues serait trop grand pour permettre la présentation d'une voyelle par page.

Colonne 3: Vue de face des mouvements des lèvres à la même vitesse de 24 vues à la
seconde.

Colonne 4: Bande sonore correspondant au film des lèvres et permettant de suivre les
limites des consonnes et des voyelles. Il faut noter ici un fait très important: les
recherches spectrographiques nous ont appris que les 3 ou 4 centièmes de seconde
qui suivent la séparation des organes, dans le mouvement d'ouverture consonantique,
font percevoir non la voyelle mais la consonne — la transition rapide consonne-voyelle
appartient, en somme, à la consonne. Nous avons donc marqué le symbole
phonétique de la consonne parallèlement à la portion de la bande de son qui
correspond à la première vue qui suit la séparation des organes, bien que cette
portion du son ait une apparence vocalique sur la bande sonore.

Colonne 5: Positions successives de la langue, vue de profil, d'après des rayons-X pris
cinématographiquement à la vitesse de 24 vues à la seconde. Les pointillés représentent
la ligne médiane de la langue quand elle forme un creux; le contour extérieur
des ailes de droite et gauche de la langue apparaît alors en trait plein.
S'il n'y a pas de pointillés, c'est apparemment que la langue ne forme pas de creux
à son centre.98

La dernière vue de chaque série est celle à laquelle le son s'arrête. La langue, les
lèvres et les mâchoires se dirigent déjà vers la position de repos.

Examen des résultats

En parcourant des yeux les quatre figures, nous devrons porter notre attention d'une
part sur la forme des lèvres, l'écartement des dents et la position de la langue (haute/basse,
antérieure/postérieure), d'autre part — et cela est plus directement relié au
timbre des voyelles — sur les volumes et les orifices des deux cavités du tractus vocal.
C'est en effet le volume et l'orifice d'une cavité, qui détermine sa note de résonance
(plus le volume est grand et l'orifice étroit, plus la note est basse), et ce sont ces notes
de résonance qui distinguent, à l'audition, deux voyelles l'une de l'autre. Nous
observerons aussi la place de la constriction linguale, le point où elle se rapproche du
mur palatal ou pharyngal. Car c'est ce point — dit “point d'articulation” qui sépare
le tractus en deux cavités et qui détermine la dimension de ces cavités.

Les /o/ que nous avons choisis pour la comparaison se trouvent dans les syllabes
know, prononcée par une Américaine, et nos, prononcée par une Française.

/o/ américain

Trois caractères généraux apparaissent et ils s'appliquent aux mouvements des lèvres
et des mâchoires aussi bien qu'à ceux de la langue.

1. Les organes ne cessent pas un instant de se déplacer pendant que le son vocalique
se fait entendre. Il y a mouvement continu.

2. Les organes vont indirectement à leur but — qui est mentalement un [o]. Ils font
un immense détour en passant par un [ɔ] très ouvert. Puis ils dépassent leur but en
degré de fermeture.

3. Le déplacement articulatoire est plus rapide au début de la voyelle qu'à la fin,
ce qui indique une attaque forte suivie d'un effort décroissant.

Décrivons le rôle de chaque organe séparément.

Les lèvres, dans ce mouvement continu, commencent par s'ouvrir démesurément
avec anticipation prononcée d'arrondissement et d'avancement. Puis elles se referment,
tout en conservant l'arrondissement avancé, d'abord vite, puis de moins en
moins vite. Vers la fin, les lèvres passent par la forme d'un [o] cardinal et la dépassent
pour s'engager vers la forme d'un [w], sans pourtant l'atteindre, ce qui est transcrit
par un [w] en pointillé.

La langue, après la brusque détente transitoire qui compte surtout pour la perception
du [n], se porte vite vers le dos du pharynx, puis sa constriction fait un lent
mouvement circulaire, s'élevant le long du dos du pharynx pour aboutir au palais
mou, où elle produirait un [w] si elle s'élevait encore un peu. Ce mouvement circulaire
et continu de la langue s'observe chez tous les sujets américains pendant la voyelle [o].
La cavité antérieure, d'abord très grande, diminue sans cesse de volume. Et la cavité
99postérieure, d'abord petite, s'agrandit à la racine de la langue en passant de [ɔ] à [o],
puis se resserre, ce qui est caractéristique du son [w].

Quant à l'écartement des mâchoires, vu aux dents, il semble d'abord retarder sur les
mouvements des lèvres et de la langue — au cours de l'[ɔ], les dents s'écartent tandis
que les lèvres se ferment et que la langue s'élève; mais ensuite les mâchoires se rapprochent
en coordination avec la fermeture des lèvres et l'élévation de la langue.

Il est toujours instructif d'écouter le son d'un film dans les deux sens. Pour /no/
américain, lorsque le projecteur est mis en marche arrière, on entend nettement [wɔn],
ce qui laisse au son [o] une place encore plus infime que celle qu'elle occupe sur la
Figure 1.

/o/ français

La voyelle /o/ du français s'oppose en tous points à celle de l'américain.

1. Après le brusque mouvement transitoire de la langue qui fait percevoir l'[n], il
existe une période de presque complète stabilité des lèvres, des mâchoires et de la
langue qui dépasse 1/10 de seconde (trois vues).

2. La langue et les lèvres vont à leur position définitive sans détour, par la voie la
plus directe.

3. Les lèvres n'indiquent pas de plus grande dépense d'énergie au début de la
voyelle qu'à la fin. La piste du son montre au contraire que l'intensité augmente sans
cesse du début à la fin — signe de l'attaque douce qui favorise la non-diphtongaison.

Dans l'ensemble la cavité antérieure de la Française est plus petite que la cavité
antérieure de l'Américaine; et la cavité postérieure de la Française est plus grande
que la cavité postérieure de l'Américaine. De plus, les mâchoires de la Française sont
plus fermées d'un bout à l'autre. Ces deux traits articulatoires indiquent un timbre
plus proche du [u] cardinal en français qu'en anglais.

Les /e/ que nous avons choisis pour la comparaison se trouvent dans les syllabes
Fay pour l'anglais et ver de lever pour le français.

/e/ américain

Bien que les mouvements des lèvres et de la langue ne soient pas aussi étendus pour
/e/ que pour /o/, les trois mêmes caractéristiques ressortent. Résumons-les.

1. Il y a mouvement continu.

2. Le mouvement articulatoire visant à [e] fait un détour par un [ɛ] très ouvert.

3. La piste du son indique une attaque forte et une intensité décroissante.

Les lèvres s'ouvrent pendant trois vues puis se referment très lentement.

Parallèlement, la langue s'élève constamment vers le palais tandis que les mâchoires
s'ouvrent d'abord prodigieusement pour se refermer un peu vers la fin. La constriction
linguale vise à un [j] sans pourtant l'atteindre, les mâchoires étant trop ouvertes.
La cavité antérieure diminue constamment tandis que la cavité postérieure augmente
de volume.100

image n | ɔ | o | w

Figure 1insert

image f | ɛ | e | j | v

Figure 2insert

/e/ français

1. La stabilité des mâchoires et de la langue est ici plus grande que celle des lèvres,
qui font continuement un léger mouvement ouvrant.

2. La prise de position se fait directement, sans détour, sans changement de
direction.

3. L'ouverture graduelle des lèvres semble indiquer un effort croissant.

D'un bout à l'autre, les mâchoires et les lèvres sont beaucoup plus fermées qu'en
anglais. La forme de la cavité antérieure est intéressante à comparer. Chez la Française
la cavité est en tube — la courbe supérieure de la langue est presque parallèle au palais;
chez l'Américaine elle est en cône. Nous retrouverons cette même différence dans
les /i/. Les /u/ que nous avons choisis pour la comparaison se trouvent dans les syllabes
do pour l'anglais et doux le français.

/u/ américain

La diphtongaison est nettement moins marquée que dans les /o/; elle existe néanmoins
et ses trois caractères sont présents.

1. Il y a mouvement continu: les lèvres se ferment et la langue se soulève vers le
palais mou sans cesser de changer.

2. La voyelle visée est atteinte indirectement par le détour d'un [u] ou d'un son
s'en rapprochant.

3. La piste sonore indique une intensité décroissante.

A la fin un [w] n'est pas loin de se réaliser. Les lèvres arrondies sont extrêmement
fermées, la constriction linguale est plus étroite et la cavité postérieure plus réduite
que pour un [u].

/u/ français

1. La stabilité des lèvres, des mâchoires, et de la langue est presque complète pendant
quatre vues.

2. La position stable est atteinte sans détour.

3. La piste du son montre une intensité croissante.

Le point de constriction est plus postérieur que dans le /u/ américain. La
cavité postérieure est cependant plus grande et la fermeture des mâchoires plus
petite. Les /i/ que nous avons choisis pour la comparaison se trouvent dans les mots
bee pour l'anglais et habit pour le français.

/i/ américain

La diphtongaison rappelle celle des /e/ mais elle est moins marquée.

1. Le mouvement continu n'est pas visible sur les lèvres, mais il est sensible dans
le mouvement de la langue qui s'élève sans interruption vers le palais.101

2. La voyelle visée est atteinte par le détour d'une voyelle nettement plus ouverte et
qui ressemble fort à un [ɪ] pendant au moins deux vues.

3. La piste sonore indique une intensité décroissante.

La constriction entre la langue et le palais est assez étroite, à la fin du son, pour
produire quelque chose de semblable à un [j].

/i/ français

1. La stabilité des lèvres est maintenue pendant deux vues; celle des mâchoires et de
la langue pendant trois ou quatre.

2. La position stable est atteinte sans détour.

3. La piste du son indique une intensité croissante.

Les mâchoires sont bien plus fermées que pour le /i/ américain.

La cavité postérieure est plus grande qu'en anglais, et la cavité antérieure est plus
petite. La forme des cavités antérieures est intéressante. Chez la Française, la cavité
ressemble à un tube, le dos de la langue étant parallèle au palais et très antérieur.
Chez l'Américaine, la cavité ressemble à un cône, les mâchoires étant plus ouvertes
et le point de constriction moins antérieur.

Conclusion

L'analyse objective par cinéradiographie de la langue et cinématographie des lèvres,
synchronisées avec l'image de la bande sonore, montre des divergences considérables
entre les caractéristiques articulatoires de l'anglais et du français pour les voyelles
/o, e, u, i/. 1. Les voyelles anglaises que nous avons étudiées changent constamment
de timbre; les françaises, au contraire, montrent des périodes de stabilité presque
complète pendant plusieurs vues successives. 2. L'articulation anglaise de ces voyelles
commence toujours par une phase surouverte des lèvres, des mâchoires et un peu
moins de l'abaissement de la langue, et se termine par une phase surfermée. Ainsi la
voyelle visée est atteinte indirectement, par le détour d'une voyelle plus ouverte. De
plus l'/o/ anglais est marqué par un mouvement circulaire de la langue: le point
d'articulation lingual se déplace en remontant le dos du pharynx puis en tournant vers
le voile du palais. L'articulation française est au contraire aussi sobre possible: le
degré d'ouverture final est atteint rapidement, et une fois atteint il est remarquablement
tenu et n'est pas dépassé. La langue se déplace par la voie la plus directe, sans
faire de détour. 3. Enfin la répartition de l'énergie diffère d'une langue à l'autre.
L'attaque de ces voyelles est plus forte et l'énergie plus décroissante en anglais qu'en
français, où l'intensité est parfois même croissante. Le lecteur qui voudra se pencher
sur nos figures y découvrira encore toute une richesse de détails.102

image d | ə | u | w

Figure 3insert

image b | ɪ | i | j

Figure 4insert

1* Déjà publié dans The French Review, XXXVII, 1 (October, 1963), pp. 64-76.