CTLF Corpus de textes linguistiques fondamentaux • IMPRIMER • RETOUR ÉCRAN
CTLF - Menu général - Textes

Delattre, Pierre. Studies in French and Comparative Phonetics – T31

Les indices acoustiques de la parole *1

Introduction

Les dix dernières années compteront dans l'histoire de la phonétique expérimentale.
Grâce à de toute nouvelles techniques de recherche, surtout à la technique combinant
l'analyse et la synthèse électroniques qui permet de manipuler librement une parole
artificielle, d'en isoler les éléments et de varier à volonté les dimensions de ces éléments
pour juger à l'oreille les effets des changements, il a été possible de pénétrer avec
sûreté dans le domaine des facteurs physiques de la parole, d'avancer à pas de géant
dans la recherche des indices acoustiques (acoustic cues) qui sont au point de départ
de la perception des sons de la parole et de leur identification linguistique.

Une fois la notion du formant établie, la plus grande contribution de ces dix années
concerne sans contredit le rôle des transitions de formant dans la perception des
consonnes. (Nous verrons plus loin que ces transitions sont corrélatives au lieu
d'articulation plus qu'au mode, c'est-à-dire qu'elles servent à distinguer entre les
diverses consonnes d'une classe plus souvent qu'à distinguer les classes de consonnes
entre elles.) Le kymographe, et même l'oscillographe, ne laissaient pas soupçonner,
dans les consonnes occlusives, par exemple, autre chose qu'une interruption (tenue)
suivie d'un bruit d'explosion. Le spectrographe a tout de suite mis en évidence les
changements rapides de fréquence qui reflètent les mouvements articulatoires unissant
le centre de la consonne au centre de la voyelle. L'affirmation du fait que ces marques,
d'apparence transitoires, ne jouaient pas un rôle “de passage”, mais formaient le
cœur même de la perception des consonnes, est dû à la technique d'étude par la
synthèse. Au cours de ces dernières années, les chercheurs ont passé plus de temps à
l'étude de la fonction de ces transitions, et à la spécification de leurs dimensions, qu'à
celle de tous les autres facteurs réunis — formants vocaliques en état stable, bruits
d'explosion, de friction, d'affrication, accent, intonation, rythme, etc.

La recherche des indices est loin d'être complétée, mais elle en est déjà au point où,
en appliquant les règles acoustiques qui en sont ressorties soit par recherche définitive,
soit par exploration, soit par extrapolation, il est possible de peindre les tons d'un
spectrogramme artificiel à raison d'une syllabe à la minute. Un tel spectrogramme,
248passé sous les lecteurs électroniques d'un synthétiseur — à la manière, si l'on veut, du
rouleau dans un piano mécanique — produit une parole artificielle fort intelligible.

Cette avance est évidemment due aux progrès techniques que l'on a été forcés de
faire pendant la guerre. Mais ils ne brisent en rien avec le passé. Un regard en arrière
nous le fera comprendre.

L'analyse des ondes de la parole humaine, faite par des moyens électroniques,
comme l'ont fait Gemelli et Pastori, ou mécaniques, comme l'a fait l'abbé Rousselot,
ou simplement auditifs, comme l'a fait Sir Richard Paget, avait permis de saisir, déjà
bien avant la guerre, nombre de faits exacts sur les indices acoustiques de la parole.
Les nombreuses études sur les notes caractéristiques des voyelles, leur fréquence et
leur nombre, n'étaient pas loin d'aboutir. C'est Paget, à notre avis, qui était dans la
meilleure voie. Il a été le premier à affirmer que toutes les voyelles — pas seulement les
voyelles antérieures — possédaient au moins deux formants distinctifs. Et pour les
consonnes, certaines fréquences de fricatives et de liquides, tant dans le domaine des
ondes périodiques (tons de /l r n/) que dans celui des ondes non périodiques (frictions
de /s ʃ/), avaient été fort bien entendues par Paget. Il avait mis le doigt sur l'un des
indices les plus difficiles de la nasalité consonantique (Human Speech, p. 95), le formant
d'environ 250 cps qui contribue si fort, dans la synthèse d'aujourd'hui, à
changer les tenues de /b d g/ en tenues de /m n ŋ/, et qui joue un rôle certain — bien
que mineur — dans la nasalisation des voyelles. Il avait même entrevu, semble-t-il, le
rôle des transitions dans la perception des consonnes: “… inasmuch as [consonants]
are produced by movements of the vocal organs (like the diphthongs) their resonances
are characterized, not only by pitch, but also by their change and rate of change in
pitch” (Human Speech, p. 124). Et il donne comme exemple le /l/ de [il], caractérisé
par une transition descendante de cinq demi-tons, et le /l/ de [ul], caractérisé par une
transition montante de onze demi-tons, pressentant la théorie récente du “Locus” qui
veut que le caractère acoustique commun de ces deux transitions (ce qui contribue à
identifier deux transitions aussi différentes comme un même phonème) c'est qu'elles
convergent toutes deux vers une même fréquence virtuelle, celle du Locus de /l/, avec
des caractéristiques transitoires du même genre: “… if the terminal /l/ be sounded by
itself, as a continuing sound, it becomes quite unrecognizable. The resonant change
is the real characteristic, in spite of its great difference with different associated
vowels” (Human Speech, p. 124). Enfin Paget avait même prévu le rôle proprioceptif
du geste articulatoire dans la perception — hypothèse qui se voit soutenue par divers
résultats d'expériences de synthèse, que nous mentionnerons dans ce rapport: “In
this case [of l], the one constant characteristic is the movement made by the tongue …
in recognizing speech sounds, the human ear is not listening to music, but to indications,
due to resonance, of the position and gestures of the organs of articulation”
(Human Speech, p. 125).

Plus tard, il revenait à Martin Joos de préciser l'importance possible des transitions:
“Such identification of consonants by their effects upon contiguous resonants is
apparently depended upon by listeners to a far greater extent than commonly supposed.”
249(Acoustic Phonetics, p. 122). Mais Joos n'avait pas autant de mérite que Paget
à faire de telles hypothèses car, depuis plusieurs années déjà, il avait à sa disposition
l'incomparable instrument d'analyse de la parole qu'est le spectrographe, inventé
pendant la 2e guerre mondiale par les Laboratoires Bell Telephone. Sur les spectrogrammes,
les divers formants se détachent pour serpenter indépendamment dans le
sens de la durée, se rapprochant ou s'éloignant tour à tour les uns des autres, reflétant
ainsi la continuité des divers mouvements articulatoires.

Terminologie

Terminologie. Avant d'aborder les sujets techniques, entendons-nous sur la terminologie
française que nous appliquerons ici.

La fréquence, notion physique, acoustique, se mesure, objectivement en cps (cycles
par seconde); elle est perçue subjectivement par la hauteur (ou hauteur musicale),
notion psychologique. L'intensité, notion physique, se mesure objectivement en db
(décibels); elle est perçue subjectivement par l'audibilité, notion psychologique. La
durée, notion physique se mesure en ms (millièmes de seconde); elle est perçue subjectivement
par la longueur, notion psychologique.

Sur un spectrogramme de parole, on appelle formants les régions de fréquence de
plus grande intensité. En moyenne, les formants ont une largeur d'environ 200 cps.
Chaque formant est reconnaissable, sur un spectrogramme à trois dimensions, soit
par une condensation unie de foncé qui se déplace dans le sens de la durée en serpentant
selon les variations de fréquences (sons non périodiques, ou présentation de sons
périodiques avec filtrage large), soit par une concentration désunie de foncé (sons
périodiques présentés par filtrage étroit qui montre les harmoniques individuels).

Ce rapport étant strictement sur les indices acoustiques, nous éviterons, dans la
mesure du possible, le sujet des corrélations entre les facteurs acoustiques et articulatoires,
qui mérite un rapport séparé. Mentionnons seulement que les notes de résonance
des diverses cavités phonatoires ne correspondent pas aux fréquences des
divers formants de manière directe et indépendante. Aucune cavité n'est directement
et indépendamment responsable de la fréquence d'un formant. Tout formant dépend
plus ou moins de la somme des cavités, et cela d'autant plus que la cavité totale
(somme) prend plus la forme d'un tube de section uniforme. Les formants 1, 2, 3,
etc., sont les modes de vibration 1, 2, 3, etc., d'un tube fermé à un bout et ouvert à
l'autre; donc la fréquence de F1 (premier formant) correspond à une longueur d'onde
de 1/4, celle de F2 à une longueur d'onde de 3/4, celle de F3 à une longueur d'onde de
5/4, etc. La distance de la glotte aux lèvres étant de 17 à 18 centimètres et la vitesse du
son dans l'air de 34400 cm à la seconde, les fréquences des formants 1, 2, 3, etc., pour
une voyelle articulée avec une cavité de section presque uniforme, seraient respectivement
500 cps, 1500 cps, 2500 cps, etc. (Pour F1, le calcul est: 34400 divisé par 17,2
divisé par 1/4; pour F2, 34400 divisé par 17,2 divisé par 3/4, etc.). Si les fréquences de
formants sont rarement dans la proportion 1, 3, 5, etc., c'est qu'elles montent ou
descendent selon que les strictures de la cavité phonatoire correspondent respectivement
à des nœuds ou à des ventres de leurs modes de vibration respectifs. Cependant
on peut dire que plus les cavités avant et arrière se définissent (comme par exemple
250pour[u]), plus une corrélation pratique entre les changements de fréquence de F1 et
F2 et les changements de volume des cavités arrière et avant est acceptable, et moins
les formants en dessus de F2 jouent de rôle dans la perception, leur intensité étant
trop faible.

Les techniques de recherche actuelles

Spectrographie

Spectrographie. Le spectrographe présente une image visuelle de la parole décomposée
en ses éléments acoustiques (spectrogramme). Avec le spectrographe de la
maison Kay (Kay Electric Company, Pine Brook, New Jersey, USA), l'opération
nécessaire pour obtenir un spectrogramme de 2,5 secondes de son, sur papier sensible
à l'étincelle électrique, dure quelques minutes. Le spectre, comme une image de télévision,
est composé de quelque 200 lignes qui sont d'autant plus foncées que l'intensité
d'une certaine fréquence dépasse plus un certain niveau. L'image qui résulte est en
trois dimensions: la fréquence (de bas en haut), la durée (de gauche à droite) et
l'intensité (degré de foncé). Les spectrogrammes expérimentaux de Bell Telephone
(avant 1948) couvraient une fréquence de 3500 cps seulement (à peu près la limite de
basse fréquence des [s]). Visible Speech, le livre bien connu de Potter, Kopp and
Green, (1) produit des Laboratoires Bell Telephone, est principalement illustré de
tels spectrogrammes. Les spectrographes que fabrique la maison Kay depuis 1948
couvrent linéairement (pas logarithmiquement) une fréquence de 8000 cps — 2000 cps
par pouce de hauteur. L'image totale de 2,5 secondes de parole a 4 pouces de hauteur
et 12 pouces de longueur.

De plus, le spectrographe de Kay offre deux filtrages différents: a) un filtrage dit
“large” (300 cps) qui détache les formants mais cache les harmoniques individuels
qui les composent; et b) un filtrage dit “étroit” qui met en évidence les harmoniques
individuels mais rend la lecture des formants plus difficile, car l'œil doit alors faire
une extrapolation pour réunir les traits isolés des harmoniques en bandes unies de
formants. A ces deux représentations du son, il s'ajoute plusieurs perfectionnements.
c) Pour tout point dans le temps, un profil de l'amplitude des partiels (section) peut
se faire en filtrage large ou étroit. Ce profil précise mieux les intensités des partiels
(directement mesurables en décibels) que le degré de foncé. d) L'intensité totale peut
se représenter dans le sens du temps, au haut du spectre, par une ligne qui serpente
(amplitude display), également mesurable en décibels à partir d'une ligne de zéro
marquée dans le sens du temps. e) Pour mieux observer les variations de fréquence
des formants, il est possible de faire le spectrogramme à l'échelle de 1200 cps par
pouce (au lieu de 2000) ce qui correspond à l'échelle du spectrographe spécial des
Laboratoires Haskins, New York. (Ceci n'est pas un hasard: ce sont les Laboratoires
Haskins qui ont fait les diagrammes de ce perfectionnement pour la maison Kay!)
f) Pour mieux observer les variations de fréquence de la fondamentale, il est aussi
possible de faire le spectrogramme à l'échelle de 200 cps par pouce, ce qui amplifie
dix fois, de bas en haut, les variations de fréquence des harmoniques visibles.251

Le spectrographe fabiqué par les Laboratoires Haskins pour leur propre usage est
considérablement plus sensible et plus flexible que les spectrographes Kay. Il peut
faire les spectrogrammes à une infinité d'échelles de fréquence, et en présentation
linéaire aussi bien que logarithmique (cette dernière est moins commode pour l'œil).
Ses spectrogrammes ont habituellement une échelle de 1200 cps par pouce de hauteur
et une longueur de 79,2 pouces pour une durée de 11 secondes. Ce seront là. aussi les
dimensions des spectrogrammes artificiels employés dans la synthèse aux Laboratoires
Haskins. Pour compenser le fait que dans la parole humaine les intensités diminuent
d'environ 9 db par octave de hausse, les spectrographes augmentent généralement les
intensités d'autant. De cette manière les formants hauts sont aussi bien visibles que
les formants bas.

L'analyse est normalement le point de départ des recherches. Elle permet de faire
des hypothèses qui seront vérifiées dans des expériences par la synthèse. Ainsi on peut
comparer les spectres de deux sons jugés différents à l'oreille et observer quels formants
ont disparu, apparu, changé de fréquence, d'intensité, de durée, de forme, de
direction, etc. On peut aussi essayer de voir les différences spectrographiques qui
résultent de changements articulatoires produits isolément. Mais cette méthode n'est
jamais sûre. Jusqu'à quel point est-il possible de modifier la position d'un seul articulateur
en tenant les autres immobiles? Comment bouger le dos de la langue sans
changer la largeur du pharynx? Le contrôle par radiographie cinématographique est
possible mais il n'est pas facilement accessible: pour cinématographier en rayons-X
les mouvements articulatoires, il faut une telle intensité radiographique que la même
personne ne peut pas en supporter plus de 15 secondes par an sans risquer la brûlure.

Pour contrôler les différences articulatoires qui produisent telles différences spectrographiques,
il faut une bouche artificielle. C'est à cet effet qu'il s'est construit aux
Laboratoires Bell Telephone, d'abord (5), puis à MIT (Massachusetts Institute of
Technology), des Analogues Electriques de la Cavité Buccale (25).

L'analyse, donc, ne peut que mettre sur la voie des indices. Il faut ensuite vérifier
par la synthèse. Les exemples de conclusions erronées faites sur la base de l'analyse
seule abondent. En voici quelques uns qui concernent les indices acoustiques de la
nasalité: Harvey Fletcher attribue la nasalité à l'addition de deux formants dont le
plus bas est aux environs de 400 à 450 cps et le plus haut entre 2169 et 3906 cps
(Speech and Hearing, New York, Van Nostrand, 1929, p. 63); Antti Sovijärvi à trois
formants d'environ 2000, 25000 et 3000 cps (Die Vokale und Nasale der finnischen
Sprache
, Helsinki, 1938, p. 161); Thomas Tornoczy à un seul formant dans les environs
de 2500 cps (“Resonance Data of Nasals, Laterals and Trills”, Word, 4, 1948, 71-77);
Svend Smith à deux formants de 1000 et 2000 cps (Folia phoniat., 3, 1951, 165-169);
et Marguerite Durand à un seul formant aux environs de 7000 cps (“De la formation
des voyelles nasales”, Stud. ling., 7, 1953, 33-53). Il est exact que la nasalité peut se
traduire sur le spectre par des formants additionnels, mais à la synthèse on découvre
que rien de cela ne fait percevoir la nasalité. Comme on le verra plus loin, elle dépend
essentiellement des intensités relatives des formants, voire, de la faiblesse d'intensité
252du premier formant relativement au second. Ce fait avait échappé à toutes les analyses;
la synthèse seule l'a révélé. Même l'analogue électrique de la bouche a d'abord mené
à de fausses hypothèses sur la nasalité. L'addition d'une troisième cavité (nasale) aux
deux cavités buccales n'a voulu produire pendant longtemps que l'addition d'un
formant vers 1100 cps, et les voyelles artificielles qui résultaient n'étaient pas nasales
à la perception. Ce n'est qu'après que les chercheurs de l'analogue ont eu pris connaissance
du fait que la nasalité dépendait, non d'une addition de formant, mais d'un
changement d'intensité du premier formant, qu'ils ont réussi à faire produire ce
changement — et la nasalité — à l'analogue.

L'effaçage magnétique

L'effaçage magnétique. En effaçant, sur bande magnétique, des portions de son
dans le temps (vérifiables, pour chaque effaçage, par la spectrographie) et en soumettant
les portions qui restent au jugement auditif, on a pu faire des hypothèses très
importantes (Joos, Acoustic Phonetics, pp. 116-125). La faiblesse de cette méthode
réside dans le fait que tout effaçage d'une portion de temps comprend la totalité des
fréquences de ce temps. On perçoit l'utilité d'une machine qui permettrait d'effacer
seulement les fréquences voulues d'une certaine portion de temps. C'est ce qui peut
se faire sur les machines synthétiques. L'effaçage peut être simulé par une machine
telle que “Electronic Switch” (Grayson-Stadler Co., Cambridge 39, Massachusetts,
USA) qui permet de réentendre à volonté les spécimens originaux.

Le filtrage

Le filtrage. En filtrant successivement différentes bandes de fréquence parallèlement
au temps, et en soumettant les portions qui restent au jugement auditif, on peut
faire des observations utiles sur les indices contenus dans les bruits de friction et
d'explosion. Mais, appliquée aux formants vocaliques, cette technique est dangereuse:
tel filtrage ne correspond jamais à tel formant puisque les formants changent constamment
de fréquence. Sur les machines à synthèse il est possible de filtrer les formants
mêmes, malgré leurs changements de fréquence.

Le recollage

Le recollage. On peut découper les bandes magnétiques en segments, et les recoller,
a) après avoir éliminé une portion intérieure, b) après avoir interverti des portions de
plusieurs spécimens différents (ou plusieurs versions d'un même type) entre elles. Par
exemple, on peut échanger la tenue d'un /n/ contre celle d'un /m/, la friction de /f/
contre celle de /s/, etc., et juger auditivement les résultats. Comme il est très difficile de
couper juste où l'on veut, il faut toujours vérifier le résultat des recollages par la
spectrographie.

Cette méthode est surtout très utile pour vérifier jusqu'à quel point les résultats
obtenus par la synthèse s'appliquent à la parole naturelle.

Le bruit blanc

Le bruit blanc. L'emploi de bruit, en bandes très larges, ou en bandes étroites, de
fréquence, surimposé à la parole pendant la perception, permet de comparer la
résistance des traits acoustiques entre eux.

La synthèse

La synthèse. Jusqu'ici les Laboratoires Haskins ont construit trois synthétiseurs de
parole. Appelons-les SP, SV et SO. SP et SV sont faits pour convertir en son des
spectrogrammes de 11 secondes (79,2 pouces) — spectrogrammes “naturels” de voix
humaine aussi bien que spectrogrammes “artificiels” peints à la main. SO ne peut
253articuler que des syllabes isolées. Les trois sont faits, non pour produire la parole la
plus réaliste possible (le phonographe et le magnétophone se chargent de cela), mais
pour fournir de bons instruments de recherche. Les qualités qu'on exige d'eux sont la
flexibilité et la versatilité: ils doivent permettre d'isoler, puis de faire varier dans toutes
leurs dimensions, les nombreux éléments acoustiques de la parole; et au fur et à
mesure, de faire entendre les résultats de ces manipulations. On trouvera des descriptions
de ces instruments de recherche dans (4, 6, 18, 34). Nous nous contenterons
d'expliquer leur emploi pour le chercheur.

Supposons une voix d'homme de registre moyen qui parlerait sur un ton monotone
à la fréquence de 120 cps: tous les partiels des sons voisés du spectre seraient des
harmoniques du ton fondamental, groupés en formants sélectionnés par les cavités
buccales. Pour imiter cette voix d'homme, SP possède un jeu de 50 tons purs (ondes
sinusoïdales) aux fréquences de 120 cps, 240 cps, 360 cps, etc. jusqu'à 6000 cps. Ce
sont les 50 premières harmoniques d'une fondamentale à 120 cps. Ces tons purs sont
actionnés par l'intermédiaire de 50 faisceaux de lumière d'une largeur individuelle de
1/10 de pouce. Les 50 faisceaux font une largeur de 5 pouces — celle du spectrogramme —
et sont disposés pour correspondre aux fréquences des 50 harmoniques d'un spectrogramme
naturel de même dimension. Lorsqu'un spectrogramme passe, à une vitesse
constante donnée, sous les rayons de lumière, tous les tons purs qui correspondent
aux formants se mettent à jouer. Chaque formant fait jouer, en moyenne, trois tons
purs contigus, celui du centre étant typiquement plus intense que les deux autres. Sauf
tout au bas de l'échelle des fréquences, où les intervalles sont grands, un formant
de trois tons contigus, joué seul, forme pour l'oreille une violente dissonance. Mais
deux formants, donc six tons en deux groupes de trois tons contigus, s'entendent
comme une belle voyelle — et non plus comme une dissonance — à condition seulement
que les fréquences des formants correspondent à celles de voyelles connues du sujet
entendant. Pour faire un spectrogramme artificiel, on peint, pour chaque harmonique,
une ligne dans le sens du temps. La fréquence est d'autant plus haute que la ligne est
plus élevée, la durée d'autant plus grande que la ligne et plus longue (7,2 pouce par
seconde), et l'intensité est d'autant plus forte que la ligne est plus large, ou plus
reflétante (largeur maxima: 1/10 de pouce par harmonique). En pratique, on peint un
formant d'un seul trait de pinceau qui couvre entièrement un canal et à moitié les deux
canaux contigus au premier. Toute ligne unie produit un son périodique. Pour produire
des sons non périodiques, on pointillé aussi irrégulièrement que possible. Les
bruits de friction ainsi produits ([s], [f], etc.) sont moins naturels que les sons des
voyelles, mais tout de même satisfaisants. Les bruits d'exploison ([p], [t], etc.) se
peignent par des traits brefs, plus ou moins verticaux, d'une largeur de fréquence
d'environ 600 cps (5 canaux contigus) et sont assez satisfaisants. Les variations de
fréquence du ton laryngien sont impossibles à imiter sur SP, la fondamentale étant
fixe à 120 cps. Mais il faut admettre que si la parole produite est intelligible sans
intonation, SP en a d'autant plus de mérite.

SV est beaucoup plus perfectionné que SP, mais, dans un sens, moins flexible, bien
254qu'on y convertisse les mêmes spectrogrammes en sons. a) Sur SV, la peinture d'une
seule ligne produit automatiquement un formant complet (d'intensité variable selon
la largeur de la ligne) — ceci afin que les formants soient toujours d'un type plus proche
de celui des formants de la parole naturelle, tant dans l'amortissement des ondes que
dans la relation de phase des divers harmoniques qui entrent dans le formant. (La
phase ne joue pas de rôle nettement distinctif du point de vue linguistique, mais elle
contribue au naturel, et par là à l'intelligibilité, semble-t-il.) Les formants de SV
apportent donc une amélioration du point de vue du “naturel”. D'autre part, ils
enlèvent un peu de flexibilité puisqu'on ne peut plus contrôler les harmoniques individuellement,
comme sur SP. b) SV produit du vrai bruit. Le même trait uni de peinture
peut se faire entendre comme formant de son périodique ou comme formant de son
turbulent (non périodique). (Sur SP on obtenait un effet de son turbulent en hachant
irrégulièrement les sons périodiques.) Les frictions de fricatives, de voyelles chuchotées,
de [h], d'aspiration, sont donc mieux produites sur SV que sur SP. c) Sur SV,
on peut varier la fréquence fondamentale. Il est donc possible d'y étudier l'intonation,
ainsi que l'accent. (Il va sans dire que lorsque la fondamentale monte de fréquence,
tous les harmoniques montent dans la même proportion sans que la fréquence des
formants change.)

SO est d'un type tout différent. On n'y transforme pas de spectrogramme en son;
le contrôle est dans des boutons de réglage qui permettent de produire une syllabe à
la fois avec l'intonation. SO a été construit pour faciliter l'étude des transitions. On
peut y contrôler le point de départ et le point d'arrivée (fréquence et temps) de trois
formants automatiques (comme sur SV mais encore plus naturels), qui peuvent être
périodiques ou non. On peut encore y contrôler la vitesse de changement des courbes
de transition (mais pas la forme) et les intensités de chaque formant, séparément, ainsi
que la durée de chaque segment de son. SO peut produire au maximum huit segments
de sons successifs. Quand tous les boutons de réglage sont au point désiré, on déclanche
la production sonore de la syllabe entière.

Un autre synthétiseur, du nom de PAT, construit en Angleterre, vient de se mettre
au service de la recherche sur les indices (47). Il produit quatre formants (automatiques
dans le même sens que chez SV et SO), les sons périodiques et les sons turbulents,
et les changements de fréquence de la fondamentale avec ses harmoniques (pour
donner l'intonation). Du point de vue de la recherche, PAT est du même type, mais
moins flexible, que SP, SV et SO, en ce sens qu'on peut y manipuler isolément les
variables acoustiques de la parole, soit par des boutons de contrôle soit par des
dessins en profil sur plaque de projection, et non du type des Analogues, qui
permettent de manipuler les variables “articulatoires” d'une bouche simplifiée pour
observer les différences que cela produit sur le spectre. (En général, pour une seule
modification articulatoire, on observe des changements dans tous les formants.) De
plus PAT ressemble à SP et SV en ce qu'il suit les changements des formants dans le
temps, et produit donc des phrases; les Analogues ne produisent encore que des sons
isolés soutenus.255

Les résultats

Bibliographie

Bibliographie: Nous citerons les travaux qui, sauf erreur ou omission de notre part,
ont contribué à la connaissance des indices acoustiques de la parole (serait-ce même
par le stimulant de conclusions erronées) au cours des dix années passées — environ
1947 à 1957. Les numéros suivent l'ordre chronologique.

La première question qui se pose en regardant un spectrogramme est: “Quels sont,
dans ces 8000 cps de formants, dans cette richesse de traits acoustiques, les traits
pertinents, du point de vue linguistique?” Dès que le premier synthétiseur des laboratoires
Haskins a été au point, que les tests de parole artificielle résultant de la reconversion
de spectrogrammes “naturels” ont été satisfaisants, le travail de défrichement
a visé à répondre à cette question. Les nombreux formants ont été successivement
couverts (un à un, puis en groupes) et les résultats de ces omissions ont été soumis à
l'identification linguistique par l'oreille (11, 12, 13, 18). Il est vite ressorti de cela qu'en
dehors de quelques sons turbulents — surtout les frictions et explosions de dentales et
alvéolaires — les trois formants les plus bas, souvent même les deux formants les plus
bas, comprenaient tous les principaux traits pertinents. Partis de là, on a cherché
jusqu'à quel point la peinture de spectrogrammes au pinceau permettait de simplifier
l'aspect visuel, encore assez complexe, des deux ou trois premiers (plus bas) formants
du spectre naturel, sans perdre l'intelligibilité du son issu de la machine. On a aussi
poussé la simplification jusqu'à la perte partielle de l'intelligibilité. Ainsi, en remplaçant
successivement les sinuosités de chacun des trois formants pertinents par des
lignes droites, on a simulé, pour l'oreille, l'effet d'un raidissement de mâchoire (F1),
ou l'effet d'un raidissement de la langue (F2). En ralentissant la machine, ou inversement
(ce qui ne change pas la fondamentale), on a fait partiellement changer les modes
d'articulation: telle consonne sourde devenait sonore, telle explosive devenait fricative
ou semi-voyelle, telle liquide ou semi-voyelle devenait voyelle ou diphtongue. En
variant au pinceau la fréquence des ondes turbulentes et la direction des transitions
de F2 et F3, on a surtout fait changer les lieux d'articulation. En général, en manipulant
tous les aspects imaginables du spectrogramme, on a pu isoler des indices
acoustiques et percevoir les limites dans lesquelles on peut faire varier leurs dimensions
pour spécifier leurs rôles individuels dans la perception.

Explosives, ou occlusives orales

En tant que classe de consonnes, les occlusives se distinguent surtout par le degré
d'interruption du son buccal (tenue), par la brièveté du son turbulent intense (explosion)
qui suit, et par la rapidité des transitions qui mènent à la voyelle suivante ou
qui viennent de la voyelle précédente. C'est la classe qui a été le plus étudiée, probablement
parce qu'elle a paru la plus provocante. (Les fricatives ont paru si simples à
synthétiser qu'on s'en est peu soucié au début.)

Les explosions

Les explosions. La première expérience systématique, à l'aide de SP, a été organisée
256pour étudier les effets des explosions d'occlusives initiales sourdes (16). Les syllabes à
identifier sont composées d'une explosion synthétique suivie d'une voyelle synthétique
à deux formants droits de trois harmoniques par formant. Les explosions prennent la
forme visuelle d'ovales verticaux de 600 cps et 15 ms. On leur donne 12 fréquences
différentes (de 360 à 4320 cps) qui se combinent tour à tour avec chacune des 7 voyelles
cardinales [i e ɛ a ɔ o u] pour un total de 84 syllabes synthétiques. On a fait entendre
ces syllabes, enregistrées sur ruban magnétique en ordre de hasard, à 30 sujets non
phonéticiens en leur demandant de les identifier comme /p/, /t/ ou /k/. Les résultats
sont clairs: Les explosions hautes, en dessus de 3000 cps environ, sont identifiées
comme /t/, les autres, en dessous de 3000 cps, comme /k/ ou /p/ selon qu'elles sont
situées juste au dessus du début de F2 (/k/) ou ailleurs (/p/). L'examen des résultats
révèle aussi que l'effet de la fréquence de l'explosion n'est pas indépendant de la
voyelle: dans un cas tout spécialement frappant, une même explosion, d'une fréquence
de 1440 cps, est entendue comme /p/ quand elle est unie à [i] et comme /k/ quand elle
est unie à [a]. D'autre part des explosions de fréquences extrêmement différentes se
font entendre comme la même consonne. Donc, d'une part, un même son peut s'identifier
de deux manières différentes; d'autre part, deux sons fort différents peuvent
s'identifier de la même manière. Deux hypothèses se forment déjà, qui seront confirmées
dans des expériences ultérieures, a) Dans la parole, la plus petite unité acoustique
est la syllabe. b) S'il existe un “invariant” qui permette de distinguer un lieu
d'articulation consonantique d'un autre, il est plutôt dans le geste articulatoire que
dans le trait acoustique: la forme acoustique de la parole serait perçue, non directement,
mais indirectement par référence au geste articulatoire qui est le même pour
plusieurs valeurs acoustiques différentes.

Les explosions ont été étudiées par la synthèse dans deux autres travaux (51, 52).
Les explosions y sont jointes, non à des formants droits (voyelles à l'état stable),
comme dans l'expérience précédente, mais à des formants commençant par des
courbes de transition consonne-voyelle telles qu'on en voit sur les spectrogrammes.

Dans (52), on a une vaste étude de toutes les combinaisons appropriées de trois
variables: transitions de F2, transitions de F3, et explosions. Seule la voyelle américaine
[æ] est combinée à ces trois variables. En ce qui concerne les explosions, nous
trouvons là 294 modèles différents (patterns) de syllabes synthétiques identifiées par
26 sujets comme /b/, /d/, ou /g/: 7 fréquences d'explosion jointes à 7 courbes de
transition de F2 (7 x 7 = 49 syllabes), puis jointes aux 35 combinaisons de 5 transitions
de F3 avec 7 transitions de F2 (35 x 7 = 245). (Une transition fixe de F1 est
toujours présente sous une forme qui rend les syllabes sonores.) Ces 294 modèles
de syllabes avec explosion peuvent se comparer avec les modèles sans explosion. Les
résultats sont entièrement d'accord avec l'expérience de (16) mais vont plus loin: les
explosions de haute fréquence favorisent les jugements de /d/, celles de basse fréquence,
sauf la plus basse des 7, les /g/, d'abord (en descendant) aux dépens des /d/,
puis aux dépens des /b/. Les meilleurs /g/ ont l'explosion juste au dessus de la transition
(cf. 16). Enfin la fréquence la plus basse, qui ne favorise ni les /d/ ni les /g/, ne
257favorise que très peu les /b/. De cela il ne faut pas conclure que la perception du lieu
d'articulation labial dépend seulement des transitions — nous savons qu'en l'absence
des transitions, certaines fréquences d'explosion font fort bien percevoir le lieu
d'articulation labial (16). On doit simplement conclure que, dans la perception du
lieu d'articulation labial, le rôle des explosions est sans doute bien moins important
que celui des transitions.

Au total les effets des explosions sont faibles comparés à ceux des transitions, pour
les trois consonnes, et cela malgré le fait que les explosions de ces expériences sont
probablement plus concentrées en fréquence que dans la parole naturelle. Mais
n'oublions pas que seule la voyelle [æ] a été employée. Avec une voyelle arrondie, le
rôle des explosions dans la perception du lieu d'articulation serait probablement
beaucoup plus fort.

On trouve quelques données sur les explosions, du point de vue du mode d'articulation,
dans une étude sur les affriquées (51). L'une des distinctions entre la classe des
affriquées et la classe des explosives étant dans la durée du son turbulent, il semble que
la consonne est identifiée comme explosive (et non plus affriquée) à partir d'une
durée maxima de 30 ms. Cette étude est faite par recollage aussi bien que par
synthèse.

La première expérience importante par recollage (19) a voulu vérifier les résultats
de (16) dans la parole naturelle. La vérification a été positive. Les bandes magnétiques
des syllabes [ki], [ka], [ku], ont été coupées juste après l'explosion, puis les portions
coupées ont été recollées à des voyelles [i], [a], [u], sans transitions. Entre autres
résultats, l'explosion de [ka], jointe à [i], est identifiée comme /pi/ par 93 pour cent
des sujets, et jointe à [u], comme /pu/ par 99 pour cent des sujets. Nous avons donc,
de même que dans l'expérience synthétique (16), une même explosion entendue comme
/k/ ou /p/ selon qu'elle est unie à [a] ou à [i].

On trouve d'autres recollages d'explosives (et autres consonnes) dans une étude qui
met littéralement à l'épreuve le principe de commutation (36), et les résultats sont du
même genre que dans (16). Chaque fois que la voyelle qui suit un élément consonantique
fixe est changée, la perception de la consonne change aussi. D'ailleurs les
résultats de toute commutation par recollage sont prévisibles d'après ce que l'on sait
maintenant sur les transitions.

Dans une analyse détaillée des explosives sourdes et sonores du danois (23), on
trouve toute la complexité des données que fournit typiquement l'analyse au sujet
des intensités, durées, et diverses concentrations d'énergie sur l'échelle des fréquences,
pour les explosives /p t k b d g/ devant toutes les voyelles danoises. Combien de ces
traits sont distinctifs? Seule l'épreuve de la reconversion synthétique en son pourrait le
déterminer. (Ainsi le fait que l'explosion du /p/ n'est pas concentrée en fréquence mais
s'étend sur presque toute l'étendue en fréquence du spectre ne veut pas nécessairement
dire qu'elle n'a pas de rôle dans la distinction des lieux d'articulation. La synthèse
pourrait montrer que certaines portions — différentes selon les voyelles — de cette
haute étendue de bruit en fréquence jouent un tel rôle.) En général, les hypothèses,
258présentées dans la conclusion de cette étude, sur le rôle des explosions et transitions
dans la perception des occlusives, ne sont pas d'accord avec les résultats ultérieurs
obtenus par la synthèse (21, 26, 52). Mais notons aussi que les “spéculations” de (11,
13), elles non plus, ne sont pas d'accord avec les résultats ultérieurs de (21, 26, 52).
A cette époque, ni le principe du Locus de F2, ni le rôle des transitions de F3
n'étaient encore connus.

Deux études, qui comparent les occlusives finales, quand elles sont privées de leur
détente et quand elles ne le sont pas, arrivent à des résultats comparables. Dans l'une
(37), l'omission de la détente est simulée par le sujet, qui enregistre sans rouvrir la
bouche; dans l'autre (45), la syllabe est d'abord enregistrée avec détente, puis la
détente est coupée. (Le lecteur se rend compte qu'en coupant la détente d'une consonne
finale, on la prive de l'explosion, ainsi que des embryons de transition qui
peuvent suivre l'explosion, et qu'il ne reste, pour percevoir le lieu d'articulation, que
les transitions implosives qui précèdent la tenue.) Les résultats les plus intéressants
sont ceux qui montrent, dans les deux études, que les consonnes qui souffrent le plus
de l'absence d'explosion sont /k g/ devant [u] (devant les voyelles postérieures arrondies,
en général). Ce résultat indique que la perception du lieu d'articulation de
/k g/ devant voyelles postérieures arrondies dépend beaucoup de l'explosion et peu des
transitions. D'ailleurs le fait était à prévoir: pour /k g/, la transition de F2 devant
[o u] se dirige, non pas vers le Locus vélaire, mais vers le Locus labial; une fois [uk]
privé de son explosion, c'est [up] ou [u] qui devrait s'entendre — et c'est ce qui arrive
dans les tests perceptuels de (37, 45). Dans les tests de (37), c'est, en plus, après /l/
sombre et /r/ sombre que /k/, privé d'explosion, est mal perçu; or les formants 1 et
2 de /l/ et /r/ sombres sont tout proches de ceux de [o].

L'étude (45) examine encore les explosions par l'analyse et le filtrage. On y établit
(mais de façon incertaine) que les explosions isolées de leur contexte sont identifiables.
Puis, sur la base des intensités-fréquences des explosions de /p t k b d g/ après et avant
six voyelles représentatives des diverses positions articulatoires, on s'efforce de
découvrir, par filtrage, deux paires de traits binaires qui permettraient leur identification
à l'état isolé. Ces deux paires de traits distinctifs passeraient-ils l'épreuve de la
synthèse? Quoi qu'il en soit, on trouve dans cet article des données spectrales précieuses
sur les explosions, et en gros, ces données sont d'accord avec les résultats
obtenus par la synthèse (16, 52): pour /t d/, les fréquences sont hautes; pour /p b/ elles
sont basses; et pour /k g/, elles sont intermédiaires mais dans une très grande marge
de fréquences parce qu'elles suivent les transitions de F2, qui varient d'environ 3000
cps à 600 cps.

Les transitions d'occlusives

Les transitions d'occlusives. Jusqu'ici, on n'a trouvé d'indices acoustiques que dans
les trois premiers formants. Pour abréger, appelons leurs transitions T1, T2, et T3.
Les indices trouvés pour T2 et T3 se rapportent presque entièrement au lieu d'articulation
(comme la fréquence des explosions). Les indices trouvés pour T1, au contraire,
se rapportent aux modes d'articulation: distinction entre classes de consonnes;
distinction entre sourdes et sonores.259

T1: Très tôt, il a été observé, par l'analyse des spectrogrammes, que F1 est d'autant
plus haut (fréquence) que les voies buccales sont plus ouvertes (2, 8). Appliqué aux
consonnes, cela indiquerait que plus la consonne sonore est ouverte, plus T1 devrait
commencer haut. Mais aucune investigation systématique de cette corrélation n'a été
faite pour les consonnes, et il nous faudra réunir des idées éparses dans les diverses
études.

Dans les recherches sur T2 (21, 52) et T3 (52), pour obtenir des occlusives sonores,
il a fallu que T1, assez rapide, commence aussi bas que possible (nous ne savons pas si
cela correspond effectivement à zéro cps ou à 120 cps — la fondamentale de SP).
Dans (21), pour obtenir des occlusives nasales, on a dû faire partir T1, semble-t-il, de
la fréquence de FN1 (le plus bas formant de tenue nasale — vers 250 cps) et joindre
verticalement le point de départ à la voyelle contiguë, ce qui fait paraître, visuellement,
que T1 est droit et part du niveau même de la voyelle contiguë. Dans l'étude du
Locus de F1 pour les explosives (26), les variations de fréquence de F1 droit, combinées
à F2 courbé, indiquent que le point de départ le plus bas, pour T1, est le meilleur
pour les explosives, et que, à mesure que ce point monte en fréquence, on se
rapproche de la perception des classes de consonnes plus ouvertes. L'examen des
spectrogrammes de fricatives indique, en général, pour T1, un départ moins bas
que chez les explosives. Quant aux liquides et semi-voyelles initiales, on trouve,
dans (49), que leurs T1 doivent partir d'assez haut — près de 400 cps en moyenne — si
l'on veut éviter toute perception d'occlusive.

On voit qu'il reste beaucoup à faire pour préciser le rôle de T1 dans la distinction
des classes de consonnes.

La vitesse de transition et la durée de T1 contribuent aussi à des distinctions de
classe. Ces deux facteurs, variés à la fois pour T1 et T2 (33), ont permis de distinguer
entre les trois classes suivantes: voyelles, semi-voyelles, explosives sonores. Par
changement de durée-vitesse de T1-T2, /u/ est passé à /w/, puis à /b/; /i/ est passé
à /j/, puis à /g/; et si l'on avait eu des sujets français pour faire les identifications on
aurait sans doute trouvé que, par les variations des mêmes facteurs, /y/ peut passer à
/ɥ/, puis à /d/. Le changement de semi-voyelle à consonne est plus net que celui de
semi-voyelle à voyelle. Le changement de /b/ à /w/ se fait quand la transition a une
durée d'environ 40 ms; celle de /g/ à /j/, 50 à 60 ms.

La forme implosive de T1-T2, et leur forme explosive, sont présentées comme contribuant
à la perception du point de coupe syllabique (respectivement après ou avant
la consonne) dans (35). L'investigation est faite par synthèse.

Enfin nous verrons plus loin que certaines dimensions de T1 semblent contribuer à
la distinction entre /p t k/ et /b d g/ communément appelée sourde-sonore (32).

T2. Pour une durée assez courte (ou une vitesse assez rapide), les T2 sont sans doute
les plus puissants indices de distinction entre les lieux d'articulation. Excepté chez /k/
devant voyelle arrondie, ils sont plus effectifs que les explosions, ce qui est compréhensible,
car ils ont, comme les formants vocaliques, une beaucoup plus grande audibilité
que les bruits sourds d'explosion. La durée de T2, chez les explosives, est en moyenne
260de 50 ms, mais elle tend à être plus courte que cela chez les labiales et plus longue chez
les dentales devant voyelles postérieures.

Les dimensions de T2 qui contribuent à l'identification du lieu d'articulation sont
a) sa direction, dite positive si elle atteint plus haut que F2 de la voyelle, et négative si
elle atteint plus bas; b) la différence de fréquence entre son début et le moment où elle
rejoint F2 de la voyelle (cette dimension est généralement donnée, dans les travaux
de Haskins, par un multiple de 120 cps — ainsi une transition de -3 atteint une fréquence
de 360 cps en dessous du formant correspondant de la voyelle.

Une vaste étude de T2 par la synthèse (21) a suivi de peu l'étude (16) des explosions.
Elle comprenait 11 variations de T2, jointes chacune à 7 voyelles cardinales [i e ɛ a ɔ
o u], et ceci répété pour les occlusives sourdes, sonores, et nasales, pour un total de
231 modèles de spectrogrammes artificiels, reconvertis en son, et identifiés par
33 sujets. Aucune explosion n'était employée dans ces modèles. La sonorité était
obtenue en faisant partir T1 de zéro (ou 120 cps), la surdité en supprimant le début
de T1, et la nasalité en faisant partir T1 du niveau de F1 et en ajoutant trois formants
nasals dans la tenue.

Les résultats, fort complexes, montrent un T2 différent, non seulement pour chaque
lieu d'articulation, mais pour chaque voyelle combinée à chaque lieu d'articulation.
Par ailleurs, les résultats pour nasales sont fort semblables à ceux des sonores et des
sourdes.

Locus

Locus. Dans la recherche d'un invariant par lieu d'articulation, on a remarqué que
toutes les T2 perçues labiales convergeaient virtuellement vers une fréquence basse
(quelle que soit la voyelle de la syllabe), toutes les T2 perçues dentales (ou alvéolaires)
vers une fréquence intermédiaire, et toutes les T2 perçues vélaires (ou palato-vélaires)
vers une fréquence haute. (Cela laissait une petite région d'ambiguïté car devant les
voyelles postérieures arrondies [ɔ o u], aucune T2 n'était perçue clairement vélaire —
problème qui a été résolu depuis.) On a donné le nom de Locus à ce point de convergence
virtuel des transitions qui ont perceptuellement un même lieu d'articulation.

La spécification, en fréquence, du Locus a fait l'objet d'une longue recherche par la
synthèse. Le Locus corrélatif à chaque lieu d'articulation a été déterminé, non par
extrapolation de courbes de T2, mais par variation de formants droits, évitant ainsi
l'erreur que pourraient occasionner les courbes: en faisant varier, du haut en bas de
l'échelle des fréquences un F2 droit (T2 zéro) combiné à un T1 fixe, courbé à souhait
pour produire une explosive sonore, on a obtenu un /g/ quand F2 droit était à 3000
cps; puis, en abaissant la fréquence de F2 droit, le /g/ s'est perdu et le /d/ a commencé
à s'entendre pour arriver à son maximum de perceptibilité à 1800 cps; en continuant
à abaisser la fréquence de F2 droit, le /d/ s'est perdu et le /b/ s'est fait entendre pour
arriver à son maximum vers 700 cps. Ensuite il a fallu déterminer la durée qui sépare
l'extrémité des T2 de leurs Locus respectifs. Cela s'est fait par des coupes successives
de transitions partant du Locus même. On est arrivé à la durée moyenne de 50 ms. Le
Locus, ainsi spécifié, fournit un invariant pratique par lieu d'articulation. Il permet de
définir une transition d'occlusive sans référence à la voyelle de la syllabe. Toute T2
261d'occlusive peut se décrire comme ayant une durée d'environ 50 ms et se dirigeant vers
le Locus du lieu d'articulation qu'elle fait percevoir par une ligne virtuelle qui l'atteindrait
en 50 ms. Les différences de fréquence entre les extrémités réelles des transitions
qui sont perçues par un même heu d'articulation sont évidemment dues à l'anticipation
articulatoire de la voyelle contiguë à la consonne. (La corrélation articulatoire des
trois Locus, ainsi que la non application du Locus vélaire aux voyelles arrondies, ont
été clairement établies sur rayons-X cinématographiés, mais nous n'avons pas ici la
place de traiter les corrélations physiologiques des indices acoustiques.)

Des recherches en cours indiquent que les occlusives vélaires devant voyelles
arrondies, dans la parole naturelle, ont leur principal indice acoustique de lieu d'articulation
dans la fréquence de l'explosion. Si, dans la parole naturelle, T2 d'une syllabe
comme [go] ne se dirige pas vers le haut Locus vélaire, c'est à cause de l'arrondissement
qui maintient très basse la fréquence du début de la transition. Mais dans la
parole artificielle, on peut obtenir un [go] sans peindre d'explosion, seulement par des
T2 positives, dirigées vers le Locus vélaire de 3000 cps et assez longues pour dépasser
le niveau du Locus dental de 1800 cps.

Dans (22) on trouvera une présentation du concept du Locus tel qu'il a été compris
personnellement par un visiteur aux laboratoires Haskins. Mais disons ici que l'hypothèse
donnant au Locus la fréquence du résonateur buccal avant l'explosion de la
consonne n'a plus cours.

Un Analogue électrique des cavités buccales a essayé de vérifier le concept du
Locus (42). Cet analogue simule trois variables articulatoires au moyen desquels il
produit synthétiquement des sons soutenus (genre voyelles): le point de constriction
linguale, le degré de constriction linguale, et le degré et la longueur de constriction
labiale. Il ne produit donc pas de consonnes, mais on peut quand même l'utiliser pour
l'étude des consonnes en observant sur les spectrogrammes successifs les effets de
chaque ajustement de variable. Les résultats ainsi obtenus pour les transitions de
/b d g/ sont à peu près d'accord avec les Locus respectifs, à condition de comprendre
que, tout au cours de l'étude, le terme “Locus” a été confondu avec “début de transition”.
Rien d'extraordinaire à ce que les débuts de transition (et non les Locus)
varient par anticipation de la voyelle — anticipation dont on a tenu compte mais qu'on
a supposée (dans (42)) bien plus marquée qu'elle ne l'est, surtout pour /b/, d'après les
radiogrammes cinématographiques de l'articulation de /b d g/.

Notons, avant de quitter le sujet, que la notion de Locus ne s'appliquera pas seulement
aux transitions d'occlusives, mais peut-être aux transitions de toutes les consonnes.
Il semble bien que les /f/ ont le même Locus que les /p/, les /s/ que les /t/,
etc., ou en tout cas à peu de chose près.

Dans (52), nommé déjà pour les explosions, les variations de T2 sont étudiées très
soigneusement, ainsi que leurs combinaisons avec des variations de T3, ou d'explosions,
ou des deux. Devant la voyelle [æ], et T1 fixe étant peint de façon à produire
des occlusives sonores, 7 variations de T2 sont étudiées: -6, -4, -2,0, +2, +4, +6.
Ce sont les mêmes dimensions que dans (21) mais avec omission des transitions impaires,
262pour simplifier. Les résultats confirment entièrement ceux de (21). Les seules
transitions des deux premiers formants (ni explosions, ni T3) suffisent à distinguer
/b d g/ entre eux. C'est /b/ qui dépend le plus de T2 et /d/ qui en dépend le moins — /d/
dépend de T3 bien plus que les deux autres. Les jugements de /b/ sont à peu près de
100 pour cent à -6, -4, et -2, puis diminuent brusquement. A zéro /d/ atteint
presque 90 pc et à +2, presque 100 pc, puis /d/ diminue brusquement et fait place à /g/,
qui atteint 95 pc à +4, et 100 pc à +6.

Les résultats de l'étude de T2 par l'analyse concordent parfaitement avec ceux de la
synthèse, mais naturellement ils sont plus vagues — c'est précisément parce que les
spectrogrammes sont difficiles à lire, surtout dans les transitions, que la synthèse rend
de tels services.

Quatre études de T2 par l'analyse sont à noter.

Les remarques sur T2 abondent dans (1), où la notion du “hub” peut être considérée
comme un avant-poste de celle du Locus, bien qu'en réalité les deux notions diffèrent
considérablement.

Les analyses de T2 dans (3), déjà mentionnées dans l'introduction, prévoyaient
avec perspicacité le rôle que la synthèse allait confirmer et préciser.

On trouve dans (23) de bonnes analyses de T2 dans les explosives danoises, qui
indiquerait que le Locus des labiales danoises est moins bas que celui des labiales
anglo-américaines et latines.

Enfin, les analyses de T2 dans (23) confirment entièrement les résultats de (21, 26,
52) obtenus par la synthèse.

T3. Rien n'a encore été publié qui porte spécialement sur T3, mais nous pouvons
dire que les résultats d'une étude détaillée, en cours de publication, sont d'accord avec
ceux de (52) que nous résumons ci-dessous en notant pourtant qu'ils ne s'appliquent
qu'à la voyelle [æ].

Le problème de T3 est infiniment plus simple que celui de T2 puisque F3 a à peu
près la même fréquence pour toutes les voyelles (il est un peu plus haut pour un [i]
bien cardinal). En gros on peut dire que T3 est positive pour les dentales, et négative
pour les labiales et les vélaires. Parmi les T3 négatives, toutes contribuent aux labiales
plus qu'aux vélaires, et les moins basses contribuent plus aux vélaires que les plus
basses. La perception du lieu d'articulation dental doit beaucoup à T3 (avec certaines
voyelles, peut-être plus qu'à T2); celle du lieu d'articulation labial, moins; et celle du
lieu d'articulation vélaire encore moins (pour les labiales, c'est T2 qui domine, et
pour les vélaires c'est soit T2, soit l'explosion).

Dans (52), où d'une part 5 variations de T3 ( -4, -2,0, +2, +4), d'autre part 7
fréquences d'explosions, sont combinées à chacune des 7 variations de T2, on a
l'occasion de comparer les effets de T3 à ceux des explosions. En général, la contribution
de T3 est nettement plus grande que celle des explosions pour /d/ et /b/; pour
/g/, c'est l'inverse: la contribution des explosions est la plus grande.

D'après les remarques analytiques de (23), les T3 d'occlusives danoises diffèrent
quelque peu de ce qui précède. Quant aux analyses de (45), elles sont à peu près
263d'accord avec ce qui précède. (Mais on sait les difficultés qu'il y a à distinguer les
courbes de T3 sur les spectrogrammes.)

Les fricatives

Il a été établi dans (51) que les fricatives, en tant que classe de consonnes, se distinguent
en partie des affriquées et des explosives par la durée du bruit (son turbulent)
ainsi que par la rapidité avec laquelle l'intensité initiale de ce bruit croît. La durée du
bruit est relativement longue, et la vitesse de croissance de l'intensité relativement
lente, pour les fricatives (voir données aux Affriquées). Le rôle de la vitesse des transitions
dans la distinction de classe n'a pas été étudié systématiquement. Il est certain,
par exemple, qu'entre les transitions rapides de /b/ et les transitions lentes de /w/,
il existe un régime de transitions qui correspond à /v/, et il faudra déterminer là les
rôles respectifs de T1, T2, et T3. Dans cette même distinction des fricatives comme
classe, le rôle de la fréquence du début de T1 mérite aussi d'être étudié.

Quant aux indices qui permettent de distinguer entre les diverses fricatives, rien
n'ayant paru, nous ne donnerons que de vagues indications, hypothétiques, en partie
basées sur une communication dont l'abstrait est dans JAS, 26, 952. D'après la
synthèse, ces indices se trouvent dans les transitions supérieures (T2, T3), et dans les
bruits de friction.

Les rôles de T2 et T3 dans la perception du lieu d'articulation sont sans doute
comparables à ceux des occlusives, mais l'étude systématique n'en a pas été faite.
T2 et T3 devraient donc pouvoir se décrire par les Locus corrélatifs aux lieux d'articulation,
mais il faut s'attendre à ce qu'elles jouent un rôle moins important dans les
fricatives que dans les occlusives car les bruits de friction sont plus audibles que les
bruits d'explosion.

Il faut peut-être diviser les fricatives en trois sous-classes qui se distingueraient
entre elles par l'intensité de la friction, l'étendue en fréquence de la friction, et les
transitions: /s ʃ/ auraient une forte intensité et une étendue moyenne; /θ f/ une faible
intensité et une grande étendue (presque toute la fréquence du spectre sur les spectrogrammes
Kay); /ç χ/ une intensité moyenne et une étendue étroite. Le rôle des
transitions ne doit pas être négligeable car, à la synthèse, une même friction (ambiguë
vers 3500 cps) s'entend comme /s/ ou /ç/ selon qu'on la relie à la voyelle par une T3
(positive-dentale) ou par une T2 (positive — palato-vélaire).

A l'intérieur de ces trois classes, les distinctions sont simples: /s/ se distingue de /ʃ/
principalement par la fréquence de la friction (/s/ descend environ jusqu'à 3500 cps,
/ʃ/ jusqu'à 2000); /θ/ se distingue de /f/ principalement par les transitions (ils ont à peu
près, /θ/ le Locus dental, /f/ le Locus labial); /ç/ se distingue de /χ/ par les deux —
fréquence de friction, et transitions.

La fricative /h/ serait caractérisée par un bref son turbulent à la fréquence de F2 (et
peut-être F3) de la voyelle contiguë — donc par l'absence de transitions et l'absence
de F1. La glotte étant grande ouverte, la friction pertinente pour /h/ serait celle qui
264résonne dans la cavité qui est antérieure au point de constriction vocalique. Ceci,
contrairement aux voyelles chuchotées, qui résonneraient dans toutes les cavités
supérieures à la glotte, le point de constriction qui produit le son turbulent étant aux
cordes vocales mêmes — c'est pourquoi elles posséderaient un F1, bien que sourdes.

Un travail par l'analyse et le filtrage est à citer (31). On y étudie les spectres de
frictions isolées de /f s ʃ/ et des sonores correspondantes, en toutes positions et prononcées
par des sujets variés. Les résultats confirment ce qui a été dit plus haut sur la
distinction entre /s/ et /ʃ/ par la différence de fréquence de la friction. Ils apportent un
facteur nouveau: /f/ aurait fréquemment — mais pas toujours — une concentration
d'énergie très élevée, aux environs de 8000 cps. Ceci est à vérifier par le premier
synthétiseur qui atteindra cette fréquence.

Les affriquées

Dans l'étude (51), déjà mentionnée, on examine les affriquées du point de vue du
mode d'articulation: ce qui les distingue des fricatives et des explosives dans le son
turbulent, en dehors du fait que les affriquées ont, comme les explosives, une interruption
(occlusion buccale complète) que n'ont pas les fricatives.

On trouve deux indices acoustiques: la durée du bruit, et la rapidité de croissance
de l'intensité du bruit (mesurée par la durée de la période pendant laquelle l'intensité
croît, au début du bruit — appelons-la: durée de croissance).

En gros, comparé au bruit des fricatives, le bruit des affriquées est (après interruption)
plus court en durée totale et plus court en durée de croissance. Comparé aux
explosives, le bruit des affriquées est plus long en durée totale. Pour des valeurs
moyennes de durée de croissance, on perçoit des fricatives sourdes quand le bruit total
dure au moins 110 ms, des affriquées sourdes quand le bruit total dure au moins 50 ms,
et des explosives sourdes quand le bruit total dure au plus 30 ms.

Les indices de lieu d'articulation des affriquées n'ont pas été étudiés systématiquement,
mais il est clair qu'ils se trouveront, comme pour les fricatives et les explosives:
d'abord dans les transitions (Locus) puis dans la fréquence des bruits de friction. Il est
probable que l'intensité du bruit et l'étendue de sa fréquence entreront enjeu.

Les occlusives nasales

Nous classons les consonnes nasales /m n ŋ/ parmi les occlusives parce qu'elles
partagent avec les explosives (occlusives orales) la forme (vitesse) et la direction des
T2 et T3. De plus, la fermeture nasale extérieure n'empêche pas leur production;
l'ouverture extérieure des narines, d'ailleurs très petite, n'est donc pas pertinente — ce
qui est pertinent ce sont les occlusions buccales, et la communication des cavités
nasales avec les cavités buccales par l'abaissement du voile du palais.

Les indices acoustiques de mode d'articulation, aussi bien que de lieu, ressortent
assez bien de l'étude (21), faite par la synthèse.265

Mode

Mode. Les occlusives nasales se distinguent des occlusives orales a) par la forme de
T1, qui semble partir du niveau de FN1 (environ 250 cps) et passer verticalement à
celui de la voyelle contiguë, au lieu de partir de zéro ou 120, comme pour les occlusives
orales sonores; et b) par les formants nasals de la tenue — qui remplacent le silence
complet des occlusives orales sourdes, ou le ton très bas des occlusives orales sonores
(qui correspond à la fondamentale et parfois un peu au deuxième harmonique entendus
à travers les parois buccales et pharyngiennes). Dans les expériences de (21), les
formants de la tenue nasale étaient les mêmes pour les trois consonnes /m n ŋ/, des
recherches exploratoires ayant indiqué qu'ils ne jouaient qu'un rôle très faible dans la
distinction des lieux d'articulation. Ils étaient aux fréquences de 240 cps, 1020 cps et
2460 cps. Les deux plus hauts de ces trois formants nasals étaient d'intensité extrêmement
faible (environ 15 db de moins que ceux d'une voyelle normale à la même
fréquence) et contribuaient très peu à la nasalité de la consonne. Le premier formant
nasal, à 240 cps, était seulement un peu plus faible que celui d'une voyelle normale (environ
6 db de moins) et avait un puissant effet perceptuel de nasalisation. Il apparaît
donc que le mode nasal des consonnes dépend de la forme de T1, d'un formant de
tenue dans les 250 cps, et des formes de T2 et T3 semblables à celles des explosives de
même lieu d'articulation. (L'importance du formant nasal d'environ 250 cps a été
signalée pour la première fois dans (20).)

Lieu d'articulation

Lieu d'articulation. a) Le rôle des transitions, défini par les Locus corrélatifs aux
lieux d'articulation, est le même que pour les explosives. Il est très fort mais il n'est pas
unique. b) La fréquence des formants de tenue nasale supérieurs à celui de 250 cps joue
aussi un rôle dans la perception du lieu d'articulation — faible, mais certain. Des
recherches par synthèse, ultérieures à (21), indiquent que la perception du lieu d'articulation
labial est favorisé par la présence dans la tenue d'un F2 faible entre 1000 et
1500 cps, et par l'absence, ou la faiblesse de F3; la perception des lieux d'articulation
dentals et vélaires, par la présence dans la tenue, d'un F3 aux environs de 2300 (en
plus de F2). On n'a pas trouvé jusqu'ici d'indice clair de distinction entre dentale et
vélaire dans les formants de tenue nasale.

On a beaucoup étudié le rôle des formants de tenue nasale par la technique du
recollage. Dans (39), on a inclus, non seulement des interversions de tenue nasale
avec les transitions qui suivent pour les trois consonnes /m n ŋ/, mais encore des
interversions de tenue nasale avec les transitions qui suivent l'explosion des explosives
sonores orales /b d g/. Les résultats confirment que l'indice du lieu d'articulation est
presque entièrement dans les transitions; les tenues de nasales ont un rôle presque
négligeable à l'initiale, et un peu plus apparent, mais encore très faible, à la finale.

On s'est aussi servi de l'Analogue électrique de la bouche (50) pour produire synthétiquement
les sons de tenue des trois consonnes nasales /m n ŋ/. La distinction des
lieux d'articulation a été perçue (81 pc, 61 pc, 62 pc respectivement pour /m n ŋ/) —
mieux perçue que les segments de tenue des nasales humaines de (39): (96 pc, 36 pc,
12 pc). Il faut dire que pour (50), les jugements avaient été faits par 9 sujets entraînés;
pour (39) par 50 sujets non entraînés. L'analyse spectrale du son de tenue nasale
266produit par l'Analogue confirme l'importance de F2 pour distinguer /m/ des deux
autres, et indique une possibilité de distinguer /n/ de /ŋ/ par un formant au dessus
de 3000 cps.

Les liquides et semi-voyelles

Les /w j r l/ américains ayant certaines similarités spectrales de résonance, qui reflètent
leur degré d'aperture articulatoire (en moyenne plus grand que chez les occlusives, les
affriquées et les fricatives), on les a étudiés ensemble en position initiale (49). Le /r/
dont il s'agit ici est une rétroflexe apicale et palatale continue (sans battements).

Mode

Mode. Ces quatre consonnes semblent avoir acoustiquement en commun, pour se
distinguer des autres consonnes: a) Pendant la tenue, un F1 de fréquence relativement
haute (près de 400 cps de moyenne), qui les distingue surtout des nasales dont le bas
formant de tenue ne peut pas dépasser 250 cps. b) Pendant la tenue, des formants
supérieurs à F1, d'intensité plus grande que ceux de la tenue nasale mais plus faibles
que ceux des voyelles. c) Des transitions en continuité avec les formants de tenue (les
transitions des nasales peuvent être en discontinuité avec les formants de tenue).
d) Une lenteur relative des transitions (en moyenne environ 100 cps, tandis que les
transitions d'occlusives ont en moyenne 50 cps).

Lieu

Lieu. Ces quatre consonnes se distinguent les unes des autres par la fréquence des
formants de tenue supérieurs à F1, et les transitions allant de la tenue consonantique
à la tenue de la voyelle contiguë. Les transitions peuvent se décrire par un Locus qui
serait leur point virtuel de convergence corrélatif à un même lieu d'articulation.
a) /w/ se distingue de /r :/ et de /j/ par le Locus de T2, qui est bas pour /w/ (environ
700 cps), moyen pour /r l/ (environ 1100 pour /r/ palatal, 1300 pour /l/ alvéolaire) et
haut pour /j/ (environ 2700). b) /r/ et /l/ se distinguent entre eux par le Locus de T3,
qui est relativement bas pour /r/ (environ 1500 cps) et haut pour /l/ (environ 2500 cps).
T3 n'a pas d'effet notable pour /w/ et /j/. On peut ajouter trois divergences mineures
qui contribuent sans doute aussi à la distinction entre ces quatre consonnes: c) Une
durée de transition de 100 ms est acceptable pour les quatre, mais une durée un peu
plus courte favorise /l/ contre /r/, et une durée un peu plus longue favorise /r/ contre /l/.
d) Les formants de tenue sont moins indispensables chez les semi-voyelles que chez les
liquides; et leur durée moyenne est plus courte chez les semi-voyelles (30 ms) que chez
les liquides (60 ms). e) /j/ est amélioré par de la friction à une fréquence appropriée,
ce qui n'est pas le cas des trois autres consonnes. Cela rapproche /j/ de la classe des
fricatives, classe à laquelle il appartient s'il n'est autre que la sonore de /ç/.

Les consonnes syllabiques

Aucune étude systématique n'a encore paru. Des travaux en cours, par la synthèse,
étudient la réduction d'intensité de F2, et la forme implosive des transitions qui
précèdent, comme indices de modes d'articulation qui distingueront entre les consonnes
267/l r m n ŋ/ en position syllabique et les voyelles qui ont leurs formants presque
aux mêmes fréquences: ainsi, [mɛd-l] se distingue de [mɛdo] par ces deux indices.

Les mêmes travaux étudient les fréquences de formants comme indices acoustiques
de distinction entre les diverses consonnes syllabiques.

Sourdes et sonores

A mesure qu'on découvre de nouveaux facteurs acoustiques du dit “voisement” ou
de la dite “sonorité” des consonnes, la présence de la fondamentale (premier harmonique
du spectre de la vibration des cordes vocales), qui est à l'origine de ces termes,
prend une plus petite place et on arrive prudemment à remplacer les termes “distinction
sourde-sonore” par “distinction du type p-b!”. D'après (23), en effet, la
distinction /p b/ ne peut pas dépendre de la présence ou absence de vibrations des
cordes vocales puisqu'elles ne vibrent ni pour l'un ni pour l'autre. Nous conserverons
cependant, ici, la terminologie “sourde-sonore” — arbitrairement, ou dans le sens
perceptuel.

a) La marque de sonorité qui est généralement présente sur les spectrogrammes
pendant la tenue des occlusives sonores est appelée dans (1): “barre de voix” (voice
bar). Avec filtrage large à 300 cps, c'est la représentation de la fondamentale, à laquelle
il s'ajoute une plus ou moins forte intensité du second harmonique, selon les
sujets. La contribution de cette barre de voix à la perception de la sonorité a été
amplement confirmée par la synthèse: ainsi, dans (52), afin que les syllabes [ba da ga]
soient bien perçues “sonores” on a fait précéder les transitions d'un trait au niveau du
premier harmonique faisant entendre la fondamentale pendant 60 ms. Mais on peut,
dans la synthèse, faire percevoir la sonorité par plusieurs autres facteurs, en l'absence
de la fondamentale. On peut aussi le faire par recollage: dans (48), quand on remplace
la tenue du /b/ de “Ruby” (qui contient la fondamentale) par un bout vierge de bande
magnétique de même durée, on entend toujours “Ruby” plutôt que “Rupee” (oreilles
anglo-saxonnes et latines). Pour perdre la sonorité perceptuelle, il ne suffit pas
d'omettre la fondamentale, il faut, en plus, faire d'autres changements — par exemple,
allonger le silence de la tenue (voir plus bas à /g/).

b) Chez les fricatives — qui gardent une certaine ouverture buccale pendant la tenue
— le voisement peut comprendre, en plus de la barre de voix, une voyelle neutre, de
basse intensité, parallèlement à la friction. La contribution de ce facteur est confirmée
par la synthèse.

c) La simple présence de T1 semble contribuer très fort à la perception de la sonorité,
et inversement. Dans (21), déjà, les occlusives sourdes étaient produites synthétiquement
avec T1 très réduit. Des travaux en cours étudient la suppression de T1
comme facteur de surdité en positions initiale, implosive intervocalique ou de détente,
explosive intervocalique ou de détente.

d) L'aspiration, c'est-à-dire acoustiquement: l'omission de T1 et la présence de son
turbulent (inharmonique) au lieu de son périodique (harmonique) dans les 50 ou 60
268premiers ms de T2 et T3, contribue nettement à la perception de la surdité. Noter que
si T1 aussi a du son turbulent, il n'y a plus guère d'effet de surdité: sans doute parce
qu'on a alors dans les 60 premiers ms, non plus de l'aspiration, mais de la voyelle
chuchotée. L'aspiration serait donc semblable à la consonne /h/, et, comme /h/,
s'articulerait la glotte grande ouverte, seules les résonances des cavités antérieures à la
constriction vocalique étant alors perceptuellement effectives; au contraire, la voyelle
chuchotée ayant tous les formants de la voyelle non chuchotée, y compris F1, sa
constriction serait à la glotte, et toutes les cavités antérieures à la glotte seraient
perceptuellement effectives.

e) La vitesse de transition de T1 a été étudiée dans (32), où une durée de T1 de
20 ms, ou un peu moins fait percevoir les occlusives comme sourdes, et une durée
de 50 ms ou un peu plus les fait percevoir comme sonores.

f) La présence de T3 contribue légèrement à la surdité. Ainsi, c'est parce que les
modèles spectrographiques artificiels de /b d g/, employés pour étudier les variations
de T2 dans (21), n'avaient pas de T3 qu'il n'a pas été nécessaire d'ajouter une fondamentale;
inversement, c'est parce que les modèles employés dans (52) avaient des T3
qu'il a fallu ajouter une fondamentale.

g) La durée relative de la tenue des consonnes intervocaliques (ou finales avec
détente vocalique) est un facteur très puissant. Dans (48), on a étudié par recollage de
parole naturelle, les variations de durée de l'interruption buccale (tenue) des explosives:
“Ruby” a passé à “Rupee” entre 60 et 100 ms de tenue, sans fondamentale,
et entre 80 et 120 ms de tenue, avec fondamentale. Dans (27), on peut voir, entre
autres choses, l'effet de la durée de la friction (tenue des fricatives). Ainsi, pour une
durée fixe de la voyelle d'une syllabe VC, les jugements passent de 100 pc /juz/ à 70 pc
/jus/ quand la durée de la friction passe de 50 à 250 ms.

h) L'intensité relative du bruit est aussi un facteur de la surdité. Dans (16), les
syllabes synthétiques faites de la combinaison d'une explosion et d'une voyelle sans
transitions étaient entendues sourdes. Dans (52), la présence d'explosions dans des
syllabes qu'on voulait rendre sonores pour des oreilles américaines a obligé à compenser
par l'addition d'une fondamentale, suivie d'une lenteur relative de T1. Dans
(27), les variations d'intensité du bruit de friction avaient une influence sur la perception
de la sonorité, mais elle était très faible.

i) L'influence de la durée de la voyelle relativement à la durée de la friction consonantique
suivante est le sujet principal de (27). La technique par synthèse permet de
combiner plusieurs durées de voyelles avec plusieurs durées de frictions, tout en
gardant fixes les facteurs de transitions. Les résultats sont clairs (mais ils ne s'appliquent
qu'aux fricatives): plus la durée relative de la voyelle est longue, plus la consonne
est perçue sonore. Ainsi, pour une certaine durée fixe de la friction, les jugements
passent de 100 pc /jus/ à 65 pc /juz/ quand la voyelle passe de 50 à 200 ms.

j) Notons enfin que dans une étude où les consonnes sont identifiées après distortion
par filtrage et par addition de bruit (24), les distinctions “sourde-sonore” et “orale-nasale”
résistent beaucoup mieux que les distinctions de lieux d'articulation.269

Les voyelles orales

L'étude systématique des voyelles orales par la synthèse a fait l'objet de deux articles:
(7, 15). Dans (7), on trouve les fréquences de formant nécessaires pour synthétiser les
16 principales voyelles cardinales au moyen de deux formants seulement. Ces 16
voyelles ont été choisies à l'oreille parmi 235 combinaisons appropriées de variations
de F2 pour F1 fixe et de F1 pour F2 fixe. Sur le diagramme des voyelles qui se forme
en portant les fréquences de F1 et F2 en abscisse et en ordonnée, il est curieux de
remarquer que [æ] est en ligne avec [i e ɛ], tandis que [a] est en ligne avec [y ø œ].

Dans (15), on établit les faits fondamentaux suivants:

a) Dans la synthèse, deux formants suffisent à bien caractériser le timbre des voyelles,
même des voyelles nasales.

b) Mais les voyelles humaines sont souvent identifiées par trois formants. Autrement
dit, dans la parole humaine, F3 joue un rôle dans l'identification de certaines voyelles,
voire toutes les voyelles qui ont un F2 de fréquence assez haute, c'est-à-dire qui ont F2
et F3 assez rapprochés. Ce sont en général les voyelles antérieures.

c) Dans la perception, il y a équivalence relative entre deux formants rapprochés et
un seul formant à une fréquence moyenne entre les deux. Ainsi les voyelles postérieures
sont identifiables au moyen d'un seul formant dont la fréquence est intermédiaire
entre F1 et F2 (F3 est très faible pour les voyelles postérieures, et ne contribue
guère qu'à leur “naturel”, étant aussi très loin de F2, en fréquence). De même
lorsque F2 et F3 sont rapprochés, comme dans les voyelles antérieures, la perception
de leur somme équivaut à peu près à la perception d'un seul formant dont la fréquence
serait intermédiaire entre F2 et F3.

d) Dans les voyelles synthétiques “antérieures” à deux formants, la fréquence de F2
est intermédiaire entre les fréquences de F2 et F3 des voyelles naturelles de même
timbre. Ainsi, le timbre du [i] naturel dont les formants sont à 250, 2500 et 3000 cps
se synthétise bien avec deux formants à 250 et 2750 cps environ. (Mais il va sans
dire qu'il se synthétise encore mieux avec trois formants aux mêmes fréquences que la
voyelle naturelle!)

e) Les formants en dessus de 3000 cps pour [i] et en dessus de 2500 cps pour les
autres voyelles n'ont guère de rôle dans la caractérisation linguistique des voyelles.
Ils contribuent surtout à la caractérisation du timbre de la voix individuelle.

f) Les variations individuelles d'intensité des formants ont deux effets différents
selon que les formants sont rapprochés ou éloignés (en fréquence). Si les deux formants
dont on varie les intensités relatives sont éloignés l'un de l'autre, à mesure que
la différence d'intensité s'accentue le timbre vocalique devient plus vague, puis il perd
son identité linguistique pour prendre une identité musicale (généralement une dissonance
de sons contigus); si les deux formants sont proches l'un de l'autre (en fréquence),
la voyelle change de timbre comme si l'effet perceptuel de la somme des deux
formants devenait de plus en plus semblable à l'effet perceptuel du formant qui avait
gardé son intensité originelle.270

g) Quand F1 seul diminue d'intensité, le changement de timbre est perçu comme
allant vers la nasalité. (La première indication du fait que l'indice acoustique de la
nasalité vocalique est dans la faible intensité de F1 se trouve donc dans (15).

L'étude (38) des voyelles américaines par filtrage des fréquences qui sont supérieures
à 670 cps (dans le but d'omettre tous les formants en dessus de F1) conclut
que les indices acoustiques sont F1, F2, et la durée (deux degrés de durée). (Le rôle
de la durée semble en effet indispensable pour distinguer deux voyelles comme /e/
et /ɪ/ qui ont presque les mêmes fréquences de formants. Notons pourtant que le rôle
de F3 n'a pas été inclus dans cette étude.)

Les fréquences des formants vocaliques ont été étudiés par l'analyse pour nombre
de langues. Par exemple, pour les voyelles américaines, dans (1, 3, 14) et surtout (10);
pour les voyelles françaises, dans (2) et (8); pour les voyelles danoises, dans (23);
pour les voyelles suédoises, dans (35); pour les voyelles polonaises, dans (43); pour les
voyelles japonaises, dans (44).

Les analogues électriques décrits dans (5, 25, 29) ont produit de bonnes voyelles
synthétiques, et ont ainsi contribué, non seulement à spécifier les corrélations articulatoires
et acoustiques, mais à vérifier la valeur linguistique des résultats obtenus par
la synthèse.

Enfin, une théorie proposée dans (3) vient d'être confirmée dans (47) par la synthèse.
L'identification linguistique des voyelles ne dépendrait pas entièrement de la fréquence
absolue des formants, mais de leur fréquence relativement à la structure totale
des formants du sujet parlant, structure qui peut légèrement varier d'une personne à
l'autre, comme l'indiquent les divergences entre hommes, femmes, et enfants (fréquences
légèrement plus hautes, dans cet ordre) établies dans (10).

Les voyelles nasales

Les indices de la nasalité vocalique ont été découverts grâce à la technique de synthèse
(15) et surtout (20), et confirmés plus tard par un analogue électrique de la
bouche (40), et par une analyse des voyelles nasales japonaises (41).

Le premier indice, le seul qui soit capable de transformer une voyelle orale en une
voyelle nasale, indépendamment des autres indices, c'est la réduction d'intensité de
F1. Pour les voyelles nasales françaises, par synthèse, il faut une réduction de 12 à 15
db relativement à l'intensité normale de F1 dans les voyelles orales.

Le second indice (second en importance) est un formant à environ 250 cps, que nous
appellerons FN1 (premier formant nasal). C'est vraisemblablement le formant qui
tient la première place dans la tenue des consonnes nasales. On sait qu'il contribue
considérablement à la nasalité vocalique parce que lorsque FN1 est présent, il faut
moins de réduction d'intensité de F1 pour que la voyelle soit identifiée comme nasale.
Mais par lui-même il ne nasalise que très légèrement les voyelles.

Les autres indices, pas toujours visibles sur les spectrogrammes, sont très faibles et
271leurs effets perceptuels presque négligeables: ce sont principalement un formant vers
1000 cps et un autre vers 2000 cps.

On attribue hypothétiquement la réduction d'intensité de F1, soit au grand amortissement
des cavités fibreuses du nez, qui agirait seulement sur les ondes de fréquence
basse au niveau de F1 (40); soit à des antirésonances qui supprimeraient une portion
des tons de F1 (41). Les cavités nasales ayant un volume assez fixe, pour que ces
antirésonances coïncident avec les fréquences de F1, il faudrait que les cavités buccales,
surtout la cavité pharyngienne, fassent une accommodation de volume qui accorde
les fréquences de F1 à celles des antirésonances.

L'hypothèse de l'amortissement est soutenue par le fait que les efforts de l'analogue
pour produire des voyelles nasales ont d'abord échoué. La simple addition d'une
troisième cavité, ne faisait que produire un formant additionnel vers 1000 cps, et les
voyelles n'en étaient pas perceptuellement nasalisées. Pour arriver à produire des
voyelles entendues comme nasales et ayant sur le spectre un F1 de très basse intensité,
il a fallu donner un grand amortissement à la cavité nasale.

D'autre part, l'hypothèse des antirésonances, qui demanderait une accommodation
des cavités, est soutenue par le fait que le F1 faible tend, pour toutes les voyelles nasales,
vers une même fréquence d'environ 500 cps (41). Cela expliquerait l'évolution
de toutes les voyelles nasales vers un même degré d'ouverture (mi-ouvertes): au cours
de l'histoire du français, [ĩn ỹn ũn] deviennent [ɛ̃ œ̃ ɔ̃] (approximativement) et [ɑ̃]
devient une voyelle qui se rapproche plus de [ɔ] que de [ã].

Prosodie

Les éléments prosodiques de la parole, tels que l'accent, le rythme, et l'intonation,
commencent à être étudiés par la synthèse. On en attend des résultats importants car
les facteurs objectifs de durée, d'intensité, et de fréquence peuvent être variés de façon
indépendante, et les résultats des variations isolées et combinées peuvent se juger
subjectivement à l'oreille.

Une première étude a voulu comparer les effets des variations de durée et d'intensité
(sans inclure, à ce point, la fréquence) dans la perception de la place de l'accent anglais.
On a employé des mots tels que “object” qui sont compris comme substantif quand
l'accent est sur la première syllabe et comme verbe quand il est sur la seconde.
Quand les sujets identifiaient le mot comme substantif, on pouvait admettre qu'ils
avaient perçu l'accent sur la première syllabe, et inversement. Résultats: les deux
facteurs contribuent à la perception de la place de l'accent, mais la durée plus que
l'intensité (28).

Des études comprenant, de plus, le facteur de la fréquence sont en cours.272

Bibliographie générale

Notons, pour terminer, les travaux généraux qui ont récapitulé et fait des hypothèses
se rapportant aux indices acoustiques de la parole, entre 1947 et 1957. Dans l'ordre
chronologique, c'est d'abord (1), avec une richesse de spectrogrammes de grande
valeur, bien qu'ils correspondent en général à de la parole ralentie. Ensuite (3), dont
la perspicacité a mis sur la voie des recherches actuelles. Puis (9), qui a proposé des
traits distinctifs à caractère binaire en se basant en grande partie sur les indices acoustiques
qui leur correspondent. Ce travail “préliminaire” s'étant fié à une analyse trop
hâtive des spectres, sera entièrement à refaire quand les chercheurs acoustiques et
physiologiques auront déterminé les vrais indices. Dans (11, 12, et 13), on peut suivre
le développement rapide des recherches par la synthèse, mais les hypothèses, basées
sur des résultats partiels, sont en partie fautives, car elles précèdent la découverte du
concept du Locus de F2 et des transitions de F3. Enfin, dans (46) les spéculations
prennent une forme plus avancée. On y trouve surtout les vues auxquelles ont mené
ces dix années de travaux sur les rôles respectifs du niveau acoustique et du niveau
articulatoire dans la perception de la parole: en particulier, l'onde acoustique ne
serait pas perçue directement, mais indirectement par référence au geste articulatoire.

Conclusion

Bien que les progrès des dix années passées soient impressionnants, on est loin de
pouvoir encore faire un tableau sûr et complet des indices acoustiques de la parole.
Il reste non seulement à étudier à fond nombre de facteurs à peine explorés, mais
à compléter le travail pour ceux qui sont les mieux connus en les étudiant maintenant
en toutes positions et devant toutes les voyelles appropriées.

La recherche portera sur plusieurs indices à la fois dans chacun des divers laboratoires
mais elle sera quand même lente: dans l'étude complète d'un seul indice, il se
passe généralement plusieurs années entre le moment où il est isolé et celui où les tests
définitifs sont analysés. Nous ferons un autre rapport dès qu'une avance significative
aura été réalisée.

Bibliographie

1. Potter, R. K., Kopp, G. A., and Green, H. C., Visible Speech (New York, Van Nostrand, 1947).

2. Delattre, P., “Un triangle acoustique des voyelles orales du français”, French Rev., 21 (1948), pp.
477-484.

3. Joos, M., Acoustic Phonetics (Baltimore, Waverly Press, 1948).

4. Cooper, F., “Spectrum Analysis”, J. Acoustic Soc. Amer., 22 (1950), pp. 761-762.

5. Dunn, H., “Calculation of Vowel Resonances, and an Electrical Vocal Tract”, JAS, 22 (1950),
740-753.

6. Cooper, F. S., Liberman, A. M., and Borst, J. M., “The Interconversion of Audible and Visible
Patterns as a Basis for Research in the Perception of Speech”, Proc. nat. Acad. Sci. Wash., 37
(1951), pp. 318-325.273

7. Delattre, P., Liberman, A. M., and Cooper, F. S., “Voyelles synthétiques à deux formants et
voyelles cardinales”, Maître Phonét., 96 (1951), pp. 30-37.

8. Delattre, P., “The Physiological Interpretation of Sound Spectrograms”. Publ. Mod. Lang.
Assoc. Amer.
, 66 (1951), pp. 864-876.

9. Jakobson, R., Fant, C., and Halle, M., Preliminaries to Speech Analysis, the Distinctive Features
and their Correlates
(Cambridge, Mass., Acoustics Laboratories of MIT, 1952).

10. Peterson, G. and Barney, H., “Control Methods Used in a Study of the Vowels”, JAS, 24
(1952), pp. 175-185.

11. Delattre, P., Liberman, A. M., Cooper, F. S. and Gerstman, L., “Speech Synthesis as a Research
Technique”, Proc. 7th Int. Congr. Ling. London 1952 (1952), pp. 555-561.

12. Delattre, P., Cooper, F. S., and Liberman, A. M., “Some Suggestions for Language Teaching
Methods Arising from Research on the Acoustic Analysis and Synthesis of Speech”. Rep. 3rd. ann.
Round Table Meet. Linguist. Lang. Teach.
, 2 (1952), pp. 31-47.

13. Cooper, F. S., Delattre, P., Liberman, A. M., Borst, J. M., and Gerstman, L., “Some Experiments
on the Perception of Synthetic Speech Sounds”, JAS, 24 (1952), pp. 597-606.

14. Peterson, G., “Information-Bearing Elements of Speech”, JAS, 24 (1952), pp. 629-636.

15. Delattre, P., Liberman, A. M., Cooper, F. S., and Gerstman, L., “An Experimental Study of the
Acoustic Determinants of Vowel Color; Observations of One- and Two Formant Vowels
Synthesized from Spectrographic Patterns”, Word, 8 (1952), pp. 195-211.

16. Liberman, A. M., Delattre, P., and Cooper, F. S., “The Role of Selected Stimulus-Variables in
the Perception of the Unvoiced Stop Consonants”, Amer. J. Psychol., 65 (1952), pp. 497-517.

17. Durand, M., “De la formation des voyelles nasales”, Studia Linguist., 7 (1953), pp. 33-53.

18. Cooper, F. S., “Some Instrumental Aids to Research on Speech”, Report of the Fourth Annual
Round Table MLLT
, 3 (1953), pp. 46-54.

19. Schatz, C, “The Role of Context in the Perception of Stops”, Language, 30 (1954), pp. 47-57.

20. Delattre, P., “Les attributs acoustiques de la nasalité vocalique et consonantique”, Studia
Linguist.
, 8 (1954), pp. 103-109.

21. Liberman, A. M., Delattre, P., Cooper, F. S., and Gerstman, L., “The Role of Consonant Vowel
Transitions in the Perception of the Stop and Nasal Consonants”, Psychol. Monogr., 379 (1954),
pp. 1-14.

22. Durand, M., “La Perception des consonnes occlusives: problèmes de palatalisation et de changements
consonantiques”, Studia Linguist., 8 (1954), pp. 110-123.

23. Fischer-Jorgensen, E., “Acoustic Analysis of Stop Consonants”, Misc. Phonet., 2 (1954), pp.
42-59.

24. Miller, G., and Nicely, P., “Analysis of Perceptual Confusions among some English Consonants”,
JAS, 27 (1955), pp. 338-353.

25. Stevens, K., and House, A., “Development of a Quantitative Description of Vowel Articulation”,
JAS, 27 (1955), pp. 484-494.

26. Delattre, P., Liberman, A. M., and Cooper, F. S., “Acoustic Loci and Transitional Cues for
Consonants”, JAS, 27 (1955), pp. 769-774.

27. Denes, P., “Effect of Duration on the Perception of Voicing”, JAS, 27 (1955), pp. 761-764.

28. Fry, D., “Duration and Intensity as Physical Correlates of Linguistic Stress”, JAS, 27 (1955),
pp. 765-768.

29. House, A., and Stevens, K., “Auditory Testing of a Simplified Description of Vowel Articulation”,
JAS, 27 (1955), pp. 882-887.

30. Malmberg, B., “The Phonetic Basis for Syllable Division”, Studia Linguist., 9 (1955), pp. 80-87.

31. Hughes, G., and Halle, M., “Spectral Properties of Fricative Consonants”, JAS, 28 (1956), pp.
303-310.

32. Durand, M., “De la perception des consonnes occlusives, questions de sonorité”, Word, 12
(1956), pp. 15-34.

33. Liberman, A. M., Delattre, P., Gerstman, L., and Cooper, F. S., “Tempo of Frequency Change
as a Cue for Distinguishing Classes of Speech Sounds”, J. Exp. Psychol., 52 (1956), pp. 127-138.

34. Borst, J., “The Use of Spectrograms for Speech Analysis and Synthesis”, J. Audio Engng. Soc.,
4 (1956), pp. 14-23.

35. Malmberg, B., “Distinctive Features of Swedish Vowels; Some Instrumental and Structural
Data”, For Roman Jakobson (1956), pp. 316-321.274

36. Fischer-Jorgensen, E., “The Commutation Test and its Application to Phonemic Analysis”
For Roman Jakobson (1956), pp. 140-151.

37. Householder, F., “Unreleased ptk in American English”, For Roman Jakobson (1956), pp.
235-244.

38. Miller, G., “The Perception of Speech”, For Roman Jakobson (1956), pp. 353-360.

39. Malécot, A., “Acoustic Cues for Nasal Consonants: an Expérimental Study Involving a Tape-Splicing
Technique”, Language, 32 (1956), pp. 274-284.

40. House, A., and Stevens, K., “Analog Studies of the Nasalization of Vowels”, J. Speech Dis.
(1956), pp. 218-232.

41. Hattori, S., Yamamoto, K., and Fujimura, O., “Nasalization of Vowels and Nasals”, Rep.
Kobayashi Sci. Inst.
, 6 (1956), pp. 226-235.

42. Stevens, K., and House, A., “Studies of Formant Transitions Using a Vocal-Tract Analog”, JAS,
28 (1956), pp. 578-585.

43. Jassem, W., “The Formants of Sustained Polish Vowels; A Preliminary Study”, Study of Sounds
(Tokyo, Chiyoda, 1957), pp. 335-349.

44. Hattori, S., Yamamoto, K., Kohasi, Y., and Fujimura, O., “Vowels of Japanese”, Rep. Kobayashi
Sci. Inst.
, 7 (1957), pp. 69-79.

45. Halle, M., Hughes, G., and Radley, J. P., “Acoustic Properties of Stop Consonants”, JAS, 29
(1957), pp. 107-116.

46. Liberman, A. M., “Some Results of Research on Speech Perception”, JAS, 29 (1957), pp. 117-123.

47. Ladefoged, P., and Broadbent, D., “Information Conveyed by Vowels”, JAS, 29 (1957), pp.
98-104.

48. Lisker, L., “Closure Duration and the Intervocalic Voiced-Voiceless Distinction in English”,
Language, 33 (1957), pp. 42-49.

49. O'Connor, J. D., Gerstman, L., Liberman, Delattre, P., and Cooper, F. S., “Acoustic Cues for
the Perception of Initial /wjrl/ in English”, Word, 13 (1957), pp. 24-44.

50. House, H., “Analog Studies of Nasal Consonants”, J. Speech Dis., 22 (1957), pp. 190-204.

51. Gerstman, L., Cues for Distinguishing among Fricatives, Affricate, and Stop Consonants. Diss.
New York University, 1957. (Research done at Haskins Laboratories, New York).

52. Hoffmann, H., A study of some Cues in the Perception of the Voiced Stop Consonants. Diss.
University of Connecticut, 1957. (Research done at Haskins Laboratories, New York).275

1* Déjà publié dans Phonetica, Vol. II (1958), Nos. 1-2, pp. 108-118; Nos. 3-4, pp. 226-251.