163 19 25MB
French Pages 286 Year 1966
STUDIES IN FRENCH AND COMPARATIVE PHONETICS
JANUA LINGUARUM STUDIA MEMORIAE N I C O L A I VAN WIJK D E D I C A T A edenda curai
C O R N E L I S H. VAN S C H O O N E V E L D STANFORD UNIVERSITY
SERIES
MAIOR
XVIII
1966 M O U T O N & CO. LONDON
• THE H A G U E •
PARIS
STUDIES IN FRENCH AND COMPARATIVE PHONETICS S E L E C T E D PAPERS IN F R E N C H AND E N G L I S H
by
P I E R R E DELATTRE UNIVERSITY OF CALIFORNIA SANTA BARBARA
1966
M O U T O N & CO. LONDON
• THE HAGUE •
PARIS
Copyright reserved.
Printed in The Netherlands by Mouton & Co., Printers, The Hague
TABLE O F CONTENTS
THE GENERAL CHARACTERISTICS OF FRENCH
Les modes phonétiques du français
9 UNSTABLE 3
Le jeu de l'e instable intérieur en français
17
Le jeu de l'e instable de monosyllabe initial en français
28
LIAISON
La liaison en français, tendances et classification
39
La fréquence des liaisons facultatives en français
49
Les facteurs de la liaison facultative en français
55
ACCENT
L'accent final en français : accent d'intensité, accent de hauteur, accent de durée
65
Accent de mot et accent de groupe
69 INTONATION
La leçon d'intonation de Simone de Beauvoir. Etude d'intonation déclarative comparée
75
A comparative study of declarative intonation in American English and Spanish
83
TENSENESS AND LAXNESS
Voyelles diphtonguées et voyelles pures
95
6
TABLE OF CONTENTS VOWEL DURATION
Rapports entre la durée vocalique, le timbre et la structure syllabique en français
105
La force d'articulation consonantique en français
Ill
Durée consciente et durée inconsciente des voyelles
120
Anticipation in the sequence : vowel and consonant-group
122
Remarques sur l'enseignement de la durée des voyelles françaises
128
Durée vocalique et consonnes subséquentes
130
Some factors of vowel duration and their cross-linguistic validity
133
SYLLABICATION
Le mot est-il une entité phonétique en français?
141
Tendances de coupe syllabique en français
150
L'aperture et la syllabation phonétique
163
L'e muet dans la coupe syllabique
168
HISTORICAL PHONETICS
Stages of Old French phonetic changes observed in Modern Spanish
. . . .
175
A contribution to the history of 'V grasseyé"
206
La question des deux 'a' en français
208
Sur les origines celtiques de la prononciation française
215
La leçon de phonétique de Farrebique
218
ACOUSTIC PHONETICS
The physiological interpretation of sound spectrograms
225
Un triangle acoustique des voyelles orales du français
236
Les attributs acoustiques de la nasalité vocalique et consonantique
. . . .
243
Les indices acoustiques de la parole
248
Le jeu des transitions de formants et la perception des consonnes
276
LES MODES PHONÉTIQUES DU FRANÇAIS*
La prononciation du français et celle de l'anglais diffèrent en tant de détails que l'étudiant—le professeur même—a de la peine à s'y retrouver. Aussi nous proposonsnous de ramener toutes les caractéristiques du français à trois modes: le Mode Tendu, le Mode Antérieur et le Mode Croissant, le mot "mode" étant pris au sens où l'on entend "mode majeur" et "mode mineur" en musique. Ces modes ne s'excluent pas rigoureusement. Il s'agit de très fortes tendances, et telle caractéristique phonétique se rapportera inévitablement à plus d'un de ces modes à la fois, mais il sera aisé d'en distinguer le principal.
I. LE MODE TENDU
Parler sur le Mode Tendu signifie d'une manière générale qu'il y a grande dépense d'énergie pour tendre les muscles d'articulation pendant la phonation. "... nulle part la tension musculaire n'est comparable à celle qu'exige une prononciation française ... Remarquons toutefois que ce travail intense ne se laisse pas voir: il est tout intérieur, et le Français, tout en s'imposant une discipline musculaire des plus rigide, ne trahit aucunement son effort ... Par conséquent, forte tension musculaire et grande sobriété de la mimique phonatoire" (Pierre Fouché, "L'état actuel du phonétisme français", Conférences de VInstitut de Linguistique de V Université de Paris, IV, Paris, Boivin, 1936). De cette tension musculaire, il résulte une certaine stabilité du timbre des sons au cours de l'articulation (stabilité toute relative puisque, comme on le sait, la chaîne parlée est en changement constant) marquée, dans les voyelles, par moins de diphtongaison; dans les consonnes, par moins d'affrication; dans les transitions d'un son à un autre, par moins de diffusion; dans l'intontation, par moins de glissement; dans le rythme, par moins d'inégalité de syllabe à syllabe; dans l'accent, par la subjugation des effets d'intensité et l'indépendance des effets de durée. Reprenons ces généralités du point de vue pratique. 1. Le français n'a ni diphtongues ni voyelles diphtonguées : bien que ses voyelles ne soient pas littéralement "pures", elles ont du moins le timbre infiniment moins changeant que les voyelles anglaises. On s'en rend compte par des comparaisons du *
Déjà publié dans The French Review, XXVII, 1 (October, 1953), pp. 59-63.
10
LES MODES PHONÉTIQUES D U FRANÇAIS
genre: c'est chaud[se Jo] et say, show [seei Joou], (Les transcriptions ne peuvent qu'aider à imaginer la réalité). L'absence de diphtongaison notable des [e] et des [o] doit certainement s'attribuer en premier lieu au Mode Tendu. 2. Le français n'a pas non plus de consonnes affriquées comme dans l'anglais church, judge. La tension les a éliminées de la langue (de même que les diphtongues) au cours de la deuxième moitié du moyen âge. Si les occlusives ne s'affriquent pas sensiblement en français moderne, c'est que la séparation des organes en contact se fait bien plus vivement qu'en anglais. Comparez tu tires prononcé par un Français: [ty tir] et prononcé par un Anglais: [tsy tsir]. Cette façon de se porter promptement à la position ouverte est une des sources de la netteté qu'on attribue aux syllabes françaises—netteté qui se traduit par un léger effet de staccato quand les syllabes se suivent avec régularité. 3. Il faut aussi expliquer par la tension le rythme si particulier de la chaîne parlée française, rythme produit par la presque égalité des syllabes qui se succèdent. Pas une syllabe notablement plus forte que l'autre, à moins d'accent d'insistance. C'est là peut-être que le français s'oppose le plus radicalement à l'anglais, qui base son rythme sur l'inégalité de ses syllabes et sur le groupement de syllabes faibles autour de syllabes fortes. Comparons les in-si-nua-tions d'Fau-teur / sont in-to-lé-rables à the AUthor's insinuAtions / are inTOLerable. 4. On sait que l'accent français porte sur la dernière syllabe. Mais pour faire ressortir cette syllabe, ce n'est pas à un excès de force (intensité) que le français fait appel mais à un excès de durée. Pour dominer ainsi l'intensité au cours de la chaîne parlée, et pour allonger la dernière syllabe indépendamment de l'intensité, il faut au français un état de tension articulatoire remarquable. Voir les exemples du paragraphe précédent, les relire. 5. La tension permet enfin de donner aux syllabes françaises une intonation relativement "plate". Nous voulons dire par là que le ton sur lequel une voyelle est lancée se maintient sans grand changement jusqu'au bout. Pas de glissements vers le grave ou l'aigu comparables à ceux de l'anglais. En français les écarts de tons se trouvent entre les voyelles plutôt que pendant les voyelles. Comparons il va, il vient à he goes, he comes
, /
,
\
6. Les transitions de son à son dépendent aussi du Mode Tendu, mais encore plus du Mode Croissant. Nous les reprendrons donc tout à l'heure, et nous verrons comment, en passant d'un son à un autre—d'un son oral à un son nasal, par exemple—la diffusion est évitée. II. L E M O D E
ANTÉRIEUR
Parler sur le Mode Antérieur veut dire porter les lieux d'articulation, les centres des cavités de résonance, le plus possible vers l'avant de la cavité orale. La forme concave
LES MODES PHONÉTIQUES DU FRANÇAIS
11
et bombée de la langue, l'arrondissement des lèvres, en sont les marques les plus concrètes. L'effet auditif ainsi produit fait dire: "Voix française", tandis qu'une certaine résonance postérieure, pharyngale, est caractéristique de la voix parlée américaine. Le lieu d'articulation reculé de IV parisien (friction entre le dos de la langue et le fond du voile du palais) n'est, malgré les apparences, qu'une manifestation de plus de cette antériorité ; c'est grâce à cet r dorsal que la langue peut conserver sans interruption la position bombée convexe qui favorise la résonance antérieure générale. Que l'on y compare IV rétroflexe américain, qui impose à la langue une forme concave, la pointe relevée vers le centre du palais, ou même IV espagnol, qui fait relever la pointe de la langue vers les alvéoles. Le Mode Antérieur peut s'observer dans les mouvements de la langue, dans ceux des lèvres, ou dans les deux à la fois. 1. Toutes les consonnes pour lesquelles la pointe de la langue entre enjeu sont plus antérieures en français qu'en anglais. Dans [t], [d], [n], [1] la pointe de la langue se dirige, non vers les alvéoles ou le palais, comme en anglais, mais franchement vers les incisives supérieures. (Devant les voyelles antérieures, la pointe de la langue descend même souvent jusqu'aux incisives inférieures.) Comparons set, said, sane, sell, à cette, cède, saine, celle. De même, dans les consonnes [s], [z], [J], [3], la pointe de la langue, au lieu de se relever, comme en anglais, se courbe vers le bas, laissant à la lame de la langue le rôle de fournir le canal par lequel l'air passe avant de se jeter contre les dents (pour [s], [z]) ou contre les alvéoles (pour [f], [3]). Comparons race, raise, rush, rouge, à casse, case, cache, cage. 2. L'arrondissement des lèvres entre enjeu même dans l'articulation des consonnes. Cela provient d'une combinaison de circonstances particulières: d'une part, les voyelles françaises sont en majorité des voyelles arrondies (deux séries arrondies: [u o 0], [y 0 œ], contre une seule non-arrondie: [i e s]); d'autre part le français anticipe la position d'une voyelle en articulant la consonne précédente. Ainsi toute consonne qui est suivie d'une voyelle arrondie s'articule elle-même avec les lèvres arrondies. C'est avec les consonnes labiales que cela s'observe le mieux. Comparons les lèvres d'un Français qui dit pour à celles d'un Américain qui dit poor. Dans le premier cas les lèvres se séparent en position déjà arrondie (avancée), dans le second elles se séparent en position plate, et s'allongent seulement plus tard pour la voyelle—d'où il résulte naturellement un effet de diphtongaison : un mot comme mur [myr] devient [mjyr]. 3. Ces deux caractères de consonnes—forme bombée de la langue, forme arrondie des lèvres—se trouvent réunis dans la série des voyelles [y 0 œ]. Exemple: il plut, il pleut, il pleure. Si cette série est si révélatrice des habitudes de parole française, c'est précisément parce que son caractère d'antériorité est doublement assuré, et par la position de la langue, et par celle des lèvres. Or ces deux qualités font rarement double emploi : normalement, les voyelles antérieures sont non-arrondies, [i e e], et les voyelles postérieures seules sont arrondies, [u o o].
12
LES MODES PHONÉTIQUES DU FRANÇAIS III. LE M O D E CROISSANT
Le terme "croissant" doit être entendu non dans un sens absolu (aucune syllabe n'est entièrement croissante), mais dans un sens tout relatif, pour souligner le contraste avec ce qui se passe en anglais : l'intensité de la syllabe française commence à décroître plus tard, à un point plus proche de la fin de la syllabe; l'intensité de la syllabe anglaise commence à décroître plus tôt, à un point plus proche du début. Parler sur le Mode Croissant signifie donc que voyelles, consonnes, syllabes (et l'on pourrait même appliquer le terme à des groupes de syllabes) s'articulent dans un effort soutenu —un effort qui ne se déclare pas, dans une syllabe, au début de la voyelle pour se relâcher aussitôt, mais qui commence sans brusquerie, augmente fermement et se maintient jusqu'au bout de la voyelle. Après l'ouverture buccale prolongée de la voyelle, le mouvement fermant qui suit est vif, il appartient plutôt à la transition syllabique (entre voyelle et consonne) qu'à la voyelle même. De la sorte, une consonne intervocalique tend fortement à se rattacher à la voyelle qui suit, et inversement tend à se détacher de celle qui précède. Parler sur le Mode Croissant veut aussi dire que les voyelles prennent psychologiquement une place dominante dans les syllabes, et qu'ainsi, dans le cours des mouvements articulatoires de la chaîne parlée, le français tend à prévoir la voyelle plus que la consonne, contrairement à l'anglais où la tendance à l'anticipation consonantique est si caractéristique. Les conséquences pratiques du Mode Croissant sont nombreuses. 1. Toutes les consonnes intervocaliques se rattachent à la voyelle qui les suit, même si cette voyelle appartient à un autre mot. En parlant, un Français ne ferait pas de différence entre too late et tool eight. Il les prononcerait tous deux comme too late. De même il dirait a name pour an aim, a nice man pour an ice man. La transcription syllabique d'une phrase française telle que: elle imite un autre accent serait donc: [e-li-mi-tœ-no-tra-ksà]. C'est ce qu'on appelle la "syllabation ouverte"—les syllabes se terminent sur la voyelle, c'est-à-dire la bouche ouverte. 2. Du fait de l'anticipation vocalique, les consonnes sont mises d'avance dans la position de la voyelle qui suit. Cela se remarque surtout lorsque la voyelle est arrondie : les lèvres françaises s'arrondissent dès le début de la consonne. Nous avons déjà comparé plus haut (II, 2) les mouvements des lèvres du français pour à ceux de l'anglais poor. 3. C'est par l'anticipation vocalique qu'on peut aussi expliquer l'articulation très sonore des consonnes occlusives [b d g]. On sait qu'en français les cordes vocales se mettent à vibrer bien avant l'explosion, tandis qu'en anglais (et encore plus en allemand), par manque d'anticipation vocalique, les cordes vocales commencent à peine à vibrer quand l'explosion de [b d g] se produit, et l'oreille prend facilement ces sonores pour des sourdes [p t k]. 4. Parallèlement, c'est par l'anticipation vocalique qu'on peut rendre compte de l'articulation "non-aspirée" des occlusives sourdes [p t k]. Dans l'articulation française de ces consonnes, les cordes vocales se ferment plus tôt que dans l'articulation
LES MODES PHONÉTIQUES DU FRANÇAIS
13
anglaise. Au moment de l'explosion, elles sont déjà fermées—par anticipation de la voyelle qui suit—et aucune expiration de souffle venant des poumons ne peut se produire. On sait qu'en anglais, et encore plus en allemand et dans les langues Scandinaves, la glotte est encore ouverte au moment de l'explosion, ce qui permet au souffle de s'échapper des poumons après l'explosion, et fait qu'on intercale, entre l'explosion de la consonne et le début de la voyelle suivante, une friction glottale qui ressemble fort à un [h]. Comparons le français pique [pik] à l'anglais peak [p h ik]. 5. Il faut aussi attribuer au Mode Croissant le phénomène connu sous le nom de "détente des consonnes finales". En anglais, après s'être fermée pour une consonne finale, la bouche ne se rouvre généralement pas, surtout dans le cas de [1 n m]. En français, d'une part l'ouverture buccale pour la voyelle de la syllabe finale se prolonge, de l'autre la consonne finale se prononce presque comme si elle commençait une nouvelle syllabe: la bouche se rouvre légèrement et un embryon de voyelle se fait entendre. Comparons seal [sil], seen [sin] à fil [fi-1], fine [fi-n-]. 6. C'est enfin le Mode Croissant qui empêche en français la diffusion de nasalité—si fréquente dans la bouche des Anglo-Saxons. Que la nasale soit une consonne précédée d'une voyelle orale, comme dans Jeanne [3a-n], ou une voyelle suivie d'une consonne orale, comme dans tombe [tô-b], c'est par non-anticipation consonantique que le français en vient à séparer si clairement le son oral du son nasal. Renversons notre mode d'articulation et anticipons la consonne: Jeanne devient [3cm], et tombe, [tomb], CONCLUSION
Nous avons groupé d'une manière systématique de nombreuses caractéristiques phonétiques propres au français en les rattachant toutes à trois modes: le Mode Tendu, le Mode Antérieur et le Mode Croissant. Ils peuvent servir dorénavant de points de repère. Toutes les fautes de prononciation, tout ce qu'on appelle "l'accent anglais" ou "l'accent américain" trouve son explication quand on se rapporte, comme nous venons de le faire, à ces trois modes.
LE JEU DE VE INSTABLE
INTÉRIEUR EN FRANÇAIS*
Nous nous proposons d'analyser le jeu de la chute et du maintien de Ye instable intérieur (que nous noterons simplement par "a"), et de joindre à cette analyse théorique des listes d'exemples qui pourront servir d'exercices pratiques. Par "intérieur" nous entendrons tout a de syllabe intérieure de mot (seulement, simplement) ou de syllabe intérieure de groupe rythmique (donne-les, tout le jour, pour demain, mais je ne te le redemanderai pas), ce qui revient au même car, en ce qui affecte les a, le groupe rythmique se conduit comme le mot : comme le mot—qui n'a qu'une syllabe accentuée, sa dernière—le groupe n'a qu'une syllabe accentuée, la dernière de son dernier mot. Le jeu de l'a intérieur est beaucoup plus simple que ne l'était le jeu de l'a initial. Il s'exprime par la grande loi générale suivante, qui ne tolère que de rares exceptions: Suivi d'une consonne ou plus, /'a intérieur tombe après une seule consonne et se maintient après deux ou plus: samedi [samdi], vendredi [vôdradij, ça me dit [samdi], ça ne me dit rien [sa nma di rjê], (Naturellement, "consonne" a ici le sens phonétique et non orthographique). Le nombre de consonnes qui suit l'a est donc sans effet; ce n'est que le nombre de consonnes qui le précède qui agit. Le mot palefrenier [palfranje], qui nous offre un double exemple du mécanisme de la loi, nous montre aussi que les consonnes qui suivent l'a sont sans effet: le premier a—qui tombe—est suivi de deux consonnes mais précédé d'une seule ; le second a—qui se maintient—est aussi suivi de deux consonnes, [nj], mais précédé de deux, [fr]. Cette loi est évidemment de la famille de la loi plus générale encore, dite "loi des trois consonnes", qui veut qu'on ne puisse pas articuler dans la même syllabe trois consonnes contiguës ou plus. (Si l'a se maintient dans vendredi, c'est en effet pour éviter la rencontre des trois consonnes [drd] qui donnerait [vâdrdi].) Mais il est nécessaire de la formuler comme ci-dessus pour bien montrer le rôle prépondérant des consonnes qui précèdent l'a sur celles qui le suivent. Ainsi le simple énoncé de la règle des trois consonnes ferait croire, à tort, qu'on maintient l'a dans visite stupide, grave scrupule, coquetier, dans ce train, pas de bruit, tu le crois. Bien que la chute de l'a y * Déjà publié dans The French Review, XXIV, 4 (February, 1951), pp. 341-351. Cet article fait suite à ceux de mai et octobre 1949, The French Review, XXII, 6, pp. 455-459, et XXIII, 1, pp. 43-47, sur "Le jeu de l'e instable de monosyllabe initial en français".
18
LE JEU DE L ' " E INSTABLE" INTÉRIEUR EN FRANÇAIS
réunisse trois consonnes: [vizitstypid], [koktje], [dâstrê], ou même quatre: [gravskrypyl], [padbrqi], [tylkrwa], elle se produit régulièrement parce qu'il n'est précédé que d'une seule consonne. Le jeu de l'a est fortement relié au rythme de la chaîne parlée française—cette chaîne dont les anneaux sont les syllabes qui se succèdent extraordinairement égales les unes aux autres par comparaison avec ce qui se passe dans toute autre langue. Le jeu des a ne dérange pas ce déroulement de syllabes égales. Quand l'a tombe, sa syllabe disparaît entièrement: c'est seulement samedi [se-sœ-lmâ-sa-mdi], dans le rythme: 1-2-3-4-5; quand l'a reste, sa syllabe garde sa place dans la chaîne: c'est simplement vendredi [se-sè-pb-mâ-vâ-dra-di], dans le rythme: 1-2-3-4-5-6-7. Pour l'oreille d'un Français, l'a ne tombe jamais à moitié: il tombe ou il reste. L'a intérieur se présente dans diverses positions de la chaîne parlée (intérieur de mot: c'est vendredi, final de mot : montre-les-moi, initial de mot : va au grenier, etc.), ainsi que dans diverses conditions articulatoires (concernant surtout la nature et la disposition syllabique des consonnes qui avoisinent l'a: autrement, exactement, justement, vertement, etc.). Nous présenterons donc le jeu de l'a dans ces diverses positions et conditions, et nous analyserons leurs effets sur la régularité de sa chute et de son maintien. Car la loi générale n'est pas absolue; son application donne la norme dans la prononciation naturelle des gens cultivées, mais tandis que dans bien des cas cette norme représente la seule prononciation possible, dans d'autres on peut en dévier. La prononciation indiquée dans nos listes d'exemples sera toujours celle de la norme, mais l'analyse des positions et conditions mentionnées ci-dessus nous fera connaître les degrés possibles de déviation de la norme. Les exemples seront partout présentés en paires contrastantes {vendredi¡samedi'. a qui reste/a qui tombe) de façon à permettre de comparer des conditions aussi égales que possibles en dehors du nombre de consonnes qui précèdent l'a. Quand on utilisera ces listes d'exemples comme exercices pratiques d'articulation, on les travaillera d'abord verticalement, ce qui réduit la difficulté, ensuite seulement horizontalement. Il faudra énoncer les syllabes dans un rythme égal, comme en comptant: 1-2-3 [vâ-dra-di], 1-2 [sa-mdi]. Pour y arriver, on appliquera la méthode de la syllabation ouverte (déjà présentée dans cette revue) 1 ; elle consiste à éviter l'anticipation consonantique, qui ferait dire [samm-di], et à terminer toute syllabe sur sa voyelle: [saa-mdi]. C'est souvent une exagération, mais une exagération indispensable pour arriver plus tard à une articulation syllabique bien française.
1 "La syllabation ouverte par la méthode compensatrice", The French Review, XVII, 6 (mai 1944), pp. 371-376.
LE JEU DE L ' " E INSTABLE" INTÉRIEUR EN FRANÇAIS
19
1. 9 EN SYLLABE INTÉRIEURE DE MOT Vendredi Simplement Autrement Aimablement Comprenez Vous entrerez Pauvrement
Sam'di Seul'ment Pareill'ment Égal'ment Conv'nez Vous pass'rez Rich'ment
Exactement Tristement Justement Calmement Bergerie Largement Forgeron Fermeté Marchepied Retardement Fortement Portefaix
Vagu'ment Joyeus'ment Fauss'ment Moll'ment Lait'rie Etroit'ment Bûch'ron Lâch'té Cal'-pied Avanc'ment Douc'ment Carr'four
Ici, les a précédés d'une seule consonne (samedi, seulement, etc.) tombent avec une régularité absolue. (Nous ne tenons compte que de la prononciation du français du Nord, naturellement. Dans le Midi, tous ces a se maintiendraient: on dirait [sœbmèq] au lieu de [sœlmâ].) Les a précédés de deux consonnes (vendredi, simplement, etc.) ne restent pas tous avec la même régularité. Ils se maintiennent très régulièrement quand les deux consonnes qui précèdent l'a sont syllabiquement unies 2 (les 7 premiers exemples), mais moins régulièrement dans les autres cas, surtout si la première consonne est r (derniers exemples). Il n'est pas rare d'entendre des Français dire [3ystmâ], [fortmâ], etc. Cela peut arriver dans un style pressé ou négligé, par exemple. Cependant la norme dans le langage naturel des gens cultivés est fôystamâ fortamâ]. En d'autres termes, pour être très ferme, l'a doit s'appuyer sur deux consonnes {vendredi). Quand les deux consonnes qui précèdent l'a ne sont plus syllabiquement unies, la première n'est plus entièrement dans la syllabe de l'a mais en partie dans la syllabe précédente: [3ys-st3-mà]. 3 Alors l'a ne s'appuie plus sur deux consonnes mais sur une consonne et une fraction de consonne, et il n'est plus très ferme. 2
Deux consonnes sont syllabiquement unies lorsque la première est plus fermée que la seconde. L'ordre de fermeture des consonnes en allant des plus fermées aux plus ouvertes est approximativement :ptkbdgmnfsfvz3/ilr. Ainsi le maximum d'union se produit pour les groupes dont la première est une des occlusives p t k b d g et la seconde une des liquides / r, (pi, pr, tr, etc.), Cf. "Tendances de coupe syllabique en français," PMLA, LV, 2 (juin 1940), pp. 579-595. 8 Si les consonnes ne sont pas entièrement unies syllabiquement, cela ne veut pas dire qu'elles soient entièrement séparées. Dans un mot comme justement, la coupe syllabique phonétique n'est pas entre s et t mais dans le cours de 1' j. Cf. "Tendances de coupe syllabique en français", PMLA, LV, 2 (juin 1940), pp. 579-595.
20
LE JEU DE L ' " E INSTABLE" INTÉRIEUR EN FRANÇAIS
2. 9 EN SYLLABE FINALE DE MOT Notre bête Quatre bicyclettes Un autre spectacle De terribles scrupules Maigre gloire La pauvre femme
Sal' bête Un' bicyclette Le mêm' spectacle De vagu's scrupules Grand' gloire La bell' femme
Un acte juste Une veste grise De tristes scandales Un disque brisé Elle valse bien Elle marche vite Quatorze passagers Il se porte mieux Une superbe Slave Garde-la
Un homm' juste Une rob' grise De vagu's scandales Une aiguill' brisée Elle dans' bien Elle pass' vite Treiz' passagers Il mang' mieux Une bell' Slave Cach'-la
Le jeu de l'a est sensiblement le même ici qu'en syllabe intérieure de mot: L ' a précédé d'une seule consonne (sale bête, etc.) tombe toujours. L ' a précédé de deux consonnes ne reste régulièrement que lorsque ces deux consonnes sont syllabiquement unies (les six premiers exemples). Dans les autres cas, l'a se maintient moins régulièrement et peut tomber en langage pressé: [ma-rfa-vit] devient alors [marfvit]. Mais il faut ajouter que pour l'a final de mot après deux consonnes syllabiquement unies, il existe une autre prononciation—reconnue négligée, mais pourtant fort courante chez les gens cultivés eux-mêmes—qui omet à la fois l'a et la liquide qui le précède. D e la sorte, notre devient [not] et notre bête: [notbstj, quatre [katbisiklst], un autre spectacle:
[œnotspektakl], la pauvre femme:
bicyclettes:
[lapovfam]. En
voici encore quelques exemples : un maître d'école [cémstdekol], Vautre jour [lot3ur], la table de nuit [latabdsnqi], dans votre cas [dâvotka], un timbre d'un franc [dbtsbdœfrâ], on va le mettre dehors [ôvalmetdaor], faut prendre votre billet [foprâdvotbije], c'est la fièvre typhoïde [selafjevtifoid], les fables de la Fontaine [lefabdalafoten]. Remarquons que dans cette prononciation négligée, notre loi générale reste parfaitement en vigueur: en effet si l'a tombe, c'est qu'il n'est plus précédé que d'une seule consonne, la liquide s'étant totalement effacée. 3. 9 EN SYLLABE INITIALE DE MOT A . Les deux consonnes appartiennent au même mot A u grenier On fredonne Nous crevons
Ses gu'nilles On r'donne Nous v'nons
LE JEU DE L ' " E INSTABLE" INTÉRIEUR EN FRANÇAIS
Son brevet En prenant Un squelette
21
Sa r'vue En t'nant Un s'cret
Ici, l'a précédé de deux consonnes (au grenier) se maintient régulièrement. C'est normal puisque les deux consonnes sont syllabiquement unies, soit par leur nature, la première étant plus fermée que la seconde (grenier), soit par leur position initiale (squelette). Par contre Y a précédé d'une seule consonne (ses guenilles) ne tombe pas d'une manière absolument régulière comme dans les types 1 (seuVinent) et 2 (saF bête). La norme est bien de dire: [segnij], [ordon], [nuvnô], [sarvy], [citnâ], [œskre]; mais il suffit de quelque insistance, de quelque ralentissement du rythme, ou autre effet, pour que Y s réapparaisse et qu'on entende une syllabe de plus dans le rythme: [se ga nij], [5 ra don], [nu va no], [sa ra vy], [S ta nâ], [œ sa kre]. Le reste de vitalité de cet 3 est dû, selon toute apparence, à sa position initiale. C'est un facteur psychologique. 4
B. Les deux consonnes appartiennent à deux mots différents (Exemple : [tl] dans cette leçon [se tla s5]) Cette leçon Toute revue Chaque repas Équipe refaite Sa coupe levée Vous êtes gelé Cette fenêtre
Sa l'çon Tout r'vu Deux r'pas Partie r'faite Son couteau l'vé Vous allez g'ier Sa f'nêtre
Une petite Une seconde Une cheminée Onze chevaux Quelles menaces Ils veulent venir Leur chemin Par semaine Il part demain
Un p'tit Deux s'condes La ch'minée Dix ch'vaux Ses m'naces Il veut v'nir Son ch'min A la s'maine Il s'en va d'main
Les groupes de consonnes sont plus variés que pour 3A, mais le principe reste le même. L'a précédé de deux consonnes ne se maintient de façon absolue que lorsque ces deux consonnes sont syllabiquement unies (les sept premiers exemples). Dans les autres cas, le maintien de l'a n'est plus absolument régulier; et il atteint son minimum de régularité quand la première consonne est r (pars demain). Cependant il est plus 4
N o u s avons déjà mentionné le "poids psychologique" de la position initiale dans l'étude sur l'a de monosyllabe initial, The French Review, XXII, 6 et XXIII, 1 (mai et octobre 1949).
22
LE JEU DE L'"E INSTABLE" INTÉRIEUR EN FRANÇAIS
régulier que dans les cas correspondants du type 1 (fermeté) ou du type 2 (marche vite)', cela s'explique par le poids psychologique de la position initiale de mot (pars demain). L'a précédé d'une seule consonne {un p'tit, sa Vçori) se conduit exactement comme celui du type 3A (voir commentaires précédents). 4. a EN MONOSYLLABE
Il y a neuf monosyllabes en a : le, je, ce, se, me, ne, de, te, que. Faisons pour chacun d'eux une série d'exemples où ils seront précédés de consonnes d'apertures variées allant des plus fermées (p t k b d g) aux plus ouvertes (r /). Dans chaque série, l'a précédé de deux consonnes se maintiendra d'autant mieux que la première consonne sera plus fermée; et inversement. Avec le mien Coupe le pain Attrape le ballon Évite le danger Trouve le temps Passe le faire Pêche le thon Donne le meilleur Comme le tien
Sans 1' mien Prends 1' pain Envoie 1' ballon Envie 1' danger Prends 1' temps Va 1' faire Vends l'thon Rends 1' meilleur C'est l'tien
Toujours le même Vers le train Par le pont
Vraiment 1' même Dans l'train Sous 1' pont
Quoique je comprenne Comme je vous comprends Avec elle je suis franc
Quand j' comprends Si j' vous comprends Avec eux j' suis franc
Car je peux
Mais j' peux
ce, se
Avec ce plat Coupe ce pain Attrape ce ballon Évite ce danger Il compte se venger Trouve ce passage Comme ce pays Il se trompe Par ce temps Vers ce train Perds ce ton
Sans c' plat Prends c' pain Envoie c' ballon Envie c' danger Il veut s' venger Lis c' passage C'est c' pays On s' trompe Dans c' temps Dans c' train Prends c' ton
me
Il manque me voir Ils descendent me voir Ils peuvent me voir
Il va m' voir Il descend m' voir Il peut m' voir
le
je
LE JEU DE L ' " E INSTABLE" INTÉRIEUR EN FRANÇAIS
Ils viennent me voir Joseph me voit Ils veulent me voir
Il vient m' voir Jean m' voit Il veut m' voir
Sors me voir Pour me dire Pierre me l'a dit
Viens m' voir Sans m' dire André m ' l ' a dit
Philippe ne comprend pas Ta cravate ne va pas Le neuf ne compte pas Ces tasses ne servent pas Il ne comprend pas
Henri n' comprend pas Ton nœud n' va pas Le deux n' compte pas Ces pots n' servent pas On n' comprend pas
Albert ne sait rien Il préfère ne pas voir
Lucie n' sait rien Il prétend n' pas voir
Une coupe de fruits Un bock de bière Une botte de foin Une femme de chambre Une chaise de bois Une tasse de thé Un œuf de poule Un bol de lait
Un panier d'fruits Un pot d'bière Un peu d ' f o i n Un valet d'chambre Un morceau d'bois Un pot d ' t h é Des œufs d'poule Un peu d'lait
Un Un Un Un
Un Un Un Un
port de mer cor de chasse quart de litre verre de vin
vent d ' m e r chien d'chasse fond d'litre tonneau d'vin
Il manque te voir Ils descendent te voir Ils peuvent te voir Ils viennent te voir Joseph te croit Ils veulent te croire
Il va t' voir Il descend t' voir Il peut t' voir Il vient t' voir Jean t' croit Il veut t' croire
Sors te préparer Pour te fatiguer Pierre te les donne
Viens t' préparer Sans t' fatiguer André t'les donne
Dites que c'est moi Demande que j'en aie La pomme que nous voulons Us disent que c'est prêt Je n'en trouve que deux Celles que vous voudrez Ils veulent que tu parles
Dis qu' c'est moi Demandez qu' j'en aie La noix qu' nous voulons Il dit qu' c'est prêt Je n'en ai qu' deux Ceux qu' vous voudrez Il veut qu' tu parles
La poire que tu vois Pour que tu viennes
L'abricot qu' tu vois Afin qu' tu viennes
23
24
LE JEU DE L ' " E INSTABLE" INTÉRIEUR EN FRANÇAIS
Les principes dégagés dans 3B restent généralement valides ici, mais il sera intéressant de comparer entre eux les cas des neuf monosyllabes. Après deux consonnes (avec le mien [a ve kla mjë]), le maximum de régularité dans le maintien de l'a se produit lorsque ces deux consonnes sont syllabiquement unies. Cela n'arrive nettement que pour le précédé d'une consonne autre que r (les neuf premiers exemples de le). Le minimum de régularité se produit lorsque la première consonne est r (les derniers exemples de chaque série). Les autres cas se divisent clairement en deux: a) dans me, ne, de, te, que, le maintien de l'a est fort régulier; b) dans je, ce, se, il l'est un peu moins: les fricatives [3] et [s] semblent légèrement favoriser la chute de l'a. En résumé pratique, le, me, ne, de, te, que maintiennent l'a régulièrement après toute consonne sauf r ; je, ce, se le maintiennent un peu moins régulièrement dans les mêmes conditions; après r, tous les monosyllabes montrent une légère tendance à perdre l'a, surtout dans un langage pressé ou négligé, mais la norme reste de l'y maintenir. Après une seule consonne: sans le mien [sâ lmjë], l'a se conduit comme dans les types 3 A et 3B : sa chute représente la norme, mais elle n'est pas absolument régulière : il est toujours possible de dire [sâ b mjë] dans des circonstances particulières. Un cas spécial est à noter: lorsque les deux consonnes sont les mêmes (il le croit [i lia krwa]), le degré de fermeté de l'a est toujours près du maximum: il se maintient, indépendamment des remarques qui précèdent. Il le croit Il neige je crois Passe ce plat Il aime me voir La bonne ne fait rien Un guide de montagne Va vite te préparer Il ne manque que ça
[i lia krwa] [i lne 333 krwa] [pa ssa pla] [i le mms vwar] [la bo nna fe rjë] [dé gi dda mô taji] [va vi tta pre pa re] [i lna mâ kka sa]
5. SÉRIES D ' £ I N S T A B L E S
C'est le premier a de la série qui importe ici. Les a qui le suivent emboîtent le pas sur lui en tombant après une consonne et en se maintenant après deux sans considération de la nature des consonnes. Ce premier a peut occuper diverses positions: final de mot, initial de mot, etc. Sa chute et son maintien se déterminent donc comme dans les parties précédentes de cette étude. Il n'y a pas lieu d'y revenir. Ils viennent de 1' refaire Est-ce de c' jour qu'on parle Il est dur de s'le d'mander Ils viennent de m'le dire Ils promettent de t'le r'mettre Ils disent que j ' l e sais Il pense que j' me 1' reproche
Il vient d'le r'faire C'est d'ce jour qu'on parle Il est bon d'se 1' demander Il vient d ' m e 1' dire Il promet d ' t e 1' remettre Il dit qu' je 1' sais Il croit qu' je m'le r'proche
LE JEU DE L ' " E INSTABLE" INTÉRIEUR EN FRANÇAIS
Il pense que 1' repas est bon Il assure que c' demi est plein Vous r'cevez Vous d'venez Il me (te le se) d'mande On m' (t' F s') demande Il me (te se) F refuse On m' (t' s') le r'fuse
25
Il croit qu' le r'pas est bon Il dit qu' ce d'mi est plein Vous n' rec'vez pas Vous n' dev'nez pas Il ne m' (t' 1' s') demande pas On n' me (te le se) d'mande pas Il ne m' (t' s') le r'fuse pas On n' me (te se) l'refuse pas
Cependant il faut noter qu'après une seule consonne initiale de mot, la chute du premier a d'une série est moins régulière que celle d'un a seul (types 3 et 4). La prononciation des exemples ci-dessus—où il tombe toujours—représente la norme, la forme qu'il est préférable d'imiter, mais il n'est pas choquant d'entendre l'inverse pourvu que tous les a de la série s'inversent aussi en emboîtant le pas sur ce premier a qui reste au lieu de tomber. Ainsi on peut entendre : on me /' refuse au lieu de on m ' l e r'fuse, on ne m'le r'fuse pas au lieu de on n' me V refuse pas, on vient de V refaire au lieu de on vient d' le refaire, etc. L'essentiel n'est pas tant dans la chute ou le maintien du premier a que dans le fait de ne jamais avoir deux a successifs qui ne soient pas séparés par deux consonnes. Ce qui choquerait vraiment une oreille française, ce serait d'entendre [5 na ma la ra fa ra pa] pour [5 nma Ira fra pa]. Quand la série commence par un monosyllabe initial de groupe rythmique, c'est l'a de ce monosyllabe initial qui décide du départ, et les a intérieurs n'ont qu'à emboîter le pas. C' que j' te r'demande J' te 1' red'manderai Je F red'manderai Je n' me F red'mande pas Je n' te F red'mande pas Je m ' l e r'demande Se F red'mandera-t-il Ne F red'mande pas Ne s ' l e r'demande-t-il pas Ne m ' l a r'demande pas Me 1' red'mandez-vous Te F red'mandera-t-on Que j' me 1' dis souvent Que j' te F dis souvent Que n' te F dit-il encore
[ska 3ta rda mâd] [3ta Ira dmâ dre] [33 Ira dmâ dre] [33 nms Ira dmâ dpa] [33 nts Ira dmâ dpa] [33 mis rda mâd] [S3 1rs dmâ dra til] [na Ira dmâ dpa] [na sla rda ma dti lpa] [na mis rda ma dpa] [ma Ira dmâ de vu] [ta Ira dmâ dra ta] [ka 3ma Idi su va] [ka 3ta ldi su va] [ka nta ldi ti là kor]
6. E X C E P T I O N S À LA LOI G É N É R A L E
A. Devant les groupes [rj] et [lj], l'a se maintient toujours, quel que soit le nombre des consonnes qui le précèdent. Exemples: a intérieur: nous causerions [nu kozarjô], vous les aimeriez, nous nous rappelions, Richelieu, batelier', a final: ils ne valent rien, ils en tiennent lieu; a initial: nous serions bien, vous reliez bien; a de monosyllabe: et de rien, en ce lieu.
26
LE JEU DE L ' " E INSTABLE" INTÉRIEUR EN FRANÇAIS
B. Le pronom "le" maintient son a après le verbe, quel que soit le nombre de consonnes qui précèdent. Exemples : apprends-le tout [a prâ b tu], écris-le vite [e kri la vit]. C. L'a se maintient devant un "h aspiré" quel que soit le nombre de consonnes qui précèdent. Exemples: cette hache [se ta aj], quelle haine [ke la en], c'est une honte [se ty na 5t]. D. Les cinq groupes je n\ ce n\ de n\ c' que,j' te conservent cette prononciation (acquise en position initiale) où qu'ils se trouvent. D'où leur nom de "groupes figés." Exemples : Croit-il que je n' le r'ferai pas? [krwa ti lka 39 nia rfa re pa] Et si je n' rev'nais pas! [e si 33 nra vne pa] Dit-il que ce n' serait pas juste? [di ti lka sa nsa re pa 3yst] Mais ce n' sont pas des fautes, [me sa nsô pa de fot] Etes-vous certain de n' pas 1' voir? [e tvu se rte da npa lvwar] Il craint de n' pas 1' comprendre, [i ikrê da npa lkô prâdr] Joue de c' que tu voudras. [3U da ska ty vu dra] Il demande c' que j'lui r'proche. [i Ida mâ dska 3lqi rproj] Il faut que j ' t e 1' dise, [i lfo ka 3ta ldiz] Car j' te l'ai promis, [ka r3ta le pro mi] CONCLUSION
La grande loi d'après laquelle l'a proconsonantique intérieur de groupe rythmique se maintient après deux consonnes et tombe après une seule n'est pas toujours absolue. Nous avons trouvé des irrégularités de divers degrés dans la chute et le maintien de l'a et nous les avons reliées à la position de l'a dans le mot, et à son entourage consonantique. 1. La chute de l'a après une seule consonne est régulière lorsque l'a est intérieur ou final de mot: seulement, sa seule dent n'ont pas d'autre prononciation possible que [sœ lmS], [sa sœ ldô]. Quand l'a est en syllabe initiale de mot (la petite) ou quand il est a de monosyllabe (tout le jour), sa tendance à tomber est moins accusée. Il arrive qu'il se maintienne sous des effets tels qu'une insistance ou une lenteur particulière : [la pa tit], [tu la 3ur] au lieu de [la ptit], [tu l3ur]. Si l'a est moins caduc dans ces deux positions, c'est pour des raisons psychologiques plutôt que phonétiques: dans le premier cas, la position initiale de la syllabe donne à l'a un poids psychologique qui empêche sa syncope d'être totale; dans le second cas, l'entité du mot (monosyllabique) produit le même effet. 2. Le maintien de l'a après deux consonnes est régulier lorsque ces deux consonnes sont syllabiquement réunies, c'est-à-dire lorsque la première des deux consonnes est plus fermée que la seconde. Les plus fermées étant p, t, k, b, d, g, et les plus ouvertes
LE JEU DE L ' " E INSTABLE" INTÉRIEUR EN FRANÇAIS
27
r, l, le maximum de régularité du maintien de l'a se produit après les combinaisons de ces deux séries de consonnes, soit après pr, pl, tr, etc. : vendredi, notre bête, cette leçon, avec le mien. Mais le maintien est encore régulier tant que la première consonne est nettement plus fermée que la seconde : pauvrement, cette fenêtre, passe le faire, comme le tien', sauf pour l'a des monosyllabes je, ce et se (voir plus loin). De plus le maintien de l'a est régulier dans les monosyllabes me, ne, de, te, que, précédés de toute consonne sauf r: ils veulent me voir, ces tasses ne servent pas, un œuf de poule, ils viennent te voir, je n'en trouve que deux. Dans les autres cas, la régularité du maintien de l'a est moins accusée: justement, elle valse bien, quelles menaces. Il faut ranger dans cette même catégorie l'a des monosyllabes je, ce et se après toute consonne : quoique je comprenne, avec ce plat. Le maintien de l'a atteint son minimum de régularité après les groupes dont la première consonne est r: fortement, garde-la, il part demain, un verre de vin. Rappelons que la norme est ici le maintien de l'a plutôt que sa chute. Les facteurs qui précèdent sont d'ordre phonétique. Il faut aussi mentionner les facteurs psychologiques : a) de la position en syllabe initiale de mot ; b) de l'entité du mot. Toutes conditions d'entourage consonantique égales, l'a de syllabe initiale de mot est généralement plus ferme que l'a intérieur de mot ou final de mot; et l'a de monosyllabe est plus ferme encore: emportement, apporte-m'en, première tenue, Albert te ment.
LE JEU DE L'E INSTABLE DE MONOSYLLABE INITIAL EN FRANÇAIS*
Le français possède—graphiquement parlant—neuf monosyllabes dont la voyelle est un e instable: que, te, de, me, ne, le, ce, se, je.1 C'est moins qu'on ne penserait. Mais la fréquence de ces monosyllabes est telle, le nombre de combinaisons qu'ils forment si grand (que me, ne le, de ce, je ne, je ne te, je ne te le, que je ne te le, ce que je ne te le, de ce que je ne te le, etc.) que leur rôle dans la langue correspond sans doute à un multiple du carré de leur nombre. La bonne prononciation, l'omission, le maintien des e de ces neuf monosyllabes sont fort négligés dans l'enseignement du français. On laisse entendre qu'il s'en omet beaucoup, même qu'il s'en omet parfois un sur deux. C'est loin d'être satisfaisant. Il est indispensable a) de savoir lesquels tombent et lesquels restent; b) de comprendre pourquoi ils tombent ou restent, dans quelles conditions, selon quels principes et quelles tendances; c) d'acquérir l'habitude de ces chutes et de ces maintiens au point automatique; d) d'articuler correctement ces chutes et ces maintiens, ce qui dépend surtout de la façon d'unir les consonnes en jeu. C'est de ces quatre points de vue que nous proposons d'étudier ici le jeu des e instables de monosyllabes à l'initiale. Maurice Grammont avait relié le jeu des e instables de monosyllabes à la caractéristique durative des consonnes par lesquelles ces monosyllabes commençaient. Les consonnes étaient momentanées ou continues, et c'était là le facteur qui déterminait la chute ou le maintien des e dans les diverses conditions. Sa façon de voir n'était pas fausse, en général, mais le facteur sur lequel il s'appuyait était un facteur indirect, et cela l'amenait à faire quelques erreurs. Ainsi pour cadrer avec cette théorie, il fallait que dans une phrase comme ne te Vavais-je pas dit, on fît tomber le premier e (n te * Déjà publié dans The French Review, XXII, 6 (May, 1949), pp. 455-459, et XXIII, 1 (October, 1949), pp. 43-47. 1 Phonétiquement, il n'y en a que huit puisque ce et se n'en font qu'un. Morphologiquement, au contraire, il y en a beaucoup plus de neuf. Le peut compter pour deux : le, déterminatif (le banc), le, pronominal (le voulez-vous); que pour quatre: que, exclamatif (que de livres), que, interrogatif (que voulez-vous); que, relatif (celui que je veux), que, conjonctif (il dit que c'est vrai); de pour deux: de, prépositionnel (parler de tout), de, partitif (de bons livres) ; me peut compter pour deux selon qu'il est complément direct ou complément indirect; te et se de même, etc. Mais les différences morphologiques n'ont généralement pas d'influence phonétique. Il n'y a guère que le cas des le qui soit à considérer dans ce sens: le, pronom, tend très légèrement plus à retenir l'e instable que le, déterminatif.
L ' " E " INSTABLE DE MONOSYLLABE INITIAL EN FRANÇAIS
29
l'avais-je pas dit) tandis que c'est le contraire qui se produit le plus souvent (ne t l'avais-je pas dit). 2 Le facteur direct est dans le degré de force d'articulation des consonnes, et dans leur degré d'aperture. Cela s'accorde généralement avec les facteurs de Grammont: les consonnes les plus fortes et les plus fermées sont, pour la plupart, des momentanées ; et les continues sont, sauf exceptions, moins fortes et moins fermées que les momentanées. Mais la division de Grammont cache des aspects importants du problème parce qu'elle est trop brusque. Dans les continues, il existe une gradation utile qui ne peut apparaître que dans des classifications plus détaillées telles que celles des degrés d'aperture ou des degrés de force d'articulation. D'autre part, la nature durative des consonnes—aussi bien que leur aperture ou leur force—n'est qu'un facteur mécanique du problème. Il existe aussi des facteurs psychologiques (exemples: l'analogie, la fréquence). Ici, le grand facteur psychologique réside dans l'attraction de la position initiale de phrase. C'est par l'addition ou l'opposition de ce facteur psychologique au facteur mécanique force-aperture (combinaison de la force et de la fermeture) que s'expliquera en très grande partie le jeu des e instables de monosyllabes à l'initiale. Mais avant d'aborder le traitement détaillé de ce jeu, et pour mieux le suivre, saisissons-en les grandes lignes, en dehors de toute exception. L'e instable de monosyllabe initial de phrase se traite de deux manières opposées selon qu'il est suivi ou non d'un second e instable de monosyllabe : I. Quand il n'est pas suivi d'un second, il est généralement omis : j m'en vais, c n'est pas ça. II. Quand il est suivi d'un second, il est généralement conservé (et le second omis): je n m'en vais pas, ce n peut pas être ça. L'explication en est simple. Dans le premier cas, la lutte pour la position initiale de phrase est entre une voyelle instable et une voyelle stable. La voyelle stable l'emporte. Dans le second, la lutte est entre deux voyelles instables. Celle qui est en position initiale est de ce fait avantagée et l'emporte. Dans les deux cas, ce qui fait pencher la balance, c'est la force d'attraction—le poids psychologique—de la position initiale de phrase dans une langue où l'intensité des syllabes est si également distribuée. Très légère dans le parler parisien cultivé, plus marquée dans le parler parisien des faubourgs, cette attraction de l'initiale se révèle, en français, dans l'accent d'insistance. Et maintenant reprenons le traitement en y faisant entrer les facteurs de moindre importance. La grande loi qui va présider au jeu des e instables de monosyllabes à l'initiale peut s'énoncer de la sorte: le facteur psychologique (attraction de la position initiale de phrase) joue contre le facteur mécanique (force d'articulation consonantique combinée avec aperture consonantique) et l'emporte généralement, mais d'autant moins nettement que ce dernier facteur lui oppose plus de résistance. 2 Maurice Grammont, Traité pratique édition, pp. 117-118.
de prononciation
française
(Paris, Delagrave, 1938), 9e
30
L'"E" INSTABLE DE MONOSYLLABE INITIAL EN FRANÇAIS
I. U N SEUL MONOSYLLABE
Pour étudier pratiquement son fonctionnement, dressons la liste des monosyllabes, suivis d'exemples, dans l'ordre où leurs chances de tomber vont en se réduisant. je
j pourrai vous le donner j n'ai pas compris j t'écrirai après j vais le voir à Vinstant j m'en vais immédiatement
ce se
c tableau ne vaut pas gros s passe-t-il de tout c goût-là n'est pas le mien c n'est pas du tout ça s fait-il comprendre
le
l pari est gagné l comprenez-vous l dentiste vous attend l jeu va commencer l nouveau venu est là
ne
n pouvez-vous pas passer n m'en parlez pas n l'oubliez pas
me
m quittez-vous m diras-tu ce que tu sais m répondras-tu
de
de qui parlez-vous de mieux en mieux de chez qui viens-tu
te
te prépares-tu déjà te souviens-tu de lui te renverra-t-on
que
que pensez-vous que nous rapportez-vous que c'est loin
La vitesse à laquelle on parle a une grosse influence sur l'omission ou le maintien des e: à un débit particulièrement rapide, tous les e ci-dessus peuvent s'omettre; à un débit particulièrement lent, tous peuvent se maintenir. En d'autres termes, l'e de monosyllabes est fort instable. Mais les débits excessifs dépendent soit d'habitudes particulières de langage, soit de conditions affectives dont nous ne nous L E DÉBIT.
L'"E" INSTABLE DE MONOSYLLABE INITIAL EN FRANÇAIS
31
occuperons pas ici. Occupons-nous seulement du langage le plus naturel des gens cultivés—non pas ce qu'ils disent qu'il faut dire, mais ce qu'on les entend dire quand ils ne s'observent pas. DEGRÉS DE STABILITÉ. La prononciation des exemples ci-dessus correspond à des conditions normales de conversation, dans le langage vivant des gens cultivés, en dehors de toute influence affective. Je se maintient le plus rarement, que le plus fréquemment, et entre les deux la gradation est continue, avec de comme centre d'équilibre. S'il fallait donner des chiffres, nous dirions que: je, ce, se s'omettent les du temps; le les £; ne, me, les f ; de la moitié; et que te, que se maintiennent les f du temps. Mais, bien que basées sur des années d'observation, ces proportions restent fort subjectives. ARTICULATION. Pour acquérir des habitudes de langage bien françaises, nous conseillons de travailler les phrases ci-dessus en omettant l'e de je, ce, se, le, ne, me, et en maintenant celui de de, te, que (nous le maintenons dans de parce que, pour un étranger, il vaut mieux en prononcer trop qu'en omettre trop). Pour omettre les e sans heurt, deux conseils très importants : 1. Faire porter le maximum de tension musculaire sur la seconde consonne (celle du mot qui suit le monosyllabe) et passer sans effort sur la consonne du monosyllabe. 2. Pour les monosyllabes dont la consonne est sonore, faire vibrer les cordes vocales dès le début de la consonne. Le français fait entendre le bourdonnement du voisement pendant la mise en place des organes, ce qui donne l'impression auditive que le bourdonnement précède la consonne. DISCUSSION. Nous avons vu que le facteur psychologique réside dans l'attraction de la position initiale. Au début de la liste d'exemples, cette position revient à la syllabe stable, puis de moins en moins en descendant les exemples. A la fin, te et que l'emportent sur la syllabe stable et s'installent à la position initiale. D'où vient cette gradation? Cherchons-la dans le facteur mécanique de la nature des consonnes. L'ordre de nos exemples n'est exactement ni celui des apertures consonantiques décroissantes, ni celui des forces d'articulation consonantiques décroissantes. Pour l'aperture, cet ordre serait: le je ce-se ne me de te que.3 Pour la force d'articulation cet ordre serait: je ce-se ne me de le te que.* Combinons ces deux listes en plaçant le à mi-chemin entre ses deux positions, et nous obtenons l'ordre de nos phrases : je ce-se le ne me de te que—ordre qui combine les deux facteurs mécaniques de l'aperture et de la force d'articulation. On pourra donc dire : Quand un seul monosyllabe en e instable commence la phrase, il tend à perdre son e, mais d'autant moins que sa consonne est plus forte-fermée. Pour qu'il cesse de perdre son e, il faut que sa consonne ait le degré maximum de force-fermeture. Autrement dit, pour vaincre le facteur psychologique, il faut que le facteur mécanique atteigne son maximum.
3
Pierre Delattre, Principes de phonétique française bury, Middlebury College, Vt„ 1947), p. 9. 4 Ibid., p. 10.
à l'usage des étudiants anglo-américains
(Middle-
32
L'"E" INSTABLE DE MONOSYLLABE INITIAL EN FRANÇAIS II. DEUX MONOSYLLABES
Dressons un tableau des groupes de deux monosyllabes en e instable à l'initiale, en nous basant sur la même classification consonantique que dans la partie précédente— classification par degrés de force-aperture (Figure 1). En allant de faible-ouvert à fort-fermé, l'ordre des monosyllabes est : je, se-ce, le, ne, me, de, te, que. (Voir l'analyse du facteur force-aperture dans la première partie de cet article, The Frertch Review, May, 1949.) Sur les 28 groupes, seuls les deux de l'extrême droite, en bas, favorisent la chute de Ve initial. Tous les autres favorisent son maintien, et généralement d'une manière d'autant plus stable qu'ils se rapprochent plus du coin de gauche en haut. Pour le vérifier, faisons une liste d'exemples de l'emploi de ces groupes, en allant de haut en bas et de gauche à droite. Que j tombe mal ! Que c tableau est laid! Que s veulent-ils? Que l fais-tu faire? Que n voulez-vous pas? Que m demandez-vous? Que d patience vous avez ! Que t vendra-t-on? Te l faut-il tout? De c moment, on a compris. De s vanter lui va bien ! De I voir me dégoûte. De n pas partir m'ennuie. De m taire m'assomme. De t voir m'irrite. Me l direz-vous? Ne 5 dépêchera-t-il pas? Ne l payez pas. Ne m quittez pas. Ne t laisse pas faire. Se l fait-il envoyer? Ce n doit pas être vrai. Ce m semble. Je l vois d'ici. Je n pense pas. Je m prépare.
J te répondrai. C que tu voudras. En vue d'acquérir l'habitude d'articuler les groupes de monosyllabes, à l'initiale, d'une manière vraiment française, il sera bon de s'assimiler toutes les phrases ci-dessus par d'abondantes répétitions. Ces répétitions devront se faire en observant un rythme syllabique très égal afin que Ve instable soit complètement omis CONSEILS PRATIQUES.
33
L ' " E " INSTABLE DE MONOSYLLABE INITIAL EN FRANÇAIS
JE
QUE
QUE
LE
CE-SE
J
QUE C QUE S
TE
DE
DE C DE S
ME
NE
LE
CE SE
JE
NE
S
NE
QUE L
TE
L
DE
L
QUE
N
QUE
DE
N
DE
L
NE
L
SE
L
CE
L
JE
JE
DE
M
QUE D
M
QUE
TE
QUE
T
DE
T
NE
T
V/
'//
ME
#
ME
V/ HE
H
//
M
CE
M
JE
M
C
J
QUE
TE
Fig. 1. Tableau des groupes de deux monosyllabes en e instable. La force-aperture augmente horizontalement de gauche à droite et verticalement de bas en haut.
quand il doit s'omettre et aussi clairement énoncé que toute autre voyelle quand il ne doit pas s'omettre: [ka—3tà—bmal], [ka—sta—blo—e—le], etc., doivent produire un effet rythmique semblable à un, deux, trois-, un, deux, trois, quat, cinq. Dans les groupes qui maintiennent l'e initial, on veillera à ne pas anticiper la consonne du second monosyllabe, surtout lorsque c'est une liquide ou une nasale. Pour y arriver, il sera indispensable d'exagérer, pendant quelque temps, l'ouverture syllabique: [ma—ldirevu], [na—lpejepa], [sa—ndwapazetravre], [33—npôspa], [na— mkitepa], [33—mprepar], etc. Pour les groupes qui omettent l'e instable initial, veiller à faire porter la tension musculaire sur la seconde consonne (celle du second monosyllabe) et à passer doucement sur la première: [skatyvudra], [3tarepodre]. En plus des listes qui précèdent, il sera utile de travailler des listes contrastantes comme la suivante: j comprends—je / comprends j peux Vannoncer—je n peux pas
l'annoncer
34
L ' " E " INSTABLE DE MONOSYLLABE INITIAL EN FRANÇAIS j m'amuse—je m suis amusé s met-on le sac au dos—se l met-on c n'est pas vrai—ce n peut pas être vrai c n'est pas parfait—ce m semble n commencez pas ça—ne l commencez pas n répond-il pas—ne s répondent-ils pas n parle plus—ne m parle plus m jouerez-vous ça—me l jouerez-vous
avons déjà vu que lorsque le premier e instable est suivi d'un second, le facteur psychologique de la force d'attraction de la position initiale favorise le maintien du premier e. Si donc il n'y avait pas d'autre facteur que ce facteur psychologique, l'e initial se maintiendrait uniformément dans tout le tableau, et le second tomberait partout. Ce n'est pas le cas : ce premier e est de moins en moins stable à mesure qu'on descend vers le coin du bas, à droite, et il finit même par disparaître au profit du second dans les deux derniers groupes. A quoi attribuer cette déviation? Sans doute à l'intervention du facteur mécanique. Examinons son fonctionnement. Comme nous avons deux consonnes dans chaque groupe, comparons-les du point de vue force-aperture. La diagonale formée par les cases vides divise le tableau en deux zones. Dans celle de gauche, la première des deux consonnes est plus forte-fermée que la seconde; dans celle de droite, c'est la seconde qui est plus forte-fermée que la première. La différence de force-aperture atteint son maximum dans les deux coins opposés (hautgauche, et bas-droite) et son minimum le long de la diagonale. C'est aussi dans ces deux coins opposés que la stabilité de l'e atteint son maximum (haut-gauche: que j, que c; bas-droite: j te, cque). Nous pouvons donc dire que l'e est d'autant plus stable a) qu'il s'appuie sur une consonne plus forte-fermée, et b) que la différence de force-aperture entre les deux consonnes est plus grande. Et inversement. C'est là le fonctionnement du facteur mécanique. S'il n'y avait pas d'autre facteur, le premier e se maintiendrait dans toute la zone de gauche et s'omettrait dans toute la zone de droite. ANALYSE DU TABLEAU. NOUS
Maintenant, confrontons ces deux facteurs. Dans la zone de gauche, ils opèrent dans le même sens: le facteur psychologique (force de la position initiale) favorise uniformément le premier e; le facteur mécanique favorise aussi le premier e (la consonne du premier monosyllabe est la plus forte-fermée), mais de moins en moins à mesure qu'on approche de la diagonale (la différence de force-aperture est de moins en moins grande). Résultat: le premier e se maintient nettement dans toute la zone de gauche, mais sa stabilité diminue à mesure qu'on approche de la diagonale. Dans la zone de droite, les deux facteurs opèrent en sens opposés l'un de l'autre: le facteur psychologique favorise uniformément le maintien du premier e (force de la position initiale); le facteur mécanique favorise sa chute (la consonne du premier monosyllabe est la moins forte-fermée), et cela d'autant plus qu'il s'éloigne de la diagonale (la différence de force-aperture est de plus en plus grande). Résultat : tant que le facteur mécanique n'est pas très accusé, le facteur psychologique garde le
L ' " E " INSTABLE DE MONOSYLLABE INITIAL EN FRANÇAIS
35
dessus et Ve initial se maintient—bien qu'avec un degré de stabilité moins grand que dans la zone de gauche; quand le facteur mécanique atteint son maximum, c'est lui qui prend le dessus et Ve initial s'omet (le second se maintient). DEGRÉS DE STABILITÉ DES GROUPES. Parmi les groupes qui favorisent le premier e (toute la zone de gauche et une grande partie de la zone de droite), la stabilité diminue à mesure qu'on s'éloigne de la gauche et surtout du haut du tableau. Ainsi que j présente un maximum de stabilité. On entend toujours que j tombe mal, jamais qu je tombe mal. Mais près de la diagonale, un groupe comme me l est légèrement moins stable. Ainsi on entendra parfois m le direz-vous, au lieu de me l direz-vous. Rarement, bien entendu, sans doute moins d'une fois sur cent. De l'autre côté de la diagonale, surtout en descendant, l'instabilité s'accentue encore. Ainsi j le vois, j me prépare s'entendent au lieu de je l vois, je m prépare, mais—disons—moins d'une fois sur dix. Par contre le groupe je n est très stable. On n'entendra jamais j ne pense pas pour je n pense pas. Pourquoi? Du point de vue mécanique, il devrait avoir à peu près le même degré d'instabilité que je l et je m. Je n ne doit pas sa stabilité à un facteur mécanique, mais à un facteur psychologique: la fréquence d'usage dans la langue parlée (c'est le groupe de plus haute fréquence du tableau). (Disons en passant que je n ne doit pas non plus sa stabilité au fait que c'est un groupe figé. Il ne peut pas être question de groupes figés à l'initiale, mais seulement à l'intérieur des phrases. A l'initiale, les groupes ne sont pas déjà figés pour la bonne raison que c'est là qu'ils le deviennent.) C'est sans doute la stabilité de je n qui entraîne celles de ce n et de de n. Ainsi c'est encore à un autre facteur psychologique, l'analogie, que ce n et de n doivent leur si abilité. Enfin si nous comparons l'un à l'autre les deux groupes j te et c que qui favorisent le deuxième e, nous remarquons que j te est moins stable que c que. Il est très rare d'entendre ce qu tu voudras (peut-être une fois sur mille), mais beaucoup moins d'entendre je t répondrai (peut-être une fois sur vingt). Mais arrêtons là cette analyse qui mènerait trop loin si on l'étendait à tous les groupes. Constatons seulement qu'il existe d'autres facteurs psychologiques que l'attraction de la position initiale. Et de même il existe d'autres facteurs mécaniques que la force-aperture. Ainsi le facteur de l'affinité consonantique (la facilité avec laquelle deux consonnes peuvent s'articuler ensemble) aiderait à expliquer la place de bien des groupes dans le tableau. CONCLUSION. La loi des trois consonnes, qui explique si clairement le jeu des e instables intérieurs de mots et de phrases, n'est plus d'aucun secours lorsqu'il s'agit de Ve instable de monosyllabe initial. Pour expliquer le jeu de ce dernier e instable, nous avons fait appel à de nouveaux facteurs—les uns psychologiques, les autres mécaniques. Le principal facteur psychologique réside dans la force d'attraction de la position initiale de phrase, le principal facteur mécanique dans le degré de force articulatoire et le degré d'aperture des consonnes des monosyllabes, que nous avons réunis en un seul facteur sous le nom de "force-aperture". Ces deux types de facteurs tantôt se soutiennent, tantôt s'opposent; d'où la complexité des résultats pratiques et la variété dans les degrés de stabilité.
LA LIAISON EN FRANÇAIS, TENDANCES ET CLASSIFICATION*
Rappelons d'abord la distinction à faire entre liaison et enchaînement. Le mot "liaison" ne s'applique qu'à des consonnes qui sont muettes dans le mot isolé: grand ami, petit ami; le mot "enchaînement" s'applique à des consonnes toujours prononcées, aussi bien dans le mot isolé que dans la chaîne parlée: grande amie, petite amie. Comparons phonétiquement deux cas où la consonne paraît être la même dans la liaison et l'enchaînement: petit ami, petite amie. L'analyse expérimentale montre que la consonne d'enchaînement a une tension croissante légèrement moins forte que celle de la consonne de liaison. L'union consonne-voyelle est donc plus étroite dans la liaison que dans l'enchaînement. Cependant, du point de vue pratique, il suffit de savoir que, dans les deux cas, la consonne fait partie de la syllabe de la voyelle qui suit. DÉFINITION
La liaison est la survivance de quelques enchaînements de consonnes finales de l'ancien français. A une époque antérieure, toutes les consonnes finales que l'on écrivait étaient prononcées (ah! le bel âge!). Aujourd'hui, ces consonnes graphiques sont en grande majorité muettes dans les mots isolés; mais dans la chaîne parlée, on les prononce encore quand l'union du mot à consonne finale avec le mot suivant à initiale vocalique a été assez forte pour conserver, à travers les siècles, l'enchaînement ancien. De là, le premier principe, qui pourrait suffire à résoudre tous les cas de liaison, de non-liaison ou de possibilité de liaison: la liaison se fait dans la mesure où l'usage a consacré Vextrême étroitesse d'union de deux mots ou classes de mots: Ils entrent, mais : les gens / entrent. Un petit habit, mais : un habit / étroit.
Dans l'enseignement des débutants, on peut s'en tenir à ce seul principe. Alors il suffit d'habituer les élèves à juger du degré d'union. S'ils font la liaison après et, on ne leur dit pas que et offre une exception et ne se lie jamais au mot suivant, on leur fait plutôt entendre que et, en réunissant deux groupes de mots, ne s'unit régulièrement ni à l'un ni à l'autre ; on compare et il à est-il du point de vue de l'étroitesse d'union : impossible de faire une pause dans est- il grand, mais on peut en faire une dans et il vient. *
Déjà publié dans The French Review, XXI, 2 (December, 1947), pp. 148-157.
40
LA LIAISON EN FRANÇAIS, TENDANCES ET CLASSIFICATION
TENDANCES GÉNÉRALES
1. La liaison dépend du style. Elle se fait d'autant moins que le style est plus familier. On peut distinguer au moins quatre styles: 1. La conversation familière. 2. La conversation soignée. 3. La conférence. 4. La récitation des vers. Dans la conversation familière, on ne fait pas ou presque pas de liaisons facultatives : Des hommes I illustres ¡ont ¡attendu.
Dans la conversation soignée, on en fait une petite proportion: Des hommeslillustreslont
attendu.
Dans la conférence, on en fait beaucoup : Des hommes illustresjont
attendu.
Dans la récitation des vers on les fait toutes ou presque: Des hommes illustres ont attendu,
[de zom zilystra zâ tatàdy]
2. Entre deux groupes de sens, la liaison est rare. Ce n'est que dans la récitation des vers qu'elle s'entend sans produire un effet étrange: ... Nos roses dans l'enclos ont été ravagées... ... Chantez, oiseaux ! ruisseaux, coulez ! croissez, feuillages !... ... Vous êtes, ô vallon, la retraite suprême... ...Toutes les passions s'éloignent avec l'âge... (Hugo, Tristesse d'Olympia) ... Tous les preux étaient morts, mais aucun n'avait ...Le soldat, en riant, parlait à la bergère...
fui...
(Vigny, Le cor) Dans la conversation, la liaison ne se fait jamais entre deux groupes de sens. Comparez les deux exemples ci-dessous: Le petit enfant. Le petit/attend sa maman.
3. La liaison se fait surtout en passant d'un mot moins important à un mot plus important : Nous arrivons.
Les amis.
Deux élèves.
En entrant.
Une seule exception à ce principe: le pronom personnel après le verbe. Est-il?
A-t-il?
Sont-ils?
Entrent-ils?
Allez-y.
LA LIAISON EN FRANÇAIS, TENDANCES ET CLASSIFICATION
41
4. La liaison se fait davantage au pluriel qu'au singulier. Elle peut servir à les distinguer l'un de l'autre : il y a tendance (pas obligation) à marquer le pluriel par une liaison en [z] et le singulier par l'absence de liaison. Des soldats espagnols; un soldat/espagnol. Des maisons à vendre; une maison/à vendre. Les lilas et les roses; le lilas/et la rose. 5. La liaison se fait d'autant plus que le premier des deux mots est plus court: En un jour; depuis un jour. Très utile; extrêmement utile. 6. L'n des voyelles nasales résiste à la liaison facultative. Comparez deux à deux les exemples ci-dessous: dans les phrases de gauche la liaison est soit facultative, soit interdite dans le style de conversation mais possible dans un style plus soutenu; dans les phrases de droite la liaison est absolument impossible, quel que soit le style. Avons-nous envoyé ça? a-t-on/envoyé ça? Placez-vous en bas; placez-en/en bas. Un repos¡agréable; un chemin\agréable. Un profit ¡énorme; un ballon! énorme. Un tempsjaffreux; un plan/absurde. Prêt à partir; bon/à voir. Grand à ravir; vain/à souhait. Affreux à voir; vilain/à faire peur. Plusieurs arrivent; chacun/arrive. Deux à deux; un/à un. Après les nasales, donc, toute liaison qui n'est pas obligatoire est interdite. Les liaisons obligatoires se font après : un, en, on, mon, ton, son, bien, rien et les adjectifs qualificatifs en nasales. 7. Les adjectifs en nasales se dénasalisent dans la liaison avec le nom qui suit. La liaison est alors semblable à l'enchaînement du féminin correspondant. Un bon élève. Un ancien ami. Un vilain habit. Un certain effet. Au moyen âge. En plein hiver. Au prochain arrêt. Un vain effort. Le divin enfant. Un humain intérêt. Un lointain avenir. Un soudain effet. Un hautain aspect. Un souverain effet.
Une bonne élève. Une ancienne amie. Une vilaine affaire. Une certaine espèce. Sa moyenne est bonne. En pleine action. A la prochaine avenue. Une vaine entreprise. La divine enfant. Une humaine attitude. Une lointaine association. Une soudaine affaire. Une hautaine attitude. Une souveraine influence.
42
LA LIAISON EN FRANÇAIS, TENDANCES ET CLASSIFICATION
8. Les seules consonnes passibles de lier sont : s, z, x, t, d, n, r, p, g. Des amis amusants. Parlez-en chez elle. L'heureux homme. Un petit homme lit un essai. Un grand homme prend un objet. Pour arriver au premier étage. Vous êtes trop aimable. Vous avez beaucoup aidé. Un long usage.
Pour p et g, la liaison est limitée aux mots : trop, beaucoup et long. "Sang impur" ne ferait naturellement jamais la liaison dans le style de conversation : on dirait [sa spyr] et non [sâkspyr] comme dans la Marseillaise. 9. Certaines consonnes subissent des changements dans la liaison. La tendance générale de ces changements peut s'exprimer ainsi: les fricatives se voisent et les occlusives se dévoisent. Fricatives : gros homme, heureux homme, neuf heures. Occlusives : prend-il, grand homme, sang impur.
Pour g il faut noter qu'on entend les deux prononciations [g] et [k] dans la liaison de long. F n'est voisé que dans deux expressions : neuf ans et neuf heures. Ce sont les seules où il est senti comme liaison. Partout ailleurs, il reste sourd parce qu'il est senti comme enchaînement: neuf élèves. En réalité Vf de neuf est un cas d'enchaînement plutôt que de liaison : bien qu'on dise [nœ pa3], on dit [pa3 nœf], et le mot isolé est [nœf] et non [nœ], (Rappelons que la prononciation [nœ pa3] est une survivance de la prononciation courante du XVIe siècle, où toutes les consonnes finales tombaient devant une autre consonne. Il nous en reste des témoins dans: béjaune (bec jaune), chefd'œuvre, cerf-volant, et dans les numéraux 5, 6, 7, 8, 9, 10: cinq pages, six pages, sept pages, huit pages, neuf pages, dix pages [sêpa3, sipa3, sepa3, qipaj, nœpa3, dipa3]). Dans l'enchaînement, normalement, la consonne ne change pas de nature: neuf élèves. Comparez les exemples suivants: Grand ami [grâtami] ; grande amie [grâdami]. A tous égards [atuzegar]; ils sont tous ici [ilsâtusisi].
Dix albums [dizalbom]; j'en ai dix à vendre [3ânedisavâdr]. Six et dix ne sont sentis comme liaison que devant le nom, l'adjectif et le pronom: dix amis, dix aimables amis, six autres. 10. La liaison contribue parfois à faire sentir ou à renforcer des oppositions de sens. Comparez les exemples suivants: Un marchand de draps anglais. Un marchand de drapjanglais. Une fabrique d'armes anglaises. Une fabrique d'armeslanglaise. Un savant aveugle. Un savant ¡aveugle. Est-il? Et ¡il... Coupez-vous-en dix. Coupez-vous/en dix. Les auteurs. Les/hauteurs. Les uns. Les/Huns. Un être. Un/hêtre. En eau. En/haut
43
LA LIAISON EN FRANÇAIS, TENDANCES ET CLASSIFICATION CLASSIFICATION D E S L I A I S O N S
Dans les tableaux qui suivent, nous distinguons, d'une part les liaisons obligatoires, les liaisons facultatives et les liaisons interdites-, d'autre part les liaisons qui se rapportent au nom, les liaisons qui se rapportent au verbe, les liaisons qui se rapportent aux mots invariables (prépositions, adverbes, conjonctions), et les liaisons spéciales qu'on classe généralement comme "exceptions." Il est évident que les distinctions "obligatoires, facultatives, interdites", ne sont pas absolues. Elles varient selon le style. Dans les exemples qui suivent, elles se rapportent, autant que possible, au style de la conversation soignée courante—style encore variable selon les individus et le milieu où ils se trouvent. Le tableau simplifié est là pour permettre de saisir d'emblée le plan de notre classification. Le tableau détaillé—dans les pages suivantes—suit exactement le même plan. Tableau Simplifié OBLIGATOIRES
déterminatif
s o z
f nom j pronom [ adjectif
vos enfants deux autres un ancien ami
pronom personnel + ils ont compris nous en avons a W >
w -I CQ < S < > g
VI
UJ J
-
.
- *i
-r-
•• L _ m
*
!
.: . «/I
!
! •
I
....
i
i
j
•!
l(
J
-ML.
[
j r
.
i nn
!
i
i.
•
r., .
i i
trr1
•
i
!
••
...Mf . .
•
1
•
:
_
-
kr
,!
kl
!
• M
!
9 Oïl Ut
11 r jS-
4~ i
:
j, r
—
i ;
- f !
V
' S 3
&
..
:
:
•
... .Si
1 1 «« j•i sà
Q! «
i l "
ino
.
H
-•
!
1
î
'"'
«
• L
«
** 1:
i
I-
: :
•
!"
r
•
••
.....
•
Figure 1
...
• f
•
...
J »
! t.
;
LA FORCE D'ARTICULATION CONSONANTIQUE EN FRANÇAIS
115
n et p. Le tableau les place, n à 62, y? à 47. Cela confirme ce que tous les manuels enseignent, à savoir que la consonne mouillée est plus faible d'articulation que la consonne dure correspondante. On sait que le palais artificiel montre une bien plus grande surface de contact langue-palais pour ji que pour n, mais que cette surface présente, pour ji, des îlots sans contact, marque caractéristique d'une faible tension linguale. On sera généralement surpris de constater que les nasales m et « ont une force d'articulation plus grande que les occlusives orales correspondantes b et d. C'est pourtant exact, et c'est un des points qui nous ont fait préciser notre définition et parler de la totalité des efforts musculaires qui prennent part à l'émission. L'Abbé Rousselot écrit: "L'm et l'n correspondent assez exactement aux deux occlusives sonores b et d avec cette différence que l'articulation est un peu plus faible. En outre le voile du palais est naturellement maintenu abaissé." 8 Il donne là les résultats de ses recherches au moyen du palais artificiel et de l'enregistreur de la parole avec membrane souple. Nous avons répété ses expériences avec les mêmes résultats: la trace laissée par la langue est toujours plus étendue pour d que pour n, et elle indique une plus grande pression ; la déviation de la plume enregistreuse sur le papier fumé est régulièrement plus ample pour b et d que pour m et n. Mais ce ne sont là que des mesures partielles de la force d'articulation : elles comprennent principalement les efforts de la langue et des lèvres; elles ne comprennent certainement pas ceux du voile du palais et des organes environnants qui s'accomodent pour ajouter, à la résonance buccale, la résonance nasale. Ces efforts supplémentaires pour donner à la consonne sa nasalité sont loin d'être négligeables, et c'est à leur addition que nous attribuons le fait que la force d'articulation des nasales est plus grande que celle des orales correspondantes. Nous n'avons parlé ici que des consonnes, mais pour les voyelles, la question ne se pose même pas, ce qui tend à confirmer notre théorie: le sens musculaire indique clairement en français moderne un plus grand effort articulatoire pour â que pour a, pour ô que pour o. La distance notable qui sépare sur le tableau les deux liquides / et r attire aussi l'attention : r est à 0 et l à 70. Ces deux consonnes ont bien pourtant toutes deux le caractère liquide d'où vient leur nom; elles ont surtout en commun un degré d'aperture qui leur permet de s'unir étroitement à la consonne précédente si elle en a un degré moindre. Mais comme consonnes simples et finales, leurs articulations sont très différentes. Sur les tracés enregistrés, IV dorsal ou pharyngal du sujet parlant est celle des consonnes qu'on a le plus de peine à distinguer des voyelles. Ses vibrations sont presque des vibrations vocaliques, ce qui met en évidence sa grande douceur. Les tracés des 1 ont au contraire des caractéristiques très consonantiques. Ils montrent un déplacement de la plume à la mise en place et indiquent une tension marquée de la langue en contact avec le palais. Les palatogrammes le confirment. Le j a été quelquefois classé parmi les consonnes très allongeantes, c'est-à-dire très douces, avec r, j , z, v. Mais il y a eu désaccord à ce sujet entre les phonéticiens. 8
Rousselot, P.-J., op. cit., p. 69.
116
LA FORCE D'ARTICULATION CONSONANTIQUE EN FRANÇAIS
Paul Passy disait: "En syllabe fermée, la voyelle est toujours longue si la syllabe est fermée par des consonnes v, z, 3,j, r, qu'on peut appeler les consonnes allongeantes." 9 Kr. Nyrop de même : "Les autres voyelles (autres que nasales et a, o, 0) sont en général longues devant les spirantes sonores z, 3,7, v, et r final".10 M. Grammont au contraire donne l'E ouvert accentué comme bref devant un j dans les mots: pareil, soleil, orteil, sommeil, conseil, conseille.11 M. Fouché est du même avis: "Une erreur répandue dans beaucoup de manuels consiste à croire que j a aussi un pouvoir allongeant". 12 Ces contradictions s'expliquent par la place qu'occupe le j dans notre tableau. Il n'est ni avec les articulations les plus fortes, ni avec les plus douces; et si l'on tient à marquer la division (d'ailleurs très grossière) entre les articulations fortes et les articulations douces, on ne sait s'il faut appeler le j la moins douce des articulations douces ou la moins forte des articulations fortes. Cela fait bien voir le défaut des classifications trop générales. Il est évident que la division des consonnes simples en deux groupes est insuffisante. Une division en trois groupes serait déjà meilleure : fortes (p, t, k), douces (r, 3, z, v), et moyennes (toutes les autres). Mais une division en cinq groupes serait bien plus satisfaisante: fortes (p, t, k), mi-fortes (/, /), moyennes (n, m, s, /, b, d, g), mi-douces (ji, j), et douces (r, 3, z, v). DEUXIÈME COLONNE. Commençons par comparer entre elles les deux premières colonnes. A l'exception de gl, tous les groupes occlusive plus liquide ont une force d'articulation moindre que l'occlusive du groupe quand elle est seule :k,t,p dépassent kr, tr, pr, kl d'une moyenne d'environ 15 degrés sur l'échelle; et g, d, b, dépassent gr, dr, br, bl d'environ 10 degrés. Ainsi l'addition d'une liquide à une consonne forte en adoucit la prononciation. Il est intéressant de rapprocher de ce fait ce qui se passe dans l'articulation des consonnes affriquées, lesquelles sont composées de deux consonnes, 13 mais émises en un seul effort articulatoire. Daniel Jones les définit de la manière suivante: "An 'affricate' consonant is a kind of plosive in which the articulating organs are separated more slowly than usual. ... When the separation of the articulating organs is performed less rapidly, the ear perceives distinctly the glide between the plosion and a following vowel or aspiration. The effect of this glide is essentially the sound of the homorganic fricative consonant, through the position for which the articulating organs necessarily pass". 14 M. Grammont est aussi très explicite : "Les organes ne se séparent pas violemment et brusquement pour donner lieu à une explosion, mais mollement, de manière à produire l'ébauche d'une fricative ou spirante. Naturellement cet élément spirant a le même point d'articulation que 9
Passy, P., Les sons du français, Ile éd. (Paris, Didier, 1929), pp. 62-63. Nyrop, Kr., Manuel phonétique du français parlé, 4e éd. (New York, Stechert, 1925), p. 97. 11 Grammont, M., Traité pratique de prononciation française, 8e éd. (Paris, Delagrave, 1934), p. 38. 12 Fouché, P., "La prononciation actuelle du français", Où en sont les études de français, Manuel général de linguistique française moderne publié sous la direction d'Albert Dauzat (Paris, d'Artrey, 1935), p. 18. 18 "Many compound phonemes consist of a stop plus a spirant or other open consonant; phonemes of this sort are called affricates". Bloomfield, L., Language (New York, Holt, 1933), p. 120. 14 Jones, D., An Outline of English Phonetics, 5e éd. (Cambridge, Heffer, 1936), pp. 145-146. 10
LA FORCE D'ARTICULATION CONSONANTIQUE EN FRANÇAIS
117
l'occlusive qui précède et l'occlusion est plus faible que celle d'une occlusive ordinaire". 16 Les termes employés par M. Jones et par M. Grammont: lentement, mollement, impliquent nécessairement une force d'articulation moindre. Le résultat de cette diminution de force d'articulation, c'est la transformation d'une consonne simple en l'ébauche d'un groupe de consonnes dont la seconde a une aperture plus petite que la première. On voit que c'est une forme d'articulation qui rappelle beaucoup celle des groupes terminés par une liquide. La comparaison des deux premières colonnes révèle ensuite que l'adoucissement d'articulation produit par l'addition d'une liquide subséquente est en rapport avec la différence d'aperture qui sépare les deux consonnes. Cette différence d'aperture est maximum pour les groupes qui commencent par k, t, p, lesquels sont le plus adoucis par l'addition de la liquide. La différence d'aperture est un peu moindre pour les groupes qui commencent par les occlusives sonores g, d, b, et le degré d'adoucissement est moins grand. Pour fl, ce groupe commençant par une fricative, la différence d'aperture est notablement plus réduite, et il n'y a plus d'adoucissement mais une légère augmentation de force d'articulation. Pour vr, la différence d'aperture est encore diminuée; de plus la fricative sonore qui commence le groupe est extrêmement douce; il est donc naturel que le groupe soit articulé plus fortement que le v seul. Le seul groupe de la troisième colonne dont la place soit difficile à comprendre est le groupe gl qu'on s'attendrait à trouver plus bas avec gr, dr, bl, br. Cela ne semble pas provenir d'une erreur dans les expériences car les résultats des cinq enregistrements faits à des dates différentes s'accordent presque parfaitement : les durées des E étaient en centièmes de seconde de 21, 21, 22, 23, 23. Il vaut mieux en chercher la cause dans un facteur général que nous appelons: l'affinité articulatoire des deux consonnes, ou la facilité avec laquelle leurs articulations peuvent s'unir, se combiner, s'emboiter, indépendamment de la différence d'aperture qui n'en est que l'un des éléments. Cette affinité articulatoire est faible dans le cas de g et / (dans l'ordre g-l) ce qui diminue l'effet adoucissant de la différence d'aperture. TROISIÈME COLONNE. Avant d'examiner la troisième colonne, il est bon de rappeler que les groupes de consonnes qu'on y trouve sont en position finale de syllabe fermée, et que cette position pousse les deux consonnes à s'unir, à faire partie de la même syllabe, ce qui est contraire à leur mode d'articulation naturel en position intervocalique (par-ti). Il est difficile de prononcer ensemble deux consonnes dont la première a la plus grande aperture, et la difficulté est d'autant plus grande que la différence d'aperture entre les deux consonnes est plus accentuée. 16 Ceci dit, on ne s'étonnera pas de voir que tous les groupes de la troisième colonne se trouvent dans la moitié supérieure du tableau. Comparons la troisième colonne à la première. Nous observons un parallélisme certain entre les consonnes simples et les deuxièmes consonnes des groupes. Chaque groupe commençant par un r a une force d'articulation plus grande que la consonne 15 19
Grammont, M., Traité de phonétique (Paris, Delagrave, 1933), p. 105. De Saussure, F., Cours de linguistique générale, 3e éd. (Paris, Payot, 1923), pp. 84-85.
118
LA FORCE D'ARTICULATION CONSONANTIQUE EN FRANÇAIS
simple qui correspond à la deuxième du groupe. Autrement dit, la force d'articulation d'une consonne est régulièrement augmentée par l'addition d'un r antécédent. Ce sont naturellement les consonnes les plus douces, comme 3, v, qui reçoivent la plus grande augmentation de force d'articulation; les consonnes k, t, p, sont déjà si fortes que l'addition de force d'articulation qu'elles reçoivent ne peut être que très peu marquée. Comme / proconsonantique s'est vocalisé au moyen âge, les groupes commençant par / sont très rares et nous n'en avons étudié qu'un exemple, le groupe It. On voit qu'il est proche du groupe rt, ce qui permet de supposer que les groupes commençant par / seraient peu différents des groupes commençant par r. La différence, dans ce cas particulier vient de ce que l'affinité articulatoire est plus grande entre l et t qu'entre r et t. Il reste le groupe rl que nous avons placé entre les deuxième et troisième colonnes. Les deux consonnes ayant la même aperture, il n'y a plus de raison pour que la force d'articulation soit augmentée par l'addition d'un r antécédent ou diminuée par l'addition d'un / subséquent. Tout dépend donc de l'affinité articulatoire, laquelle semble être forte dans l'ordre r-l. QUATRIÈME COLONNE. Dans la quatrième colonne, tous les groupes ont une force d'articulation considérable et ils diffèrent en somme assez peu entre eux. L a différence d'aperture est ici nulle ou très réduite; mais le degré d'affinité articulatoire pourra s'expliquer par de nouveaux facteurs. Comparons kt et pt, deux groupes également composés d'occlusives sourdes ayant toutes non seulement même aperture mais aussi même force d'articulation. Le premier groupe demande un effort relativement gros, le second un bien moindre. Pour le comprendre il faut observer le rôle de l'ordre des articulations. Dans l'ordre k-t, la première articulation est nettement gênée par la mise en place des organes pour la deuxième, d'autant plus que cette mise en place est toujours plus ou moins anticipée. Dans l'ordre t-k, au contraire, la première articulation ne serait pas gênée par la mise en place pour la seconde et cette première articulation pourrait se terminer librement. Pour les groupes comprenant les consonnes p et t, c'est dans l'ordre t-p que l'articulation de la première serait gênée par la mise en place pour la seconde. Dans l'ordre p-t, au contraire, la première articulation peut se terminer librement. Ainsi, dans la quatrième colonne, le groupe pt a ses composants dans l'ordre favorable au jeu de l'articulation et le groupe kt dans l'ordre défavorable. O n peut aussi observer que les lieux d'articulations des deux consonnes sont éloignés pour kt, tandis que pour pt, ils sont rapprochés sans l'être trop pour se gêner. Ce facteur ne semble valoir que pour les groupes à consonnes d'apertures égales ou presque. Le groupe gm est composé de deux consonnes sonores, ce qui pourrait expliquer que sa force d'articulation soit moins grande que celle de kt. Par ailleurs, g et m semblent difficiles à articuler ensemble parce qu'on fait effort pour conserver au g son timbre oral; mais en réalité la difficulté est souvent réduite par anticipation de la
LA FORCE D'ARTICULATION CONSONANTIQUE EN FRANÇAIS
119
nasalité de l'm qui transforme l'occlusive orale g en une occlusive nasale, le voile du palais s'abaissant brusquement et laissant le souffle accumulé s'échapper par le nez. Comparons les groupes ks, ps aux consonnes simples de la première colonne et aux groupes kr, pr de la seconde. Nous avions vu que l'addition d'une liquide après k, p avait diminué la force d'articulation. De même l'addition d'un s après k, p diminue la force d'articulation, mais la diminution n'est que très légère ou négligeable parce que la différence de force d'articulation est minime. Enfin les groupes sk et st sont tous deux plus forts que s et moins forts que k, t, la différence d'aperture étant trop limitée pour qu'il se produise une augmentation de force comme dans le cas p, t, k—rp, rt, rk. Mais ici il faut encore expliquer la distance qui sépare sk de st sur le tableau. Elle provient sans doute du degré d'éloignement des lieux d'articulation des deux consonnes: î et ; ont leurs lieux d'articulation très proches sans pour cela qu'il y ait gène; mais les lieux d'articulation de s et k sont éloignés, ce qui diminue leur affinité articulatoire. CONCLUSION
Nous avons exposé dans un tableau les rapports qui existent entre la force d'articulation des consonnes simples et celle des groupes de consonnes. On en a un exemple frappant dans la comparaison des occlusives simples aux groupes où l'occlusive est suivie ou précédée d'une liquide: l'adjonction d'un r subséquent dans la seconde colonne tend à réduire la force d'articulation, et l'adjonction d'un r antécédent dans la troisième colonne tend au contraire à l'augmenter; la réduction dans la deuxième colonne est d'autant plus marquée que la différence d'aperture entre les deux consonnes est plus grande, et l'augmentation dans la troisième colonne est d'autant plus marquée que la différence d'aperture est moins grande. La force d'articulation d'un groupe est inverse de l'affinité articulatoire des deux consonnes du groupe. L'ordre dans lequel se trouvent les deux consonnes d'un groupe, et leur différence d'aperture, sont les principaux facteurs qui déterminent leur affinité articulatoire.
DURÉE CONSCIENTE ET DURÉE INCONSCIENTE* DES VOYELLES*
Notre étude en cours sur la durée des voyelles en français fournit les données suivantes pour e accentué en fin de phrase : dans dans dans dans
le le le le
mot mot mot mot
cep serre maître . . . . mètre . . . .
14,2 42,6 32,4 19,8
centièmes de seconde es es es1
Les différences de timbre entre ces quatre e ne constituent que des nuances et sont très insuffisantes pour servir à les distinguer phonologiquement. Les différences de durée, au contraire, sont fort marquées. En se basant dessus, on serait tenté de classer l'e de serre (42) avec l'e de maître (32) plutôt qu'avec Fe de cep (14). Ce serait une erreur et nous nous proposons de montrer pourquoi. On sait que, pour les phonologues de Prague, 2 la différence de durée entre les e intenses de serre (42) et cep (14) ne constitue pas une opposition phonologique, mais seulement une variation extraphonologique qui est de caractère combinatoire parce qu'elle dépend de la nature de la consonne subséquente. La différence de durée entre les s intenses de maîtres (32) et mètre (19),3 bien que considérablement moindre, constitue, par contre, une opposition phonologique. On la nomme corrélation parce que les deux phonèmes en question sont étroitement apparentés et parce qu'ils se distinguent par la présence ou l'absence d'un caractère nettement perçu par chacun. Ce caractère est absent dans mètre et il est présent dans maître. Comment le définir? Dire que c'est une durée additionnelle n'est pas suffisant, car, à la rigueur, la différence de durée entre les e de serre (42) et cep (14) pourrait aussi se nommer additionnelle. Or le caractère que nous cherchons à définir ne doit pas plus se trouver dans *
Déjà publié dans The French Review, XII, 1 (October, 1938), pp. 49-50. Chaque nombre représente la moyenne de cinq enregistrements faits à intervalles d'au moins plusieurs jours par un même sujet parlant. On trouvera ci-dessous la durée des E pour les cinq enregistrements de chaque mot: cep (13, 14, 14, 15, 15), serre (41, 41, 42, 43, 46), maître (31, 32, 32, 32 35,), mètre (16, 18, 20, 21, 24). 2 Cf. G. Gougenheim, Eléments de phonologie française (Paris, Les Belles Lettres, 1935). 3 Nous admettrons provisoirement que l'opposition mètre-maître soit suffisamment répandue en français pour qu'on puisse la ranger parmi les oppositions phonologiques. 1
DURÉE CONSCIENTE ET DURÉE INCONSCIENTE
121
l'e de serre que dans celui de sec ou de mètre. Il faut l'appeler une durée additionnelle consciente, c'est-à-dire une durée qui s'ajoute consciemment à la durée inconsciente de
mètre.
Nous disons que la durée de l'e de mètre, comme celle des e de serre et cep, est inconsciente parce qu'elle dépend (seulement) du jeu instinctif et mécanique des muscles qui articulent la (ou les) consonne subséquente. L'effort articulatoire qui produit l'e est absolument le même pour cep (14) que pour serre (42) et mètre (19) (toutes autres conditions restant égales), mais les résultats sont différents à cause de l'influence plus ou moins abrégeante ou allongeante des consonnes qui suivent. M. N. S. Troubetzkoy exprimerait sans doute cela en disant que les 8 de ces trois mots sont des intentions phoniques égales.4 Au contraire, quand on oppose mètre (19) à maître (32), on ne peut plus parler de même effort articulatoire pour les deux s car l'influence des consonnes qui suivent est la même et les durées ne sont pas égales. Pour que l'e de maître soit plus long que celui de mètre, il faut donc qu'à l'effort articulatoire inconscient de l'e de mètre, il s'ajoute un supplément d'effort articulatoire qui est conscient puisqu'il n'obéit plus aux effets mécaniques de l'articulation consonantique subséquente. Ce supplément conscient de durée permet d'appeler la durée totale de l'e de maître consciente. On comprend donc que l'e de serre (42) dont la durée est inconsciente ne puisse être classé avec l'e de maître (32) dont la durée est consciente, mais appartienne au même phonème que l'e de cep (14), malgré la forte différence de durée, parce que la durée de ce dernier e est aussi inconsciente.
4
Cf. R.-M. S. Heffner, "The program of the Prague Phonologists", American Speech, XI, 108-190.
ANTICIPATION IN THE SEQUENCE: VOWEL AND CONSONANT-GROUP*
Having shown, in the course of my investigation of vowel duration in French that the length of the vowel [E] before consonants decreases as the force of articulation of the following consonants increases, I published an article 1 in which I tried to make a pedagogical application of this principle. I advised French teachers not to use any length marks to differentiate the vowels of words like serre and sec, the durations of which I considered the result of equal intentions differing however because of the shortening or lengthening influence of the subsequent consonant, a mechanical and unconscious influence. Professor Daniel Jones objected to my theory. Moreover, his remarks, which followed my articles, actually denied the influence of the nature of a consonant on the duration of the preceding vowel. Having in mind the duration of [s] before [r] in words like serre, Daniel Jones said: "The fact that the lengthening is not a consequence of the nature of [r] itself is shown by the existence of words such as orge, herbe, corse, in which the vowel is not lengthened." This being entirely in contradiction to the principle mentioned before of the inverse variation of vowel length and of the articulatory force of a following consonant, I had to answer Daniel Jones and try to demonstrate that the lengthening or shortening of a vowel can definitely be the consequence of the nature of the following consonant. Professor Jones finally seemed to accept my views and printed my answer to his objections. 2 The influence of a consonant on the preceding vowel can best be explained by the action of anticipation. The importance of anticipation in historical phonetics is well known. One perfect example of it is metathesis, which is generally the anticipation of a combined speech sound the articulation of which presents some difficulty in its original place. Epenthesis also is often caused by anticipation. The same can be said of vowel nasalization before nasal consonants; of palatalization of velars before front vowels; of umlaut; and in general of numerous cases of assimilation. In the same way, in modern French, when a consonant following a vowel requires a certain effort of articulation, it is the anticipation of that effort while the vowel is * 1 2
Originally published in The French Review, XIII, 4 (February, 1940). Le Maître Phonétique, 3ème série, 64 (Dec., 1938), 66-7. Ibid., 3ème série, 67 (Sept., 1939), 41-4.
123
ANTICIPATION IN THE SEQUENCE
being pronounced which brings about too soon the articulation of the consonant, not allowing the vowel its average duration. But when the consonant is weak, the anticipated effort is smaller, the consonant shows no hurry to be heard, and the vowel can prolong itself to a greater extent. For instance, if the [e] of sec is much shorter than the [e] of serre, it is because the anticipated effort of articulation of a [k], a velar stop, is much greater than that of an [r]. It appears to be a compensatory process: a short vowel precedes a strong consonant, and a long vowel precedes a weak consonant. Its cause is the course of action of anticipation. In an effort to make this quite evident, I propose to study here some aspects of anticipation by comparing duration of vowels before groups of consonants with duration of vowels before the single consonants that enter into the groups. The following tables present a series of such comparisons. Each one of the figures gives in hundredths of a second the approximate average duration of five kymograph recordings made under equal conditions by the same person. The [s] sounds are all in stressed position at the end of a sentence or sense-group of 5 to 7 syllables.
TABLE I
Groups: r + Consonant r
r
42
42
27 r3 rv j
vJ
rd rb
d b
3
24
rg
g
rp rn • 21 rm
Ji n m
rf rs
f s
• 16
rj
I
rk rt • 12 rp
k t
rl
27
37
27
26
22
15
P 1
21
In the middle column, this table shows the durations of [e]'s before groups comprising an [r] and another consonant. On the left are the durations of [e]'s before [r]; and on the right the durations of [e]'s before the second consonants of the groups. Let us make comparisons.
124
ANTICIPATION IN THE SEQUENCE
All [e]'s have less duration before the groups than before [r] alone. Therefore, the anticipation of the group does not correspond to that of the groups' first consonant. In comparing from top to bottom the durations before the groups with the durations before the second consonants of the groups, there appears between these two columns a striking correspondence: the shortening effect of the groups increases parallelly with that of the single consonants. Therefore, it is certain that anticipation reaches the second consonant of the groups. The duration of all [E]'S is smaller before the groups than before the second consonant of the groups. Therefore, the anticipation of the group does not correspond to the anticipation of the second consonant of the group. Since both consonants are involved in the process of anticipation, and it corresponds to neither one of them, we must understand that there is anticipation, not of one or the other of the two consonants, but of their combination. We have just seen that the shortening effect of groups beginning with a liquid is stronger than that of the second consonant of these groups. According to the theory of vocalic duration mentioned before, it means that one anticipates a greater effort in the pronunciation of serve, certes, than in that of sève, sept, and that the pronunciation of [rv], [rt], in the same syllable, is comparatively difficult. It is interesting to notice a complete agreement between this fact and what happens in phonetic syllabication : in words like cei\eau, certain, where the two consonants do not have to belong to the same syllable, they choose to be divided, observing the principle of economy of effort, the [r] belonging to one syllable and the [v] or [t] to the following one. (Without entering details of the problems of syllabication, let us recall that the main reason for the separation of these two consonants is to be found in their difference of aperture, the first having the greater.) The group [rl], having a liquid for second consonant as well as for first, must be treated separately. Vowel duration before the group is here greater than before the second consonant of the group. The main reason lies in the importance taken here by the factor of "combination of the two consonants" which is generally secondary, although never absent. The two liquids blend so easily that the anticipated effort is smaller for their combined pronunciation than for the pronunciation of the second one alone. We shall examine next the groups ending with an [r]. It is now the second consonant of the group which has the greater aperture and the smaller force of articulation. The figures again show that there is anticipation neither of the first consonant alone nor of the second alone but of the combination of the two consonants. This fact is much more marked here than in groups beginning with a liquid, for it is the first articulation which dominates. The two consonants appear almost as a single articulation. We notice that when the first consonant has a definitely stronger articulation, it takes
125
ANTICIPATION IN THE SEQUENCE TABLE II
Groups: Consonant
27
br dr gr
32 29 28
P t k
15
pr tr kr
20 19 17
V
36
vr
28
b d g
+ r
a dominant place in the anticipation of the group. A comparison of the three columns indicates that there is a close relationship between duration before groups and duration before single consonants corresponding to the first one of the groups, except when that first consonant is a fricative. We also notice that when the first consonant of a group has a definitely stronger articulation, the anticipated effort is smaller for the group than for its first consonant alone. In more concrete terms we can say that the groups stop r are easier to articulate than the stop alone. TABLE III
Groups Without
Liquid
s s
24 24
st sk
23 17
t k
15 15
p k
15 15
ps ks
15 15
s s
24 24
g k
27 15
gm kt
14 12
m t
25 15
P
15
Pt
21
t
15
Finally, let us examine the groups without liquids. In these groups, the difference of aperture is small (in first four) or negligible (in last three). Excepting the case of [pt], which will be taken up later, the anticipated effort of articulation is greater for the groups than for their first consonant alone, or at least
126
ANTICIPATION IN THE SEQUENCE
equal to it. In other words, a group of consonants without a liquid is generally more difficult to pronounce than the first consonant of the group alone. In the first two groups, [st], [sk], the dominant articulation is in second place. However, anticipation does not operate in this case as for the groups r + consonant; in fact it is the opposite: the anticipated effort is smaller for the group than for the second consonant alone (the dominant one). This is because the difference of aperture, and consequently the tendency for the two consonants to separate, is less marked : it is not impossible to say [st], [sk], in the same syllable {pesté, presqu'île) but it is almost impossible to do it for [rt], [rk], (parti, marqué). The two next groups, [ps], [ks], have their dominant articulation in first place. It is rather remarkable that the anticipated effort of the group remains equal to that of the first consonant (the dominant one). One should not have expected it to be smaller, as for groups ending with a liquid, for the second consonant, [s], has not a sufficient aperture and is not weak enough to allow the first consonant to dominate very markedly. The two next groups, [gm], [kt], have no dominant articulation. It is normal, therefore, to find that the anticipated effort is greater for the groups than for one or the other of the consonants that compose it. The particular case of the last group, [pt], in which the anticipated effort is smaller for the group than for either one of its consonants, can be explained, as I did for [rl], by the importance of the factor "combination". The facility with which these two consonants, [p] and [t], combine is exceptional because their places of articulation are close, yet not too much, and their articulations are such that they do not interfere with each other when they follow the order [p-t]. (It would not be the same in the order [t-p].)
CONCLUSIONS
During the articulation of a vowel, anticipation of the following group of consonants reaches the second consonant of the group as well as the first. The consonant with the stronger articulation takes a dominant place in the anticipation of the group articulation only if it is very definitely dominant and at the beginning of the group. Anticipation of a group of two consonants concerns neither the first nor the second separately but the combination of the two. Groups for which the anticipated effort of articulation is greater than that of the consonant of the group having the smaller aperture are those beginning with a liquid (except [rl]), those composed of two stops (except [pt]), and the groups fricative + liquid. For the others (stop + liquid, fricative + stop, stop + fricative, [rl], [pt]) it is the opposite: the anticipated effort of articulation of the group is smaller than, or at the most equal to, that of the consonant having the smaller aperture.
ANTICIPATION IN THE SEQUENCE
127
In a more general way, the anticipated effort of articulation of a group always depends on the facility for combination shown by the consonants: groups beginning with a liquid show a minimum of facility; groups ending with a liquid a maximum. To the latter groups we must add the groups [rl] of two liquids and [pt] of two stops, the articulations of which fit each other exceptionally well when uttered in this order.
REMARQUES SUR L'ENSEIGNEMENT DE LA DURÉE DES VOYELLES FRANÇAISES*
La phonologie du Cercle Linguistique de Prague, telle que l'applique au français Monsieur Gougenheim, indique nettement que les e accentués de cep, sept, sec, appartiennent au même phonème que les e de serre, sève, seize, malgré la différence considérable de durée; d'après notre étude en cours sur la durée des voyelles, pour un même débit, les premiers e ont environs 15 centièmes de seconde et les derniers dépassent 40. L'e inaccentué de secteur appartient aussi à ce même phonème bien que sa durée soit proche de 7 centièmes de seconde. Par contre l'e de mettre, qui dure 19 centièmes de seconde, n'appartient pas au même phonème que l'e de maître de 32 centièmes, malgré le fait que la différence de durée est relativement faible. Cependant dans les transcriptions phonétiques destinées aux étudiants de français (nous disons bien transcriptions phonétiques et non transcriptions phonologiques), on trouve généralement pour l'e la même différence de transcription entre sec [sek] et serre [se:r] qu'entre mettre [metr] et maître [me:tr], la marque de durée. Si l'élève s'appuie sur ces transcriptions pour apprendre à prononcer, il risque d'obtenir de mauvais résultats. Il donnera intentionnellement une durée plus grande à l'e de serre qu'à l'e de sec, et, s'il prononce bien IV qui ferme la syllabe, l'effet allongeant—propre au français—de cette consonne sur l'e s'ajoutera à l'effet allongeant de l'articulation longue intentionnelle pour fort exagérer la durée de l'e. Or pour un Français, les efforts articulatoires des e de sec et serre sont absolument les mêmes. La différence de durée vient de l'influence mécanique et inconsciente de la consonne qui suit. Ici la différence est forte parce que le phonème k a une influence très abrégeante sur l'e, tandis que le phonème r a une influence très allongeante. Ce qu'il faut, avant que l'élève aborde le sujet de la durée vocalique, c'est lui apprendre à bien prononcer les consonnes. Alors il sera inutile de lui indiquer que l'un des deux e est plus long que l'autre. L'influence de l'articulation consonantique subséquente se chargera de l'effet allongeant ou abrégeant, et les e de sec, serre et mettre se différencieront naturellement. De même pour l'e de secteur : à l'influence des consonnes kt il s'ajoutera l'effet abrégeant, mécanique et inconscient, de la position inaccentuée. *
Déjà publié dans Le Maître Phonétique, London, 3e Série, No. 64 (October-December, 1938).
LA DUREE DES VOYELLES FRANÇAISES
129
Au contraire, pour un mot comme maître, il ne suffira pas de bien articuler les consonnes pour que l'e prenne la durée voulue, il faudra encore faire un effort articulatoire supplémentaire, portant sur l'e même, pour en augmenter intentionnellement la durée.
DURÉE VOCALIQUE ET CONSONNES SUBSÉQUENTES*
Dans un article intitulé "Remarques sur l'enseignement de la durée des voyelles françaises", qui a paru dans le Maître Phonétique d'octobre-décembre 1938, nous avons tâché de mettre le professeur de prononciation en garde contre l'emploi des marques de durée pour différencier les voyelles de mots comme sec et serre, croyant qu'il pouvait en résulter une exagération de la durée de l'e chez l'élève. Nous rappelions que "pour un Français, les efforts articulatoires des e de sec et serre sont absolument les mêmes" et que "la différence de durée vient de l'influence mécanique et inconsciente de la consonne qui suit", toutes autres conditions étant égales, bien entendu. Daniel Jones, n'acceptant pas nos conclusions, a ajouté à l'article quelques remarques qui reviennent à nier, semble-t-il, l'influence de la nature d'une consonne sur la durée de la voyelle qui précède. Et il avance une raison à l'appui de son opinion: "Le fait que l'allongement n'est pas une conséquence de la nature de IV même est mis en évidence par l'existence de mots tels que orge, herbe, Corse, dans lesquels la voyelle n'est pas allongée." Remarquons d'abord que dans les mots orge, herbe, Corse, la voyelle est sous l'influence subséquente, non d'un r, mais d'un groupe de consonnes dont la première est un r, ce qui est très différent. Faisons maintenant deux constatations parallèles: d'une part les groupes "r + consonne" abrègent tous la voyelle qui précède considérablement plus que r seul ne le fait; d'autre part, l'articulation des groupes "r + consonne" demandent une plus grande dépense d'énergie que l'articulation d'un r seul. Le rapprochement de ces deux faits et d'autres rapprochements semblables, nous ont amenés à expliquer en partie les différences de durée des voyelles par la loi d'anticipation dont le rôle est si important en phonétique historique: la voyelle s'abrège par anticipation de l'effort articulatoire subséquent; toutes autres conditions étant égales, la voyelle est d'autant plus courte que l'effort d'articulation subséquent est plus fort. Nous en donnerons quelques exemples : toutes autres conditions étant égales, 8 accentué devant 3 (neige, 37) est plus long que devant g (bègue, 24) e accentué devant g (bègue, 24) est plus long que devant k (sec, 15) e accentué devant k (sec, 15) est plus long que devant kt (secte, 12) *
Déjà publié dans Le Maître Phonétique, London, 3e Série, No. 67 (July-September, 1939).
131
DURÉE VOCALIQUE ET CONSONNES SUBSÉQUENTES
On ne peut pas manquer de s'apercevoir que dans ces exemples, les diminutions de durée correspondent toujours à des augmentations de force d'articulation consonantique subséquente. On l'observe de même par les comparaisons suivantes entre sonores et sourdes, entre continues et occlusives : e £ e e £ £ e
accentué accentué accentué accentué accentué accentué accentué
est est est est est est est
plus plus plus plus plus plus plus
long long long long long long long
devant devant devant devant devant devant devant
(sève, (aise, (neige, (vélocipède, (plèbe, (nef, (sève,
37) 40) 37) 27) 24) 19) 37)
que que que que que que que
devant devant devant devant devant devant devant
f s J t p p b
(nef, (espèce, (lèche, (cette, (cep, (cep, (plèbe,
19) 24) 29) 15) 14) 14) 24)
Une comparaison de la durée des e devant consonnes simples et devant groupes de consonnes dont la première est un r mettra encore mieux en évidence l'application de la loi d'anticipation mentionnée plus haut. Les chiffres indiquent la durée des e devant les consonnes qui suivent. 37
27
26
23
3 v
27
b d g
23
Ji n m
21
f s P t k
rb rd rg
16
I 15
T3 rv
12
rp rn rm rf rs rf rp rt rk
On voit que la deuxième consonne des groupes n'a pas une influence négligeable puisque l'ordre de diminution des durées montre un parallèle entre les consonnes simples et la deuxième consonne des groupes. L'anticipation atteint nettement la deuxième consonne. L'influence de la première consonne est aussi évidente puisque les groupes sont toujours plus abrégeants que les consonnes simples correspondantes. Ce n'est donc ni uniquement la première, ni uniquement la deuxième consonne, ni même l'une et l'autre indépendamment, qui influe sur la durée de la voyelle précédante; c'est le groupe combiné de la liquide et de l'autre consonne. Ainsi le facteur "combinaison" entre en jeu ; on en a la preuve dans le fait que les deux liquides r et / forment un groupe moins abrégeant que / seul : s devant /, 21 ; e devant rl, 27.
132
DURÉE VOCALIQUE ET CONSONNES SUBSÉQUENTES
Ajoutons que les mesures de durée faites par R-M. S. Heffner et publiées dans American Speech (avril 1937), semblent indiquer qu'en anglais aussi, la durée de la voyelle est inverse de la force d'articulation consonantique subséquente. Les voyelles étudiées ont de 5 à 7 centièmes de seconde de moins devant t que devant d. Il ne faut pas comparer ces chiffres avec ceux que nous avons donné plus haut, les conditions des travaux étant très différentes. Cependant il serait naturel que l'influence consonantique sur la durée des voyelles qui précèdent soit plus marquée en français qu'en anglais, étant donné la tension qui caractérise l'articulation des consonnes dans cette première langue, tension qui doit accentuer la douceur des douces aussi bien que la force des fortes. Revenons maintenant aux autres objections formulées: "Dans certaines circonstances, un Français allongera automatiquement la voyelle qui précède r précisément parce que c'est là une de ses habitudes linguistiques ; mais un étranger, apprenant le français, dont IV est parfait en soi, n'en fera autant que si les voyelles précédant IV sont allongées dans sa langue maternelle. Si elles ne le sont pas, il lui faut acquérir consciemment la nouvelle habitude." Au problème pédagogique qui se pose là, la longue expérience de Daniel Jones apporte une solution avant tout pratique. Nous ne la réfutons pas. Mais nous croyons que notre propre solution, bien que plus théorique, a aussi son application pratique. Qu'on nous permette de la reprendre. Elle est basée sur l'influence des consonnes subséquentes exposées dans la première partie de cet article. Il faut voir en français deux sortes de durée vocalique: la durée normale qui est celle de sec, sève, belle, mettre, herbe; et la durée exceptionnelle, qui comprend un effort supplémentaire portant sur la durée de la voyelle même, et qui est celle de maître, bêle. Nous ne parlerons ici que de la durée normale. Elle répond à des intentions de durée qui sont égales pour une même voyelle; mais ces intentions égales produisent des durées vocaliques très inégales sous les diverses influences consonantiques subséquentes, toutes autres conditions étant égales. Ainsi pour une même voyelle dans les mêmes circonstances, l'intention de durée étant la même devant toutes les consonnes, il suffit, pour un étranger apprenant le français, de savoir donner la durée vocalique voulue devant une seule consonne pour le savoir devant toute. Celui qui aura appris à prononcer correctement sec prononcera correctement serre si son r est parfait en soi, comme son k. Si la durée de son e dans serre n'est pas correcte, c'est que son r n'est pas parfait en soi : si l'e est trop bref, c'est que l'articulation de IV est trop forte; et inversement.
SOME FACTORS O F VOWEL DURATION AND THEIR CROSS-LINGUISTIC VALIDITY*
Perhaps no subject has been studied more thoroughly than vowel length before single consonants in American English. Outstanding among old and new articles are one by H. Rositzke in Language1 in the late thirties, a series of six by R-M. S. Heffner in American Speech2 ending in the early forties, and two recent articles in this Journal, one by Peterson and Lehiste, 3 the other by Arthur House. 4 Each study is more revealing than the preceding one. The last author, perceiving that some factors had not yet emerged so clearly as they could because of unsatisfactory experimental conditions in earlier works, devised an experiment in which he used abstract nonsense syllables instead of actual words, thus eliminating a number of noisy effects and gaining in uniformity. The attempt was rewarded. Factors of vowel duration that had been shady were now brought out in full light. The data of those four major studies show considerable agreement. Apart from stress and tempo, eight factors of vowel duration in American English emerge, three "internal" factors that are in the vowel itself, and five "external" factors all to be found in the single consonant that follows the vowel. In the correlating order shorter vowel/ longer vowel these eight factors are: (VI) Vowel abridging/vowel expanding, 6 (V2) less open vowel/more open vowel, (V3) monophthong/diphthong, (CI) surd consonant/ sonant consonant, (C2) stop consonant/fricative consonant, (C3) liquid consonant/ solid consonant (all except r and /), (C4) oral stop consonant/nasal stop consonant, (C5) more front consonant/more back consonant (within each of the six categories: surd stops, surd fricatives, sonant oral stops, sonant nasal stops, sonant fricatives, liquids). * Originally published in the Journal of the Acoustical Society of America, 34, 8 (August, 1962) pp. 1-2. 1 H. Rositzke, "Vowel-Length in General American Speech", Language 15, (1939), pp. 99-109. 2 R-M. S. Heffner, "Notes on the Length of Vowels", American Speech 12, 128-134 (1937); 15, 74-79, 377-380 (1940); 16, 204-207 (1941); 17, 42-48 (1942); 18, 208-215 (1943). 3 G. E. Peterson and I. Lehiste, "Duration of Syllable Nuclei in English," J. Acoust. Soc. Am. 32, 693-703 (1960). 4 A. S. House, "On Vowel Duration in English," J. Acoust. Soc. Am. 33, 1174-1178 (1961). 5 This replaces the usual terms lax vowel/tense vowel which are unacceptable, (a) There is no evidence, either articulatory or acoustic, that the shorter vowels /i u a e/ are more lax than the others. In fact lax correlates with diphthongization, and the vowels that diphthongize most are the longer ones. The terms lax and tense should be reserved for the comparison of languages: All French vowels are tense, all American vowels are lax. (b) Any implication that lax/tense might be the cause of short/ ong is badly misleading as is shown in (A).
134
SOME FACTORS OF VOWEL DURATION
When it comes to explaining these factors, however, agreement has little chance to be complete since speculation plays a considerable role. We would like to bring here additional facts to complement the discussion on "explanations," started by House in "vowel duration in English". The questions are whether, under one or more of those eight influences, variations in vowel length rest upon learned habits of the phonemic structure of American English, or are conditioned by inherent articulatory features; and to what extent conditioning factors operate in other languages as they do in English. (A) We agree with House that the "conditioned" explanation "... is untenable as an over-all explanation", and that the type /i/i/ difference of length, where longerj shorter correlates with closer/opener is "not explicable in the same articulatory terms" as, say, the type /e/i/ difference of length, where longerIshorter correlates, on the contrary, with opener¡closer. Historical facts help confirm House's contention and indicate that the /i/i/ difference of length is learned, whereas the /s/i/ is conditioned: f\j is longer than /i/ today not because it is less open—due to an articulatory conditioning —but because of the survival of a former (Middle-English) distinctive feature longl short /i:/i/ which gradually changed to a rather less central/more central articulatory distinction /i/i/ with attenuation (but not extinction) of the old long\short distinction. Thus it seems to be distinctive shortness of the vowel that caused centering (and indirectly opening) and not the opposite. We have good reasons to accept this since we know that the present difference in quality came after the difference in length. Besides, in the evolution of English, vowels shortened by unstress tend toward the center of the phonetic triangle, namely the schwa. Example: in nationalist, a former [o] and a former [a] tend toward [A] or even complete disappearance. The /E/I/ difference of length, on the other hand, has no historical source—it seems to be due to articulatory conditioning within the category of shorter vowels (more open vowel is longer), just as the /e/i/ difference of length within the category of longer vowels. A differentiation of timbre similar to that of English /i/i/ occurred in Latin to Vulgar Latin. The long [i:] remained close [i] ; the short [i] centered to [i], which the scribes started to write e for lack of a better grapheme; and eventually the distinction of length disappeared entirely. In English, although the /i/i/ length distinction has not yet disappeared, it is no longer distinctive per se. Duration still does play a part in the /i/i/ phonemic distinction, however—it is one of its acoustic correlates; whereas in the /s/i/ phonemic distinction duration is negligible as an acoustic correlate. And, let us add, the /e/i/ duration difference is not negligible just because it is small. In French, for instance, the distinctive difference of length /metr/me:tr/ (20-30) is much smaller than the nondistinctive difference /ssk/ssr/ (15-40), but the first one is phonemically learned, the last one is phonetically conditioned. 6 Examples could also be drawn from English. Some speakers will make a distinctive difference of length between bomb and balm but they will make a larger difference of length—though nondistinctive—between *
P. Delattre, "Durée consciente et durée inconsciente", French Rev. 12, 49-50, 145 (1938).
SOME FACTORS OF VOWEL DURATION
135
leap and leave. And the naive subject will easily be made conscious of the first difference of length but not of the second. (B) All authors, including House, agree that there is greater muscular effort during the production of a surd consonant (bit) than during the production of the corresponding sonant consonant (bid). But House assumes, in addition, that vowels preceding a greater effort ought to be longer—that bit ought to be longer than bid—if the /i/ duration is conditioned. Why such an assumption? We have always made the opposite hypothesis, namely that the anticipation of a greater effort would make one shorten the vowel more in bit than in bid.7 Is it not natural that by anticipation of more and longer closure in [t] than in [d] one should close earlier for the end of the preceding vowel and thus shorten it? It is well known that, in the process of speaking, one constantly anticipates. For instance, nondistinctive nasalization of vowels, whenever it occurs, in any language, is often due to the following consonant, never to the preceding one. Other observations might also help in realizing this effect of anticipation. For an English speaker we have seen that [ae] is shorter in pack or pat than in pad. But it is shorter yet in pact. Is this not indicative that the anticipation of a greater effort for the articulation of the cluster [kt] shortens more than the anticipation of a single consonant [k] or [t]? In the same order of things, Spanish [i] is considerably shorter in pinta than in pina or pita. Similarly, stops ought to shorten the preceding vowel more than do fricatives because more closure (for the stops) requires more effort—anticipation of a greater effort shortens the vowel more. In the matter of correlation between degrees of aperture and degrees of effort, consonants and vowels do not have to behave similarly as assumed by House, 8 but rather in opposite ways. We would think that in a vowel a greater effort correlates with more opening; and in a consonant, with more closure. (C) As evidence against the "conditioned" explanation, House relies on a study of surd/sonant effects on the length of the preceding vowel which minimizes this effect on Spanish vowels and implies that it does not obtain in Spanish as much as in English. 9 The conclusions of this study prove nothing against the cross-linguistic validity of the "conditioned" explanation. (1) The surd/sonant contrast practically does not exist, in Spanish, where it can affect the length of a preceding vowel. In Spanish final or intervocalic position, there is no true case of a consonant distinction based solely on the surd/sonant distinction. The sonant counterparts of final or intervocalic surd stops are all fricativated: 7
P. Delattre, "Anticipation in the Sequence: Vowel and Consonant-Group", French Rev. 13, 314-320 (1940). Heffner is of the same opinion: "It seems possible that this added energy expended on the articulation of the final [t] should have the effect of shortening the preceding vowel slightly" Am. Speech 15, 75 (1940). 8 "...the articulation of both close vowels and stop consonants may represent less muscular adjustment from a physiologic rest position of the vowel tract and may consequently require relatively less muscular effort than the production of sounds requiring more deviation from the rest position" A. House (see reference 4, p. 1177). 9 S. A. Zimmerman and S. M. Sapon, "Note on Vowel-Duration Seen Cross-Linguistically", J. Acoust. Soc. Am. 30, 152 (1958).
136
SOME FACTORS OF VOWEL DURATION
pito/pido, [pito], [pióo]. The closest thing to a surd/sonant affecting a preceding contrast vowel is the type tezjsed, [te0], [se5], but even this is not quite satisfactory for it opposes a real fricative to a fricativated stop which is an allophone of a stop. (2) The Zimmerman-Sapon study uses exclusively bisyllabic paroxytones in Spanish (pito/pido) and monosyllabic oxytones in English (iniece/knees). Is this a fair comparison? No wonder the difference between surds and sonants is found to be considerably greater in English (Spanish /p/P/, 93/130; English /p/b/, 126/200). Obviously the shortening influence of a medial consonant in a bisyllable is much less pronounced than that of a final consonant in a monosyllable. A fair comparison would have been Spanish pito/pido with English bittenjbidden in order to have bisyllabic paroxytones in both cases. (3) In the Zimmerman-Sapon study, the average difference between vowel length before surds and vowel length before sonants (18 msec) is calculated by adding all surds on one side and all sonants on the other. This, frankly, is meaningless. Comparing /k/ with /I/ proves nothing. But if instead of accepting the authors' conclusions we look at the data itself, we find more attractive duration figures before the three pairs of surd stops and their sonant (fricativated) counterparts: /p/ 93, /P/ 130; /t/ 104, ¡6/ 136; /k/ 108, /y/ 137. It is not known to what extent these differences in vowel length are due to voicing or to fricativation, but considering that they occur before medial consonants and that they are nevertheless so consistent, these vowel durations are certainly significant. It is not certain that English paroxytones of the type bitten/bidden would yield more significant differences. (4) The three pairs named above reveal a perfect front-to-back pattern: the vowels being shorter before /pp/ than before /tó/ than before /ky/. This is in remarkable agreement with the Peterson-Lehiste data on English! (5) They also reveal a perfect agreement with the notion of "force of articulation" suggested by Belasco.10 Force of articulation representing a combination of two consonant factors: surd-stop vs sonant-fricative, the /p/P/, /t/5/, /k/y/ pairs represent precisely the contrastive factors strong force vs weak force. (6) In short, agreement with English appears in three factors: surd/sonant, stop/fricative, fronter/backer. This is significantly in favor of the conditioned explanation. (D) This is not the place for a review of vowel-length behavior in other languages. We shall simply state briefly that, on the basis of the studies we know, nearly all the eight factors named above operate in French. This is very significant, for French and English are at the two opposite extremities on the scale of world languages. They differ in every possible way—tension/laxness, fronting/backing, vowel anticipation,/ consonant anticipation, etc., yet they agree on the determinants of vowel length. In other languages, Meyer for German, Metz for Italian, and Navarro Tomás for Spanish had already found the three conditioning factors: longer before sonant than 10
S. Belasco, J. Acoust. Soc. Am. 25, 1015-1016 (1953).
SOME FACTORS OF VOWEL DURATION
137
before surd, before fricative than before stop, and in more open vowels than in closer ones, in the first two decades of our century. 11 Having weighed all the additional facts we were able to contribute here, one will perhaps agree, first, that variations in vowel length are phonemically learned under only one of the eight factors listed above—the abridging¡expanding factor (also called lax/tense)—and that under the seven other factors, variations in vowel length are physiologically conditioned; secondly, that the chance for conditioning factors to be universal, to operate cross-linguistically, is far from negligible.
11
E. A. Meyer, "Zur Vokaldauer im Deutschen", Nordiska Studier tillignade A. Noreen (K. W. Appelbergs Boktryckeri, Uppsala, 1904), pp. 347-356. C. Metz, "Ein Experimental-phonetischer Beitrag zur Untersuchung der italienischen Konsonanten-Gemination", Vox 23, 201-270 (1914). Navarro Tomás, "Cantidad de las vocales acentuadas", Ret. Filología Españ 3, 387-408 (1916).
LE M O T EST-IL UNE ENTITÉ PHONÉTIQUE EN FRANÇAIS?*
Pour une langue donnée, l'entité phonétique du mot est un fait incontestable lorsque la division d'une phrase orale en mots ne présente aucune difficulté pour un étranger qui connaît imparfaitement la langue. Il ne semble certainement pas que ce soit le cas du français. On sait la peine qu'a un nouvel élève à comprendre les mots qu'il a appris isolément, dès qu'ils sont réunis dans une phrase. L'élision, la liaison et l'enchaînement aidant, le groupe rythmique lui donne l'impression d'une succession de syllabes sensiblement égales dont le rythme ininterrompu cache malicieusement les limites des mots. On ne saurait mieux décrire cet aspect du français, du point de vue pratique, que ne l'a fait M. Grammont: "Quelqu'un qui ne sait pas où commencent et où finissent les mots français ne pourrait jamais le deviner en entendant parler. Quand on s'arrête, c'est après un mot, parce qu'avec ce mot l'idée, où une parcelle de l'idée, est terminée, mais le plus souvent aucun fait matériel ne marque la fin ou le commencement des mots. D'ordinaire les mots se disent par groupes, par séries, sans aucun arrêt, et si étroitement unis l'un à l'autre qu'il n'est pas rare qu'une syllabe soit constituée par la fin d'un mot et le commencement d'un autre." 1 Rappelons en passant qu'il faut voir les principales explications de cet état de la langue française dans ce que M. Fouché a appelé le caractère oxytonique de la syllabe2 et le caractère tendu de l'articulation. 3 Kr. Nyrop s'exprimait dans le même sens que M. Grammont: "Il faut bien se rappeler que le mot est souvent une illusion et qu'en tout cas la définition du "mot phonétique" ne recouvre pas celle du "mot syntaxique". Un groupe de sons comme avwardlatu peut, suivant le cas, signifier: avoir de Vatout, ou: avoir de la toux. Cf. encore: la laine, l'haleine; la baisse, l'abbesse; la vie, l'avis; un signe allemand, un signalement, etc. Une bonne partie des calembours qu'on peut faire en français repose précisément sur cette absence de délimitation phonétique entre des mots." 4 Et il cite
Déjà publié dans Le Français Moderne, 8, 1 (January, 1940), pp. 47-56. M. Grammont, Traité pratique de prononciation française, 9e éd. (Paris, Delagrave, 1938), p. 102. 2 P. Fouché, "L'état actuel du phonétisme français", Conférences de l'Institut de Linguistique de l'Université de Paris, IV (1936), pp. 4-50. 3 Ibid., pp. 44-48. 4 Kr. Nyrop, Manuel de phonétique du français parlé, 4e éd. (New York, Stechert, 1925), p. 86. *
1
142
LE MOT EST-IL UNE ENTITÉ PHONÉTIQUE EN FRANÇAIS?
plus loin deux vers de Marc Monnier qui riment entre eux d'un bout à l'autre : Gall, amant de la reine, alla, tour magnanime, Galamment de VArène à la Tour Magne, à Nîmes. et encore : Mais il faut en sortir comme un vieillard en sort. qui aurait été compris : comme un vieil hareng saur. M. Paul Passy est aussi du même avis: "La division des mots ne change rien à la division en syllabes ... Il n'y a pas de différence entre les aunes et les zones, un invalide et un nain valide, celui qui Va vu et celui qu'il a vu ..." 5 Mais il faut une distinction très importante qui laisse entendre que le problème n'est pas entièrement résolu par ses premières assertions : "Dans un parler tant soit peu lent, on distinguera trois petites roues et trois petits trous".6 L'abbé Rousselot va plus loin. Parlant de l'union des mots, il dit: "Plusieurs exemples prouvent qu'au moins en certains cas le mot conserve dans le groupe quelque chose de son individualité.7 Et il fait suivre ses commentaires sur aptitude et apte à tout faire, le contrôleur et le Comte Roland, donna Pierre et donne à Pierre, de la remarque: "L'oreille n'est pas toujours insensible à ces différences, qui se traduisent pour elle par des nuances d'accentuation, d'intensité ou de timbre".8 Dans un article sur l'entité du mot en anglais, fourni d'exemples révélateurs, M. Daniel Jones prévoyait que les distinctions du genre trois petites roues, trois petits trous, passablement communes en anglais, étaient vraisemblablement moins communes en allemand et encore moins communes en français.9 C'est juste en ce qui concerne le français. Il suffit, pour s'en rendre compte, d'entendre dire à un Français sachant assez bien l'anglais une expression comme: not at ail. Le t qu'il y prononce deux fois est rarement autre chose qu'un t initial de syllabe, à tension croissante, comme le t de liaison dans : tout à fait. Nous nous proposons ici d'approfondir la question de la délimitation des mots par des moyens phonétiques, en étudiant le rôle que peuvent y jouer premièrement l'accent final, deuxièmement l'articulation consonantique et troisièmement l'accent d'insistance. I. RÔLE D E L'ACCENT FINAL
Une distinction comme celle qu'on a en anglais entre an aim et a name est attribuée presque entièrement à l'accent par M. Daniel Jones.10 De tels cas sont fréquents en 5
P. Passy, Les sons du français, l i e éd. (Paris, Didier, 1929),p. 61. Ibid., p. 61. ' Abbé Rousselot, Principes de phonétique expérimentale (Paris, Didier, 1924), t. II, p. 973. 8 Ibid., p. 974. 9 D. Jones, "The Word is a Phonetic Entity", Le Maître Phonétique, 3e série, 36 (oct.-déc. 1931), p. 64. 10 Ibid., p. 60: "When we compare the English an aim with a name, we find no appréciable différence of sound-quality ; the distinction is made almost entirely by means of stress." 6
LE MOT EST-IL UNE ENTITÉ PHONÉTIQUE EN FRANÇAIS?
143
anglais où l'accent est le plus souvent sur la première syllabe. Mais en français il est sur la dernière. Une distinction semblable, si elle existe, ne pourra s'attribuer à l'accent que pour les monosyllabes, la dernière syllabe y étant aussi la première. il parle du nôtre il répond du «ombre c'est du nerf hais-/es
il parle d'une autre, il répond d'une ombre, c'est d'une ère. elle est.
Le rôle de l'accent final dans la délimitation verbale est important dans la mesure où l'accent est fixe et où il tombe sur chacun des mots. En finlandais, par exemple, la première syllabe de chaque mot porte un accent. En français l'accent est fixe (sur la dernière syllabe) mais il appartient au groupe et non au mot. Il n'indique donc que la fin du dernier mot du groupe, laissant les syllabes des autres mots du groupe apparemment inaccentuées. Cependant toute syllabe finale d'un mot qui porterait l'accent à l'état isolé a tendance à ne pas se désaccentuer complètement à l'intérieur du groupe. La désaccentuation est d'autant moins complète que le mot est plus important. on s'en dégoûte un signalement la tour magnanime
on sent des gouttes, un signe allemand, la Tour Magne à Nîmes.
Ainsi, les désaccentuations incomplètes ou accentuations partielles contribuent à la délimitation du mot au cours du groupe rythmique.
II. RÔLE D E L ' A R T I C U L A T I O N
CONSONANTIQUE
Le rôle de l'articulation consonantique se manifeste surtout par le sens de la tension des consonnes. "Il ne peut y avoir un phonème à tension croissante après un phonème à tension décroissante sans qu'il y ait passage d'une syllabe à une autre", dit M. Grammont. 1 1 C'est là tout le principe de la syllabation phonétique (a-près, har-per). D e plus la croissance ou décroissance de la tension a des degrés. Elle peut être faible ou forte, et elle passe par des points où elle est neutre quand elle change de sens. Tant qu'elle ne varie que de degré, sans changer de sens, la syllabation reste la même. 1 2 Nous commencerons par étudier le cas le plus simple, celui de la liaison (tout est). Puis nous passerons aux enchaînements, qu'il faut considérer séparément selon qu'il y entre une seule consonne (tou/e est) ou deux consonnes (cou/>e-/es, coup/e est). Nous ne nous occuperons pas des cas de plus de deux consonnes. Un enchaînement, d'après le sens proposé par Mlle Pernot, 1 3 est une liaison à 1
M. Grammont, Traité de Phonétique (Paris, Delagrave, 1933), p. 102. II n'est pas certain que le changement de sens de la tension ne puisse avoir lieu qu'entre deux sons. Il semble que la tension puisse changer de sens pendant l'articulation même d'une consonne. 13 N . Pernot, "La liaison en français: liaison et enchaînement", The Modem Language Journal, Feb., 1937, pp. 333-338. 2
144
LE MOT EST-IL UNE ENTITÉ PHONÉTIQUE EN FRANÇAIS?
l'aide d'une consonne qui serait prononcée dans le mot isolé au lieu d'une consonne qui serait muette dans le mot isolé. Nous élargissons un peu ce sens en y comprenant le cas de deux consonnes aussi bien que celui d'une seule. Il entrera dans nos comparaisons quatre types de consécution consonne-voyelle et quatre types de consécution consonne-consonne-voyelle. Ce sont: 1 : tous /es (consonne initiale de mot). 2 : doutait (consonne intervocalique, donc initiale de syllabe). 3 : tou/ est (consonne de liaison qui serait muette dans le mot isolé). 4: dou/e est (consonne d'enchaînement qui serait prononcée finale dans le mot isolé). 5 : coup plait (deux consonnes qui, en tant que groupe, sont initiales de mot). 6: coup/et (deux consonnes qui, en tant que groupe, sont intervocaliques dans le mot). 7 : cou/?e-/es (une consonne qui serait finale dans le mot isolé est suivie d'une autre consonne qui serait initiale dans le mot isolé), type 8 : coup/e est (deux consonnes qui, en tant que groupe, sont finales dans le mot isolé). type type type type type type type
1. Liaison: On peut admettre que les types 1 (tous te s) et 2 (doufait) sont semblables. Il n'y a donc lieu de présenter ici qu'un genre d'oppositions: celle des types 1 ou 2, indifféremment, au type 3 (touf est). il est fout vert un nain valide c'est un neuf les zones parler de l'1/alie les raiions pâlies petit torrent petit /empie
il es/ ouvert, un invalide, c'est un œuf. les aunes parler de li/ à lit. les raies ont pâli. peti/ orage, peti/ ange.
La consonne de liaison est normalement à tension croissante, comme la consonne initiale de mot ou de syllabe. La tension ne change de sens que dans des cas exceptionnels, mais, sans changer de sens, elle peut subir un affaiblissement très léger et imperceptible à l'oreille ordinaire. Mlle Durand, dans des comparaisons expérimentales de la tension des t de petit torrent et petit orage, n'a jamais trouvé de tension décroissante pour le t de liaison de petit orage.14 L'affaiblissement de tension croissante, quand il a lieu, est accompagné d'un adoucissement général de la consonne, perceptible surtout par le fait qu'elle est plus voisée ou moins dévoisée selon que c'est une sonore ou une sourde. 2. Enchaînement comprenant une seule consonne: Ici, on peut opposer le type 3 (touf est) au type 4 (dou/e est), ce qui montre la différence entre la liaison et l'enchaînement. 14
M. Durand, Le genre grammatical en français Français Moderne, 1936), pp. 240-241.
parlé à Paris et dans la région parisienne
(Paris,
LE MOT EST-IL UNE ENTITÉ PHONÉTIQUE EN FRANÇAIS?
le toui est bon ils sont très amis le premier avis il est fai? à rebours c'est un air nouveau il perd son élégance
145
le dou/e est bon. ils sont treize amis. la première aventure, elle est fai te à rebours, c'est une ère nouvelle, une personne élégante.
Mais la différence, qui est de même sorte, est plus marquée dans l'opposition des types 1 ou 2 (tous tes, dou/ait) au type 4 (douie est). il parle du nôtre laisse-les rentrer il répond du nombre les sentiers petit rorrent un signalement un vie///ard en sort sa toi/ette est faite ferme, le boue/fer vient le souper servi donna Pierre
il parle d'une autre, laisse l'air entrer, il répond d'une ombre, laisse entier, peti/e orange, un signe allemand, un vi cil hareng saur, sa toi le était faite, ferme la boucAe et viens, la soupe est servie, donne à Pierre.
Ici, la distinction est rarement imperceptible. L'abbé Rousselot a présenté des tracés de donna Pierre et donne à Pierre sur lesquels na "apparaît plus fort que ne a" ;15 et à la même page il s'exprime d'une manière catégorique: "... donne à Pierre ne se confond point avec donna Pierre." La tension de la consonne d'enchaînement peut aller jusqu'à changer de sens et devenir décroissante, comme l'a observé expérimentalement Mlle Durand pour petite orange.16 Mais d'après ses recherches, cela n'arrive que devant une voyelle inaccentuée. Dans petite anse, où la voyelle est accentuée, le t a conservé une tension décroissante sur tous les tracés qu'elle a étudiés. Quoi qu'il en soit, quand la tension reste croissante, elle l'est généralement à un moindre degré. En même temps, l'articulation est naturellement plus douce. 3. Enchaînement comprenant deux consonnes: L'enchaînement avec deux consonnes présente des problèmes complexes. Ainsi il faut tenir compte des facteurs qui facilitent l'union ou la séparation des deux consonnes, tels que les différences d'aperture et de force d'articulation, ou le principe d'économie de l'effort. Sans entrer dans le détail des questions de coupe syllabique, nous nous sommes contentés de faire trois catégories de distinctions: les séquences de consonnes dans lesquelles l'articulation de la première consonne domine nettement; celles dans lesquelles c'est la deuxième; et celles où il n'y a pas de différence très sensible. 16 15
Abbé Rousselot, op. cit., p. 974. M. Durand, op. cit., pp. 240-241.
146
LE MOT EST-IL UNE ENTITÉ PHONÉTIQUE EN FRANÇAIS?
a) Première articulation dominante : Il n'y a pas ici de distinction perceptible entre les types 5 (coup p/ait) et 6 (coup/et). Nous aurons donc des exemples des deux genres dans la première colonne, l'un aussi bien que l'autre pouvant s'opposer au type 7 (coupe-/es). trois petits frous trois petites roues, une pluie drue, une pluie de rue. pas dràle pas de rôle, mets-la pas dessus ça (vulg.) mets la patte sur ça. c'est trop tondu cette rotonde, tu plais dupe-les. coup/et coupe-les. l'objet suit robe jésuite, le contrôlant le comte .Roland, le napperon la nappe ronde, les cou te/as écoute-/a. Dans la première colonne, les deux consonnes sont nettement à tension croissante. Dans la seconde colonne, la tension de la première consonne est plus faible et elle peut aller jusqu'à devenir décroissante. En même temps, cette consonne devient plus douce et plus ou moins voisée suivant le cas. La deuxième consonne est peu différente dans la deuxième colonne. Elle conserve sa tension croissante et l'augmente peut-être. Dans le cas où c'est une liquide précédée d'une occlusive sourde, elle retrouve le voisement qu'elle avait en partie perdu au contact de l'occlusive sourde, comme l'a fait remarquer M. Daniel Jones en comparant petits trous et petites roues. "In the case of trois petites roues and trois petits trous the différence is mainly one of soundformation, conséquent no doubt upon the point of incidence of the stress. In petites roues the final t of petites is weak and the r is fully voiced; in petits trous the t is strong and the r is partially or completely voiceless".17 Une remarque de l'abbé Rousselot, basée sur des tracés, semble indiquer encore que les deux consonnes enchaînées du type coupe-les sont moins étroitement unies que les mêmes consonnes dans le type couplet: "Dans le comte Roland, tr (l'e muet étant tombé) a une ampleur de tracé qui ne se retrouve pas pour le contrôleur",18 Dans cette catégorie, nous pouvons aussi opposer les types 5 ou 6 (coup plait, coup/et) au type 8 (coup/e est). le coup/et complet l'eau très noire l'encrier un tableau sale
le coup/e est complet, l'autre est noire, l'ancre y est. mets la table au salon.
On peut faire les mêmes remarques ici que pour l'enchaînement qui ne comprend qu'une seule consonne. Les deux consonnes sont plus douces dans la colonne de 17 18
D. Jones, op.cit., p. 60. Abbé Rousselot, op. cit., p. 974.
LE MOT EST-IL UNE ENTITÉ PHONÉTIQUE EN FRANÇAIS?
147
droite. Leur tension croissante diminue considérablement et peut même aller jusqu'à changer de sens et devenir décroissante. b) Seconde articulation dominante : Remarquons d'abord qu'ici les types 6 (couplet) et 7 (cou/?e-/es) sont semblables. En effet, il n'y a pas de distinction sensible entre pastel et passe-t-elle, parfait et par fait, serment et sers-m'en, l'armée et l'art met. Mais on trouvera des distinctions intéressantes en opposant les types 6 ou 7 au type 5 (coup p/ait) puis au type 8 (coupie est). Opposition des types 6 ou 7 au type 5 : cette esfampe la cascade une espèce c'est par/ait il l'armait la maîtresse fable laisse passer laisse-nous il leur /Montre la part faite une ère nouvelle la première quinte la première peint la première /int la première vint
c'était stable, bien scandé, un spécimen, c'est pas refait, il la rente.t. la main très s/able. c'est spatial, un snob, il le remontre. il l'a refaite. l'été renouvelle, le premier requin, le premier repeint. le premier retint. le premier revint.
Dans la première colonne, la première consonne est à tension décroissante et la seconde à tension croissante. Dans la deuxième colonne les deux consonnes peuvent être à tension croissante. La première consonne, en changeant de sens, devient forte. La deuxième, qui conserve son sens de tension croissante, montre une certaine assimilation de sonorité à la première et son degré de tension peut être réduit. Opposition des types 6 ou 7 au type 8 : partout l'armée forte elle a pesté fort à que/ cœur
n'importe où. l'arme est forte, la pesfe est forte, à quelque heure.
La première consonne ne change guère. Quant à la seconde, sa tension, toujours croissante dans la colonne de gauche, peut soit rester croissante mais à un degré moindre, soit devenir décroissante comme la première consonne. Daniel Jones avait décrit la différence ainsi: "... it seems that the t in partout is strong and with some French speakers slightly aspirated, while the t in n'importe où is weak and never aspirated". 19 La réduction de tension s'accompagne en effet d'un adoucissement de la consonne. 19
D. Jones, op. cit., p. 60.
148
LE MOT EST-IL UNE ENTITÉ PHONÉTIQUE EN FRANÇAIS?
c) Pas d'articulation dominante : Dans ce cas, les articulations des deux consonnes ayant sensiblement même aperture et même force d'articulation, les tensions sont peu accusées et il suffit d'un rien pour faire pencher la balance dans le sens de la tension croissante ou dans le sens inverse. Il y aura donc lieu de comparer entre eux les quatre types : 5 (coup pl&\X), 6 (coup/et), 7 (coupe-/es) et 8 (coupie est). petit à petit les c/énéphores vous menez la bedaine les sphères c'est cela un S/ave il fit cela
aptitude ac/eur calomnie abdique asphalte dis/oque Stanis/as il ficela
attrape fout craque tout l'homme nie l'auèe du jour. laisse faire. cesse là. la face /avée. ce fils-là.
apie à tout, la cataracte est belle, un hymne, ancien.
On constate que Je sens des tensions est plus flottant ici que dans les catégories précédentes. C'est ce que confirme la phonétique expérimentale. Ainsi M. Grammont 20 et Mlle Durand 21 offrent tous deux des tracés du mot aptitude montrant que la tension du p est tantôt croissante, tantôt décroissante. Mais le p du même groupe en position initiale de mot est toujours à tension croissante d'après les recherches de M. Grammont : "Il en est de même en français dans les mots du type : la p(é)tite, qui se prononce toujours la-ptit, jamais lap-tit",22 Dans les trois premières colonnes, la tension de la seconde consonne est toujours croissante. Mais dans la quatrième colonne, elle peut s'affaiblir au point d'être décroissante. Quant à la première consonne, elle a une tendance marquée à être à tension croissante dans la première colonne. Dans la deuxième colonne, le sens de la tension est flottant. Dans la troisième, il est encore flottant, mais il penche à être décroissant. Dans la quatrième, la tendance de la tension à décroître s'accentue. Ainsi d'une manière générale, le sens de la tension est le même pour les deux consonnes dans la première colonne (croissant) et dans la quatrième (décroissant); il diffère pour les deux consonnes une partie du temps dans la deuxième et la majorité du temps dans la troisième. Il va de soi qu'ici, comme précédemment, l'affaiblissement du degré de tension est accompagné d'adoucissement de la consonne, et inversement.
III. RÔLE DE L'ACCENT D'INSISTANCE
Malgré tout ce que nous venons de dire, il est évident que le français manque beaucoup de moyens phonétiques pour délimiter les mots. Jusqu'ici, nous n'en avons point vu 20
Op. cit., pp. 100-103. "Etude expérimentale sur la durée des consonnes parisiennes", Le Français Moderne (Paris, 1936), p. 21. 22 M. Grammont, Traité de Phonétique, p. 100. 21
LE MOT EST-IL UNE ENTITÉ PHONÉTIQUE EN FRANÇAIS?
149
qui remplace l'explosion glottale de l'allemand, l'accent initial du finlandais ou le monosyllabisme du chinois. Ce rôle peut être rempli exceptionnellement par l'accent d'insistance. Dans certains parlers provinciaux même cela peut devenir plus qu'un phénomène exceptionnel, grâce à la généralisation de cet accent: "Dans l'Est et le Sud-Est du domaine d'oïl, ainsi que dans divers points du Centre et du Nord, au contraire, il semble que l'accent d'insistance se soit généralisé et soit devenu en quelque sorte normal" ; 23 quoi qu'il en soit, chaque fois que l'accent d'insistance porte sur le son initial d'un mot—et c'est là qu'il porte dans la majorité des cas où il s'emploie—il aide indirectement à séparer ce mot du précédent. Mais en plus il est parfois employé dans le but direct de détacher certains mots au cours du groupe rythmique. Il est alors très léger et tombe sur le son initial, que ce soit une voyelle ou une consonne. Dans la conversation, au cours d'une explication un peu laborieuse, il arrive qu'on entende est aussi (èt-osi), dans un (daz-œ), avec un t, un z légèrement relâchés, à tension décroissante, et une marque d'intensité au début de la voyelle qui suit. Mais on remarque surtout l'accent d'insistance dans la conférence et l'enseignement. Le bon usage n'en abuse pas car il nuit à la beauté de la langue. On sait qu'une des qualités du français correct est justement de ne l'employer que lorsque tout autre moyen fait défaut.
CONCLUSION
La tendance du mot à être une entité phonétique en français peut se manifester, entre autres, par les moyens suivants : 1. La désaccentuation incomplète des syllabes finales de mots majeurs à l'intérieur du groupe rythmique. 2. L'accentuation de la partie initiale de mots (accent d'insistance). 3. Des altérations dans l'articulation des consonnes de liaison et d'enchaînement, appréciables surtout par le degré et le sens de la tension (croissante ou décroissante), le degré de force, et le degré de voisement.
23
P. Fouché, "Les diverses sortes de français au point de vue phonétique", Le Français t. IV (1936), p. 205.
Moderne,
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS*
Nous ne nous occuperons, dans cet article, que des groupes intervocaliques de deux consonnes (exemple: aspect). "La structure syllabique n'est pas quelque chose d'absolument fixe en français", dit M. Gougenheim en se plaçant du point de vue phonologique. 1 Il va de soi que ce manque de fixité s'attribue aussi bien à la coupe syllabique. On ne s'étonnera donc pas de ce que les traités qui ont affaire avec la description phonétique du français évitent parfois ce sujet et que ceux qui en parlent soient rarement d'accord. Nous n'avons pas la prétention de trancher définitivement la question mais simplement d'établir les tendances les plus apparentes de coupe syllabique en français moderne. Dans ce but, nous avons relevé des exemples de tous les groupes intervocaliques de deux consonnes qui peuvent se trouver dans la langue française et nous les avons assemblés dans le tableau I qui suit. Les mots dans lesquels les deux consonnes se succèdent orthographiquement (exemple: doublé) ont été choisis de préférence; ils sont soulignés sur le tableau. A défaut de tels mots, on a choisi ceux dans lesquels un e instable sépare orthographiquement les deux consonnes 2 (exemple: enve/oppe). A défaut de mots simples on a pris des mots composés (pince-nez). Et à défaut de ces derniers, on a relevé des suites de mots qui se trouvent facilement en contact dans le même groupe rythmique (chaujfe«ous). 3 *
Déjà publié dans PMLA, LV, 2 (June, 1940), pp. 579-595. G. Gougenheim, Eléments de phonologie française (Paris, Les Belles Lettres, 1935), p. 94. 2 Nous croyons qu'il n'y a généralement pas de différence entre le groupe de deux consonnes sans e instable et celui avec e instable entre les deux consonnes, pour un débit normal de conversation (cf. P. Delattre, "L'e muet dans la coupe syllabique", Le français moderne, VII, 154-159). D'autre part nous sommes parfaitement d'accord avec M. Gougenheim quand il dit que l'e instable entre consonnes à l'intérieur du mot peut "être prononcé dans certaines conditions stylistiques." Gougenheim, op. cit., p. 97. 3 La succession de mots dont l'un se termine par une consonne et le suivant commence par une autre consonne offre généralement les mêmes conditions phonétiques de groupement consonantique que les groupes de consonnes entre voyelles à l'intérieur du mot (coup/et, coupe-les; serment, sersm'en), surtout si la voyelle n'est pas sous l'accent (complaisant, coupe-les-en). (Toutefois on peut faire une différence, sans ralentir le débit, quand les deux consonnes sont à grande aperture, la première présentant la moins grande: carrière, car hier; enroué, nord-ouest; en ruine, genre huit.) Il n'en serait pas ainsi de la succession de mots dont le premier se terminerait par une voyelle ferme et le deuxième commencerait par un groupe de consonnes : dans ce cas les deux consonnes auraient une 1
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS
151
On sait que les seuls groupes qui soient anciens, à l'intérieur des mots, sont les groupes séparables: r+consonne, 4 et les groupes inséparables: occlusive ou fricative labio-dentale+liquide. Mais beaucoup d'autres groupes ont été introduits, soit par emprunt ou formation savante, soit par la chute d'un e instable entre deux consonnes. 5 De plus, beaucoup de groupes, qui n'existent pas à l'intérieur des mots, se trouvent, dans des conditions phonétiques semblables, à l'intérieur de groupes rythmiques. Cependant il ne sera pas nécessaire de remplir toutes les cases du tableau : lorsque le groupe ne contient pas de sonante (semi-consonne, nasale ou liquide), l'assimilation sourde-sonore est assez forte pour que le groupe donne l'impression acoustique soit de deux sonores soit de deux sourdes. Nous avons donc alors laissé vides les cases dans lesquelles une sourde et une sonore se rencontrent. Les groupes dont la deuxième est une nasale mouillée ne se trouvent pas en français, même dans l'union de deux mots, sauf pour rji. Du point de vue phonétique, les deux consonnes d'un groupe intervocalique de consonnes appartiennent à la même syllabe quand la première a une tension croissante (a-/>/vend). La coupe syllabique se fait alors entre la voyelle qui précède et la première consonne du groupe. Au contraire, lorsque la première consonne a une tension décroissante, la coupe syllabique se fait entre les deux consonnes (argent), car la deuxième a toujours une tension croissante. 6 Lorsque la première consonne est à tension croissante, c'est cette consonne qui attire la plus forte dépense d'énergie articulatoire. Mais si cette première est à tension décroissante c'est sur la deuxième que se porte la plus forte dépense d'énergie articulatoire. L'effort articulatoire n'est pas le même pour les deux consonnes. Il se porte toujours sur l'une plus que sur l'autre et cela peut se distinguer assez facilement sans l'aide des instruments (com-pris, cour-ôer; a-piitude, a/>-iitude). On s'appuiera donc sur le principe suivant : Si l'eifort articulatoire dominant se porte sur la première consonne, c'est qu'elle a une tension croissante et que la coupe syllabique se fait avant les deux consonnes. Si, au contraire, l'effort articulatoire dominant va à la deuxième consonne, c'est que la première a une tension décroissante et que la coupe syllabique se fait entre les deux consonnes. L'application pratique de ce principe au tableau I nous a permis d'établir le tableau
tendance plus prononcée qu'autrement à appartenir à la même syllabe (des spécimens, aspect; très stable, coi/ume; bien scandé, cascade; on remet, armée). Cf. Gougenheim, op. cit., p. 94; et P. Delattre, "Le mot est-il une entité phonétique en français?" Le français moderne, VIII, 46-55. La différence qu'a observée Mlle Durand entre le t à tension croissante de "peti/ orage" et le t à tension décroissante de "petiie orange" ne s'applique sans doute qu'au cas où le second mot commence par une voyelle. Cf. M. Durand, Le genre grammatical en français parlé à Paris et dans la région parisienne (Paris, Français Moderne, 1936), pp. 240-241. 4 Nous employons les signes phonétiques de l'alphabet phonétique international mais nous gardons "r" pour l'articulation dite parisienne. 5 Cf. Gougenheim, op. cit., p. 96. 6 Cf. M. Grammont, Traité de phonétique (Paris, Delagrave, 1933), p. 102.
152
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS
qui expose les tendances de coupe syllabique pour les groupes intervocaliques de consonnes (Tableau II). Expliquons ce Tableau II. Les groupes dans lesquels les deux consonnes ont tendance à appartenir à la même syllabe sont précédés d'un tiret (-pr); ceux dont les deux consonnes tendent à faire partie de deux syllabes différentes ont un tiret entre les deux consonnes (r-p); et ceux dont les tendances sont peu marquées dans un sens ou dans l'autre n'ont pas de tiret (mn). Les groupes du premier genre se trouvent dans la région nord-ouest, ceux du deuxième dans la région sud-est et ceux du troisième aux environs de la diagonale sud-ouest/nord-est. La tendance à l'union des deux consonnes est généralement d'autant plus marquée que le groupe est plus près du nord-ouest; et inversement la tendance à la séparation est d'autant plus accentuée que le groupe est plus près du sud-est. C'est ainsi que les groupes -pr et r-p, qui occupent les coins diagonalement opposés, sont exemplaires des tendances extrêmes à l'union et à la séparation. Le tableau se divise de lui-même en formes géométriques qui en faciliteront l'examen: une équerre (numéros 1 et 2 sur le schéma du bas), une croix (5, 10, 7, 4, 8) et quatre rectangles (3, 9, 11, 6). Nous ne comptons pas les trois colonnes de gauche (consonne—semi-consonne) comme faisant partie du tableau. Dans l'équerre se trouvent les groupes qui ont une liquide ou une nasale mouillée pour première consonne (branche horizontale) ou pour deuxième consonne (branche perpendiculaire). Dans la croix, on a les groupes qui ont une nasale pour première consonne (horizontalement) ou pour deuxième consonne (perpendiculairement). Dans les rectangles, on a les groupes formés d'occlusives, de fricatives, ou des deux. Mais, indiquer le sens de la tension, ou distinguer sur laquelle des deux consonnes se porte l'effort articulatoire dominant, ce n'est pas expliquer pourquoi la coupe syllabique se fait ici plutôt que là. Nous avons cherché à réunir les principes qui gouvernent la syllabation phonétique des groupes qui nous intéressent, et nous en exposons six dont les trois premiers sont de beaucoup les plus importants. 1. Différence d'aperture: Le fait que la première consonne a une aperture plus petite que la deuxième favorise l'union des deux consonnes (a-p/>ris); et inversement (hardie). F. de Saussure s'étend passablement sur l'importance du degré d'aperture dans la consécution des explosions et des implosions. 7 Il faut citer au moins cette phrase du chapitre sur le phonème dans la chaîne parlée: "Deux explosions peuvent se produire consécutivement; mais si la seconde appartient à un phonème d'aperture moindre ou d'aperture égale, on n'aura pas la sensation acoustique d'unité qu'on trouvera dans le cas contraire ..." 8 Bien qu'il ne considère que l'aperture, il prévoit qu'il ne faut pas 7 8
F. De Saussure, Cours de linguistique générale, 3e éd. (Paris, Payot, 1931), pp. 77-95. Ibid., p. 84.
I « y -e»)
-çfj
csái»
sí «-h >' j M j- w :«•-»)**•» e . XS3HO
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS
153
s'arrêter là : "Ici par une simplification voulue, on ne considère dans le phonème que son degré d'aperture, sans tenir compte ni du lieu, ni du caractère particulier de l'articulation (si c'est une sourde ou une sonore, une vibrante ou une latérale, etc.). Les conclusions tirées du principe unique de l'aperture ne peuvent donc pas s'appliquer à tous les cas réels sans exception". 9 M. Grammont distingue cinq degrés d'aperture pour les consonnes simples en général, 10 ce qui groupe les consonnes françaises de la manière suivante : degré zéro: p, b, t, d, k, g; degré 1 : f, v, s, z, f, 3; degré 2: m, n, ji; degré 3: 1, r ; degré 4: j, w, i{. C'est l'ordre que nous avons suivi de haut en bas et de droite à gauche dans l'organisation du tableau, excepté pour les nasales m et n 11 que nous avons placées entre les occlusives et les fricatives. Cette place leur convient mieux, surtout quand elles font partie d'un groupe consonantique. Le principe de la différence d'aperture est le plus important des six. Son application seule suffirait à expliquer tout le tableau en général et la plupart des cas en particulier. Ainsi les groupes qui ne sont classés ni comme unis ni comme séparés sont ceux dans lesquels les deux consonnes n'ont pas ou ont peu de différence d'aperture (a/sa, adga, amna, aj/a) et ceux dont l'union ou la séparation est marquée de la façon la plus claire sont les groupes dans lesquels la différence entre l'aperture des deux consonnes est la plus forte (apra, atra, akra; arpa, aria, arka). 2. Différence de force d'articulation: Le fait que la première consonne a une force d'articulation supérieure à la deuxième favorise l'union des deux consonnes (a-ppris); et inversement (har-pie). D'après notre étude en cours sur la durée des voyelles, on peut distinguer cinq degrés de force d'articulation pour les consonnes simples finales.12 degré 1 : k, t, p; degré 2: f, 1; degré 3: n, m, s, J, g, d, b; degré 4: ji, j ; degré 5: v, 3, z, r. Mais la force d'articulation peut varier sensiblement quand la consonne fait partie "
¡bid., p. 85, note 2. Grammont, op. cit., p. 99. 11 Dans la suite de cet article, nous appellerons ji "nasale mouillée" ou simplement "mouillée" et nous garderons le terme de "nasale" pour m et n. 12 Nous basons ce classement sur les résultats obtenus jusqu'à présent dans notre étude en cours sulla durée des voyelles. La force d'articulation d'une consonne simple étant inverse de la durée de la voyelle qui précède, on pourra en juger par les données suivantes qui représentent en centièmes de secondes la durée d'e accentués devant chacune des consonnes simples: p(14), t(15), k(16), f(18), 1(21), n(23), m(25), s(24), J(25), d(26), g(26), b(26), ji(28), j(31), v(36), 3 (37), z(38), r(42). 10
154
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS
d'un groupe; nous ne pouvons donc nous appuyer sur ce classement que d'une manière très générale. 13 Ce deuxième principe s'applique aussi au tableau dans son ensemble; mais la force d'articulation étant en général d'autant plus grande que l'aperture est plus petite, son application est inverse de celle du premier principe dans les sections nord-ouest et sud-est du tableau. Elle reste la même autour de la diagonale sud-ouest/nord-est. Les groupes les plus unis sont ceux pour lesquels la force d'articulation de la première consonne est nettement supérieure à celle de la seconde (pr, tr, kr); les groupes les moins unis, ceux dans lesquels la force d'articulation de la première consonne est nettement inférieure à celle de la deuxième consonne (rp, rt, rk) ; et les groupes sans tendance bien dominante, ceux pour lesquels la différence de force d'articulation est faible ou négligeable ( f s , mn, pi). Ce deuxième principe contribue aussi à expliquer des cas particuliers du tableau: Si on peut classer les liquides r et / dans le même groupe du point de vue des apertures (ce qui n'est d'ailleurs qu'approximatif), on ne peut certes pas le faire du point de vue des forces d'articulation. Dans cette classification, nous l'avons vu, / est nettement supérieur à r. Ainsi, la prononciation -Ir est possible surtout à cause de la force d'articulation inférieure de la deuxième consonne; mais dans le groupe inverse r-l, le fait que c'est la première consonne qui a la plus petite force d'articulation contribue à séparer les consonnes. On peut encore comprendre, d'après ce deuxième principe, que les groupes qui se terminent par l (apla, av/a) aient une moins forte tendance à l'union que ceux qui se terminent par r (apra, avra) ; et que ceux dont la première est une sourde (akra, afla) aient une plus forte tendance à l'union que ceux dont la première est une sonore (agra, av/a). 3. Loi du moindre effort: La loi du moindre effort joue un rôle qui favorise la séparation des consonnes, car, abstraction faite des autres influences, il est plus aisé de séparer les consonnes que de les prononcer ensemble. (L'application de ce principe est d'autant plus perceptible que l'aperture des consonnes est plus grande). De la sorte, s'il est nécessaire, entre autres conditions, pour que les deux consonnes soient nettement inséparables, que la première ait une aperture bien inférieure à la deuxième, il n'est pas nécessaire, pour que les deux consonnes soient nettement séparables, que la première ait une aperture supérieure à la deuxième d'une manière aussi marquée. Cela contribue à expliquer les exemples suivants: la séparation dans orné est plus marquée que l'union dans miserai; la séparation dans parlé est plus marquée que l'union dans galerie-, et la séparation est plus marquée dans les groupes liquide-fricative (argent) que l'union dans les groupes fricative-liquide (lingerie). 4. Direction de la suite des mouvements articulatoires: Si le lieu d'articulation de la deuxième consonne est plus en arrière que celui de la première (direction avant13
La durée d'e accentués devant les groupes de consonnes dont la première est un r est instructive à ce sujet si on la compare à celle qu'on trouve devant les consonnes simples: rp(ll), rt(12), rk(13), rj(14), rs(16), rf(17), rm(18), rn(20), rji(22), rg(22), rb(23), rd(25), rv(26), r 3 (27), rl(27).
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS
155
arrière), l'union des deux consonnes s'en trouve favorisée car cela rend plus commode la mise en place des organes pour la deuxième consonne pendant l'articulation de la première; et inversement. L'effet de ce principe se voit en comparant les groupes qui sont de part et d'autre de la diagonale sud-ouest/nord-est et dont les deux consonnes ont même aperture. Ainsi l'union est plus favorisée dans amna que dans anma, dans apta que dans atpa., dans a/sa que dans asfa, dans alra que dans aria. Ce principe contribue aussi à l'explication d'ensemble du tableau dont les coins nord-ouest et sud-est représentent les extrêmes : -pr, -br sont des suites d'articulation "avant-arrière"; r-p, r-b sont des suites d'articulation "arrière-avant". 5. Distance des lieux d'articulation: La proximité des lieux d'articulation des deux consonnes favorise leur union; et inversement. Exemples: en ce qui concerne les deux consonnes, apta est plus uni que akta, akra que apra, akfa que akfa, agda que agba, apfa que akfa, atsa que aksa. Cependant il faut excepter les groupes dans lesquels les deux articulations proches se gênent mutuellement parce qu'elles font emploi des mêmes organes, sans, en même temps, être assez différentes de caractère. Exemples: asfa, a/sa, ayna. C'est surtout le cas pour les groupes où une occlusive est suivie d'une nasale dont l'articulation labiale ou dentale est la même que celle de l'occlusive, à condition que l'explosion de l'occlusive soit buccale (ce qui est rare). Exemples: abma, adna. 6. Place des consonnes par rapport à Vaccent: Le fait que la voyelle qui suit n'est pas sous l'accent de groupe favorise l'union des deux consonnes; et inversement. 14 Ce principe n'intéresse que les groupes sans tendance bien déterminée. Exemples : gagnera tout aptitude dis/oqué enve/oppé blasp/zémer
il gagnera adapté dii/oque enve/oppe bla5p/ième
Nous pouvons maintenant passer à l'explication de chacune des parties du tableau II à l'aide des six principes qui précèdent et de quelques remarques complémentaires. (0) Le rectangle perpendiculaire, à gauche et en dehors du tableau même, contient les groupes terminés par une semi-consonne (ou semi-voyelle ou encore voyelle à tension croissante, dite voyelle ouvrante). Tous ces groupes sont unis, ce qui se comprend par le premier principe : l'aperture de la première consonne est toujours nettement plus petite que celle de la deuxième, cette dernière consonne étant dans tous les cas à aperture maximum. 14
Cf. les observations de Mlle Durand sur le t de désinence en enchaînement (non en liaison) dans les groupes : petite anse (t à tension toujours croissante devant voyelle accentuée) et petite orange (t à tension généralement décroissante devant voyelle inaccentuée). Bien que le cas soit différent, il y a un rapprochement à faire: si la leçon des exemples de Mlle Durand peut s'appliquer à la deuxième consonne des groupes qui nous intéressent, cette deuxième consonne est plus nettement à tension croissante devant voyelle accentuée que devant voyelle inaccentuée, et dans ce cas l'effort articulatoire se porte plus sur la deuxième consonne et moins sur la première, ce qui tend à les désunir; et inversement. M. Durand, op. cit., pp. 240-241.
156
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS
Cependant l'union est moins claire au bas du rectangle qu'au haut, la différence d'aperture y étant réduite. Elle est moins claire aussi dans la colonne qui a pour semiconsonne un j que dans les deux autres, l'articulation du j étant sans doute plus forte que celle du w ou du 1/ (principe 2). Le principe 2 s'oppose aussi à l'union (mais sans grand effet) dans les groupes où le./ est précédé d'une fricative sonore ou d'un r. 15 Le cas de rj, groupe dans lequel la différence de force d'articulation opposée à l'union à son maximum pour cette colonne, présente de plus une particularité d'articulation qui, comme le principe 2, s'oppose à l'union : la langue ne peut absolument pas se mettre en position pour le j pendant l'articulation de IV. Qu'on nous permette une parenthèse pour faire remarquer que c'est principalement là qu'il faut chercher l'explication de la difficulté d'articulation des groupes trja, prja, dont parle de Saussure: "... dans un groupe comme trja les trois premiers éléments peuvent difficilement se prononcer sans rupture de chaîne: trja (à moins que le j ne se fonde avec 1'/- en le palatalisant) ; pourtant ces trois éléments trj forment un chaînon explosif parfait... " 1 6 (1) La branche perpendiculaire de l'équerre: consonne+liquide (sauf rl), lue de haut en bas, offre d'abord des groupes nettement inséparables, remarquables par la petite aperture de la première consonne et la grande aperture de la deuxième. A mesure qu'on descend, la différence d'aperture diminue et les groupes deviennent de moins en moins unis. Les seuls groupes qu'on puisse vraiment appeler inséparables sont ceux qui ont pour première consonne une occlusive (aperture zéro). Ceux qui commencent par une nasale ou une fricative labio-dentale, bien qu'étant moins unis, ont encore cette tendance d'une manière dominante. Ceux qui commencent par une fricative autre que labio-dentale ou par une mouillée n'appartiennent nettement ni aux groupes unis ni aux groupes séparés. Il est vrai que, dans ces derniers groupes, le principe de la différence d'aperture s'applique encore, mais il est fortement neutralisé par le principe 3 du moindre effort; et aussi par le principe 2 de la différence d'articulation, spécialement pour les groupes où / est précédé d'une sonore. Enfin, dans le groupe Ir, le principe 3 du moindre effort, qui a ici son application maximum à cause de la grande aperture des deux consonnes, tendrait à les séparer, mais les principes 2 (force d'articulation supérieure d'/) et 4 (sens avant-arrière de la suite des mouvements articulatoires) tendent à le neutraliser, ce qui explique la possibilité de ne pas séparer les deux liquides dans cet ordre. Dans l'ordre inverse: rl, il est naturel que la séparation soit nette puisque les principes 2 (force d'articulation inférieure d'r) et 4 (sens arrière-avant) secondent le principe 3 (moindre effort) au lieu de s'y opposer. (2) La branche horizontale de l'équerre (liquide ou mouillée+consonne) ne contient que des groupes nettement séparables, mais qui le sont d'autant plus qu'ils s'approchent plus de la droite. Nous venons de parler de la séparation dans le groupe rl. 15 16
D'après la note 12, la force d'articulation de j est supérieure à celles de r, z, 3 ou v. D e Saussure, op. cit., p. 85, note 2.
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS
157
Dans tous les autres, le principe 1 (grande aperture de la première consonne, bien que pas maximum pour ji) suffirait à assurer la séparation. Il est partout renforcé par le principe 3 (moindre effort) ; et le principe 2 contribue à rendre compte du fait que la séparation est moins marquée dans les groupes dont la première est / ou ji, et dans ceux dont la seconde est une sonore. (3) Les groupes du rectangle nord-ouest (occlusive+fricative) obéissent aux principes 1 et 2 qui s'unissent pour résister au principe 3 : ils ont tous une petite différence d'aperture et une différence de force d'articulation modérée, qui font dominer la tendance à l'union; mais cette tendance serait plus nette sans l'effet inverse du principe du moindre effort. 17 (4) Les groupes de la branche ouest de la croix (nasale+fricative) ont une tendance à l'union légèrement plus faible que les précédents, mais encore dominante. L'application des mêmes principes est enjeu. Seul le principe 3 est opposé à l'union. Les principes 1 et 2 y contribuent dans tous les groupes. Dans les cas de mf et nj, il doit en être de même malgré la force d'articulation de 1'/, car les nasales ont tendance à se dénasaliser par assimilation régressive pour donner partiellement l'occlusive orale du lieu d'articulation qui leur correspond, ce qui augmente la force d'articulation de la première consonne. Ce n'est d'ailleurs pas le seul cas de formation épenthétique de consonne orale dans cette section du tableau; il peut s'en trouver dans les autres groupes aussi bien, ce qui favorise toujours l'union des consonnes. (5) Les groupes de la branche nord de la croix (occlusive+nasale) ont pour tendance bien dominante d'être unis. Il suffirait de l'expliquer par le principe 1, car la différence d'aperture est très nette, mais il faut y ajouter le principe 2 à cause du phénomène habituel entre occlusive et nasale, qui produit une explosion du voile du palais vers le nez, cette explosion étant à forte articulation, surtout lorsque l'occlusive est sonore. (6) Les groupes du rectangle sud-est (fricative+occlusive) ont une tendance dominante à se séparer, ce qui s'explique par les trois premiers principes: la différence d'aperture favorise la séparation dans tous les groupes ; la différence de force d'articulation aussi; et à cela s'ajoute le principe du moindre effort. (7) Les groupes de la branche sud de la croix (fricative+nasale) expliquent le fait qu'ils sont séparables par les mêmes principes 1, 2 et 3, sauf pour les groupes fn et fm où seuls les principes 1 et 3 agissent dans le sens de la séparation. (8) Les groupes de la branche est de la croix (nasale+occlusive) obéissent tous aux principes 1 et 3 et sont ainsi séparables. Le principe 2 contribue seulement à la séparation des groupes qui se terminent par une sourde; et il s'oppose à la séparation des groupes qui se terminent par une sonore, ce qui explique que la tendance à la séparation soit plus forte chez les premiers que chez les derniers. (9, 10, 11) Les groupes du rectangle sud-ouest (fricative+fricative), ceux du 17 Cf. les tracés très instructifs de Mlle Durand, qui montrent une tension croissante pour la première consonne dans les groupes ts de "sept sous" et ks de "asphyxie". M. Durand, Etude expérimentale sur la durée des consonnes parisiennes (Paris, Français Moderne, 1936), pp. 17 et 23.
158
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS
rectangle central de la croix (nasale+nasale) et ceux du rectangle nord-est (occlusive+ occlusive) n'ont pas de tendance dominante bien marquée. Les deux consonnes ayant à peu près la même aperture et la même force d'articulation, les principes 1 et 2 n'entrent pas en jeu. Le principe 3 (moindre effort) s'applique peu aux groupes de fricatives, et pour ainsi dire pas aux groupes d'occlusives et aux groupes de nasales. Mais c'est dans ces trois rectangles qu'intervient l'application du principe 4: dans chacun, les groupes du nord-ouest, dont la suite des mouvements articulatoires a la direction avant-arrière, ont moins de tendance à la séparation que les groupes du sud-est, dont la suite des mouvements articulatoires a la direction arrière-avant.18 Après cet essai pour déterminer les tendances de la syllabation française, il serait intéressant de voir ce que disent à ce sujet les traités de phonétique ou de prononciation. Sur vingt livres que nous avons sous la main, dix n'abordent pas le sujet. Ce sont ceux des auteurs suivants: L. Bascan,19 Ch. Bruneau,20 B. Dumville,21 J. W. Jack,22 Macirone,23 Ph. Martinon,24 Kr. Nyrop,25 Abbé Rousselot et F. Laclotte,26 Ed. Tilley,27 H. Van Daele.28 Les dix autres ne s'occupent que des cas où les deux consonnes se succèdent orthographiquement à l'intérieur d'un mot (exemples soulignés du tableau I). Leur générosité pour les groupes unis diffère considérablement, de Roudet qui les réduit à douze (occlusive+liquide) à Grammont qui en compte cent quinze (consonne+sonante). Les représentations schématiques qui suivent en facilitent la comparaison. Qu'on les examine parallèlement à nos tableaux en tenant bien compte du fait qu'ils ne s'appliquent qu'aux cases contenant des mots soulignés dans le tableau I. 18
L'opinion de M. Grammont est que, dans le mot aptitude, la coupe syllabique entre les consonnes est moins fréquente que la coupe avant les consonnes, les deux prononciations étant possibles en français. Grammont, op. cit., pp. 100-101. Les tracés de Mlle Durand confirment également nos vues. Le groupe pt du mot aptitude s'y trouve, sur une même page, avec p à tension croissante et avec p à tension décroissante, pour deux sujets parlants différents. Dans le groupe sf l's est à tension décroissante dans les tracés de "asphyxie" et de "Alice file" par le même sujet. De même pour le groupe dp (ou presque tp) de "ne boude pas", encore par le même sujet, le d est à tension décroissante. Or ces deux derniers groupes sont dans la région sud-est de leurs rectangles respectifs, sur le tableau II. Durand, op. cit., pp. 21, 23, et 25. Enfin, il semble parfaitement possible (et c'est, si nous comprenons bien, l'opinion de Mlle Durand) que le changement de direction de la tension musculaire se produise pendant l'articulation d'une des consonnes. Si cela peut se confirmer, la coupe syllabique n'est nécessairement ni avant, ni entre les deux consonnes d'un groupe. Cf. ibid., pp. 11-27. 19 Manuel pratique de prononciation et de lecture françaises, 7e éd. (London, Dent and Sons, 1933). 2(1 Manuel de phonétique pratique, 2e éd. (Paris, Berger-Levrault, 1931). 21 Eléments of French Pronunciation and Diction, 4e éd. (New York, Dutton). 22 Manual of French Pronunciation and Diction (New York, Heath). 23 French Phonetics (New York, Allyn and Bacon, 1921). 24 Comment on prononce le français (Paris, Larousse, 1913). 25 Manuel phonétique du français parlé, 4e éd. (New York, Stechert, 1925). 26 Précis de prononciation française, 3e éd. (Paris, Didier, 1927). 2 ' Aid to French Pronunciation (New York, Macmillan, 1929). 28 Phonétique du français moderne (Paris, Colin, 1927).
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS
159
"En français, la consonne simple et le groupe occlusive plus 1 ou r se rattachent à la voyelle suivante ; tout autre groupe de deux consonnes se partage entre la voyelle précédente et la voyelle suivante", dit L. Roudet. 29 (figure 1).
-imi*
sêp*xés
Figure 1
E. Bourciez est du même avis: "... en français ce n'est pas seulement occlusive+r qui forme un groupe inséparable (pa-trie, mais aussi occlusive+1 (san-glot, ta-bleau)." 30 (figure 2).
S -s
Figure 2
J. Vidon-Varney présente une règle détaillée: "In words having a group of two inseparable consonants, the division comes before the group of consonants. The groups of inseparable consonants are: bl, br, cl, cr, dr, fl, fr, gl, gr, pi, pr, tr, vr: ... When b, c, d, g, k, 1, p, r, or s precede another single consonant except 1 or r, ... they belong to the first syllable while the following consonant belongs to the second syllable"31 (figure 3). 29
Eléments de phonétique générale (Paris, Welter, 1910), p. 191. Précis historique de phonétique française, 7e éd. (Paris, Klincksieck, 1930), p. 37. Pronunciation of French, Articulation and Intonation (Ann Arbor, Edwards Brothers, 1933), pp. 85-86. 30 31
160
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS
Figure 3
0 . Bond ajoute quelques groupes inséparables: "5. Two consonants are divided (except groups in rule 6) ... 6. Consonant groups formed of a consonant (other than 1, m, n, r, or s) plus I or r are not divided but go with the following vowel: ..," 32 (figure 4).
—
—
-
1 S5 0 £7 ~7 "7 0 2 0 À y [2 7 s / À/ SS S ) / / T; SX 2! z wu zf E f 2 g>g «•SI g Fv y/ g hVi s 7A / zjz \ y Y2. -A £ s1 7-P LiS A S E A
|
m—À
Figure 4
MM. W. A. Nitze et E. H. Wilkins ont presque le même traitement: "a group of two consonant sounds of which the first is an explosive or a fricative and the second is 1 or r goes with the following vowel; any other group of two consonant sounds is divided, the first going with the preceding vowel, and the second with the following vowel" 33 (figure 5).
7-71s £ a 7 ?£ SSiS 7 •y z a» ¿2 rrK3S § pj zim P? Éfziir :: v ££ z z â - é TvTTS •M ai 91 2 y? 2 22* / 2 3 »7 7 j r-j 7/
A
>
Z
Tjm-jm
/
n
T
a
A
mi
^ :
A y.
A A A
S.
Figure 5
J. Geddes ajoute encore aux groupes unis: "If a single consonant is followed by 1 or r (except rl as in par-lait), both are united with the following vowel. ... Other groups of two ... consonants, when pronounced, are generally so divided that the first goes with the preceding syllable, the second ... with the following: ..." 34 (figure 6). 32 33 34
The Sounds of French (University of Chicago Press, 1925), pp. 9-10. A Handbook of French Phonetics ( N e w York, Henry Holt, 1913), p. 59. French Pronunciation (New York, Oxford University Press, 1913), p. 14.
161
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS r i rr Z 7 -7 ¡ 7 r• rV ¡ 7 * / 7 7 J / y Sy z rZ Z Z z zf Z 4 "7 ¿y Z rZ / y. Z H v i V •7* 7 7 / 7• y 7 7 7 7 y y. 7 / 7 7 Z 7 z Z —m* Z Z 7 7" 7 7 |7 7 7 7 1Z ¿L
7 7
Figure 6
P. Genévrier est plus général: "Lorsqu'une voyelle est suivie de deux consonnes différentes (qui ne sont pas la graphie d'une consonne simple comme -ch), elle demeure unie, pour la prononciation, à la première des deux consonnes, la seconde se reliant à la syllabe suivante : ... Lorsque dans un groupe consonantique rentre comme second élément une liquide (1 ou r), ce groupe phonétiquement indissoluble se rattache tout entier à la voyelle qui suit" 35 (figure 7). mmmmm
m
«SS 0 n7 zi 7" ZI 0 0 Z r 7 v r z 2 f 7] 7 7 7 7 Z g 7 7 Z n ZZ SIS z: g ¡2s p-j ^ r zt r | % r< zf Z h « S Z z z A 7 >
£
|
asss 7 7 Z s » 7
/ 7 7 7 7 n 7 Z Z 2 7 7 ¿1[ 2
—i
5
•M 7
7 Z Zz 7 7
Z
Figure 7
G. G. Nicholson mentionne les semi-voyelles: "In groups of two ... consonants of which the last is a liquid : 1, r, or a semi-vowel : w, q, j, the two ... form a syllable with the vowel which follows : ... the groups rl, lr form exceptions : ... Similarly, where the last consonant is neither a liquid or a semi-vowel the group will be divided between the two syllables: ..." 36 (figure 8).
7] P 2 3 Z7E z z Zv\ 7 7 27 7/ 7 7 / 7 7 SS» ¡Z g Z iz Zzy Z y ZJ z Z z z Z Z SSS! n Z z7 ^ Z Si Z> 7 7 ^ £r r/ 7 / / 7, y 77tmrn7/ 3 — « 2 ¡2 z Z 3 z Z 2 3 Z Z 5 s s a
>
s s s S S 3
'
*
/
Figure 8
P. Passy n'entre pas dans les détails: "Quand il y a deux consonnes à la limite des syllabes, la limite se trouve généralement entre ces deux consonnes ; ... souvent même ,5 Précis de phonétique comparée française et anglaise et manuel de prononciation française des étudiants anglo-saxons (Paris, Didier, 1927), pp. 48-49. 31 A Practical Introduction to French Phonetics (London, Macmillan, 1909), pp. 72-73.
à l'usage
162
TENDANCES DE COUPE SYLLABIQUE EN FRANÇAIS
deux consonnes sont réunies à la voyelle qui suit, quand la deuxième est 1, r, j, w, q" 37 (figure 9). 7 / J, / / / / '17:/• / >>
/ / f
/
y
s
/
s S*s
VT
•s.. t
/ij
s
Figure 9
Enfin M. Grammont ajoute aux groupes dont la deuxième est une liquide ou une semi-voyelle, ceux dont la deuxième est une nasale : "Les groupes de consonnes dont la seconde est une sonante appartiennent tout entiers à la même syllabe que la voyelle suivante: ... Les autres groupes sont séparés par la coupe des syllabes: ..." 38 Par sonante, il entend j, w, q, r, 1, ji, n, m (figure 10). 5SÏSS 8S8SS
» S
S S S SSSS SSS3S S!3S8 S S 8 8 S SSSSS^a SSSS » Figure 10
Tous les dix comprennent ps (capsule), 63 (objet), bz (subsiste), bv (subvint), tf (caoutchouc), d3 (budget), dv (advint), ks (accent), gj (suggère), gz (exact), parmi les groupes séparés; et, tandis qu'ici, f r , f l , vr, en font aussi partie, là, rl, rji, In, Im, rn, rm, sont rangés parmi les grouper unis. Dans l'ensemble, les nombreuses omissions dans la catégorie des groupes unis s'expliquent par l'influence de la syllabation orthographique, qui fait retourner à l'ancien français et au latin classique. Or, la description phonétique de la langue d'aujourd'hui ne peut se faire qu'en considérant les sons de cette langue même et non l'origine de ces sons. Comme nous venons de citer des traités pédagogiques, il est peut-être utile de rappeler, en terminant, que la coupe syllabique des groupes de deux consonnes ne s'enseigne pas par des règles. On peut constater qu'elle est relativement fixe dans certains cas, qu'elle a des tendances plus ou moins marquées dans d'autres, mais il n'y a pas là de lois. Ce qu'il faut enseigner, c'est la bonne prononciation des consonnes, qui dépend avant tout de la tension articulatoire propre au français. Si cette prononciation est correcte, la séparation des syllabes sera tout naturellement ce qu'elle doit être. Les sons du français, l i e éd. (Paris, Didier, 1929), p. 60. Traité pratique de prononciation française, 8e éd. (Paris, Delagrave, 1934), p. 101.
L'APERTURE ET LA SYLLABATION PHONÉTIQUE*
La syllabation française des groupes de consonnes est loin d'être ce que la voudraient les grammaires et les manuels de phonétique qui continuent à l'enseigner par la règle traditionnelle "consonne plus liquide s'unissent; tous les autres groupes se divisent entre les deux consonnes". Cette règle, héritée du latin, était encore relativement juste à la fin du moyen âge lorsqu'il n'y avait pas de groupe qui ne commence ou ne finisse par une liquide, et que l'r était prononcé de la pointe de la langue (cf. l'espagnol [parate, atago] pour parte, algo). Aujourd'hui, par la chute de l'e muet qui rapproche deux consonnes alors séparées, et par l'emprunt de quantités de mots, le français s'est enrichi (hélas!) de nombreux groupes de consonnes sans liquides, qui prennent pied dans la langue (deux fois hélas!) grâce à la tension articulatoire et surtout à l'influence de l'orthographe (trois fois hélas!) qui combat victorieusement le génie phonétique de la langue. Nyrop avait très bien vu cela quand il a écrit: "Il nous paraît que les Français sont en train d'acquérir peu à peu une plus grande aptitude à prononcer des groupes de consonnes qui étaient autrefois réservés aux gosiers germaniques" (Manuel de phonétique du français parlé, New York, Stechert, 1925, p. 73). Des phonéticiens osés ont déjà admis quelques groupes sans liquides au rang des groupes unis : Nicolette Pernot ajoute le groupe [ps] (absent) (Cours pratique de prononciation française, Ann Arbor, Edwards Bros., 1943, p. 4). M. Grammont ajoute tous les groupes qui se terminent par une nasale (exemples: admis, augmente, stagnant, hypnotique, abnégation, technique, atmosphère, calomnie, démener, battement, lendemain, maintenant, cadenas, déguenillé, nous tenons) (Traité pratique de prononciation française, Paris, Delagrave, 1938, p. 101). Mais il y a beaucoup d'autres groupes sans liquides en français, dans les mots (budget, caoutchouc, subvint, capsule, subsiste, objet, advint, accent, exact, abdique, rupture, acteur, anecdote, galerie, blasphème, dépecer, gabegie, vaudeville, rapetisse, paquetage, aqueduc, brodequin, diphtongue, presbyte, masqué, transmis, taffetas, iceberg, troussequin, pansement, acheter, etc.), et dans les phrases (c'n'est pas d'jeu, il gout'son vin, il n'y a plus d'soupe, etc.). Puisque la règle traditionnelle est insuffisante pour couvrir tous les cas du français moderne, nous proposons de chercher ici le principe qui est à la base de la syllabation phonétique du français. Dans un article précédent ( P M L A , LV, 2), nous en avions mentionné six. Ici, pour ne pas nous éloigner du point de vue pratique, nous nous limite*
Déjà publié dans The French Review, XVII, 5 (March, 1944), pp. 281-285.
164
L'APERTURE ET LA SYLLABATION PHONÉTIQUE
rons à un seul, au plus important: la différence d'aperture, et nous omettrons les renseignements techniques. Nous savons qu'il n'y a pas vraiment de limite qui sépare les sons du langage en voyelles et en consonnes, mais qu'il y a en réalité une échelle ininterrompue de sons allant des plus ouverts (les plus vocaliques) aux plus fermés (les plus consonantiques). Toute voyelle est plus ou moins consonantique et toute consonne plus ou moins vocalique. Puisqu'il en est ainsi, on ne pourra pas étudier les séquences de consonnes sans s'occuper des voyelles ; il faudra étudier les séquences de sons, des plus ouverts aux plus fermés. En parlant, on ouvre la bouche quand elle est fermée, puis on la ferme quand elle est ouverte, et ainsi de suite. M. de la Palice l'aurait dit et M. Jourdan l'aurait compris. Comme la lumière jaillit par les contrastes, étudions, pour commencer, les séquences de sons qui produisent les plus grands contrastes d'ouverture et de fermeture. Ces séquences devront comprendre les voyelles les plus ouvertes (a, o, e) et les consonnes les plus fermées (p, t, k). Prenons donc un mot comme départ, et voyons ce qui se passe quand on le prononce conformément aux habitudes de syllabation française. Dans la séquence éjp, on a l'impression que la syllabation sépare cruellement les deux sons consécutifs (c'est-àdire que la voyelle a une tension décroissante, la consonne une tension croissante, et que le changement de sens de la tension—ce qu'on appelle la coupe syllabique—s'est produit dans le cours de la transition de la voyelle à la consonne). On remarque en même temps que la transition de la voyelle à la consonne s'est faite dans un mouvement fermant.—Faisons un pas en avant. Dans la séquence pla, on a l'impression assez nette que la syllabation unit étroitement les deux sons consécutifs. On remarque en même temps que la transition de la consonne à la voyelle s'est faite dans un mouvement ouvrant.—Nous avons là, bien entendu, des cas extrêmes de fermeture et d'ouverture qui correspondent à des impressions des plus nettes de syllabation. Entre ces deux extrêmes, nous soupçonnons qu'il peut y avoir une infinité de cas beaucoup moins clairs. Mais il saute aux yeux qu'il doit exister une relation: 1° entre le sens du mouvement de transition et la syllabation; 2° entre le degré du mouvement de transition et la syllabation. Pour le confirmer et le préciser, nous ferons appel à ce qu'on nomme Yaperture. Le mot aperture s'emploie au lieu d'ouverture lorsqu'on veut désigner le degré d'ouverture (écartement du canal vocal) d'après une classification conventionnelle qui peut être plus ou moins étroite suivant les besoins du problème. Pour la syllabation, nous employons la classification suivante en six degrés que nous appelons: apertures 1, 2, 3, 4, 5, 6. aperture aperture aperture aperture aperture
1 : occlusives 2: nasales 3 : fricatives 4 : liquides et mouillées 5: semi-voyelles
ptkbdg mn fsJvz3 rln jwq
L'APERTURE ET LA SYLLABATION PHONÉTIQUE
6a aperture 6: voyelles •! 6b 6c
165 iuy eo0eoœèoœ aò
Dressons une série d'exemples en faisant suivre et précéder l'aperture 1 de toutes les autres : degrés d'aperture: 1/6 départ 1 /5 troupier 1 /4 pairie, taA/eau, ai^/on 1/3 budget, pas d'si tôt 1 ¡2 ethnique, maintenant 1/1 captif 2/1 hanneton
3/1 cosfume 4/1 parti, ca/cul 5/1 taille tout 6/1 départ Dès qu'on lit avec observation cette série d'exemples, on se rend compte (et l'expérimentation le vérifie) que chacune de ces séquences présente un degré différent de syllabation. La règle traditionnelle, qui voudrait que dans les trois premières séquences la coupe syllabique tombe avant le premier son, et dans toutes les autres entre les deux sons, n'est vraiment juste que pour les deux extrémités, les séquences 1/6 et 6/1. Elle n'est pas absolument exacte pour les séquences 1/5 et 1/4 où la coupe syllabique empiète déjà un peu sur le début de la première consonne. Elle est surtout très fausse dans les séquences 1/3 à 5/1 où la coupe syllabique ne tombe pour ainsi dire jamais entre les deux consonnes, mais le plus souvent dans le cours de la première consonne. Examinons chacune des séquences. Séqu. 1/6. Nous l'avons vu, le mouvement transitoire est fort ouvrant, l'union des deux sons est étroite, et la coupe tend à coïncider avec le début du premier son. Séqu! 1/5. La différence d'aperture est bien moindre, le deuxième son étant assez fermé pour produire déjà de la friction et non plus seulement de la résonance vocalique. Elle est cependant grande, et la transition se fait dans un mouvement bien ouvrant qui tend à unir les deux consonnes et à porter la coupe vocalique si près du début de la première consonne qu'on peut avoir l'impression qu'elle la précède. Séqu. 1/4. Le mouvement transitoire est encore nettement ouvrant, mais moins, ce qui tend à unir un peu moins les deux sons, surtout si l'r est donné de la pointe de la langue. La coupe syllabique se trouve encore assez près du début de la première consonne pour que l'impression soit qu'elle la précède. Séqu. 1/3. La différence d'aperture devient faible, mais elle est encore assez nette pour qu'on sente un mouvement ouvrant dans la transition quand les deux consonnes sont proches l'une de l'autre, comme dans la prononciation du Nord. (Il est vrai que dans le Midi, il y a tendance à désunir les deux consonnes au point même de faire entendre parfois un e muet entre les deux.) La coupe syllabique se trouve normalement dans la première moitié de la première consonne, et plus elle est près du début, plus l'impression d'union est nette. De plus, ici—et ici seulement—il est nécessaire de mentionner au moins une autre des influences qui entrent en jeu dans la syllabation, l'influence de la force d'articulation. Dans les séquences
166
L'APERTURE ET LA SYLLABATION PHONÉTIQUE
1/3, la première consonne a une force d'articulation considérablement supérieure à la seconde, ce qui tend à les unir (cf. French Review, XIV, 3). Séqu. 1/2. Ici l'explosion buccale est généralement remplacée par une explosion nasalevélaire, mais de toutes façons, pour passer de la tenue du [t] à celle de l'[n], il faut faire un mouvement ouvrant. La coupe syllabique tend encore passablement vers le début de la première consonne, ce qui donne l'impression d'union. Séqu. 1 /1. Nous arrivons au seul point où la différence d'aperture est négligeable et n'a plus d'effet sur la place de la coupe syllabique qui est alors très variable. Mais par analogie avec les séquences qui commencent par une consonne forte, le français tend à placer la coupe plus près du début de la première consonne que de sa fin, ce qui explique que l'impression— toujours flottante—soit plutôt à l'union qu'à la séparation. Ainsi la perte de l'équilibre dépend un peu des éléments de la séquence. Qu'on en juge par les exemples suivants d'apertures égales dans tous les degrés: 1/1, cap/if; 2/2, calo/nnie; 3/3, blasfème; 4/4, gaferie; 5/5, taille huit [jq]; 6/6 europee«. Séqu. 2/1. Maintenant la transition se fait dans un mouvement légèrement fermant. La coupe syllabique tend à se porter dans la seconde partie de la première consonne, et l'impression de séparation commence, mais elle n'est pas nette. Séqu. 3/1. Le mouvement fermant est un peu plus accentué. La coupe syllabique tend un peu plus vers la fin de la première consonne, et l'impression de séparation est plus fréquente, mais pas encore forte ni régulière. Séqu. 4/1. La transition devient nettement fermante, et la coupe syllabique tend plus fortement vers la fin de la première consonne, mais elle est encore loin de tomber entre les deux consonnes. L'impression de séparation des deux sons domine, mais n'est certes pas complète, surtout avec l'r dorsal. Séqu. 5/1. Le mouvement fermant est maintenant ample, mais pas encore assez pour que la coupe syllabique se porte nettement entre les deux sons et pour que l'impression de séparation soit absolue. Séqu. 6/1. Ce n'est qu'ici que le mouvement de transition est assez fermant pour que la coupe syllabique atteigne vraiment la fin du premier son et que l'impression de séparation des deux sons soit nette. En résumé, pour deux sons consécutifs de la chaîne parlée française, la syllabation répond aux tendances suivantes : a. Dans la mesure où l'aperture du premier son d'une séquence est plus petite que celle du second, la coupe syllabique tend à se porter vers le début du premier, et Vimpression d'union augmente. b. Inversement, dans la mesure où l'aperture du premier son d'une séquence est plus grande que celle du second, la coupe syllabique tend à se porter vers la fin du premier, et l'impression de séparation augmente. c. Dans la mesure où la différence d'aperture est grande, la marge de la place de la coupe syllabique se rétrécit, et l'impression d'union ou de séparation se fait plus nette. d. Inversement, dans la mesure où la différence d'aperture est minime, la marge de la place de la coupe syllabique s'élargit, et l'impression d'union ou de séparation se fait plus flottante. Remarque. Les principes b, c et d ne sont que des répétitions, sous formes différentes, du principe a.
L'APERTURE ET LA SYLLABATION PHONÉTIQUE
167
CONCLUSION
1. La syllabation phonétique française ne répond pas à des règles absolues, mais à des tendances. 2. Dans toute séquence de deux sons, la syllabation phonétique dépend principalement du sens (ouvrant ou fermant) du mouvement transitoire, et de son degré (conventionnellement, six apertures). 3. L'équilibre des forces qui tendent à séparer et à unir deux sons consécutifs correspond sensiblement à l'opposition symétrique des différences d'aperture. (Le degré d'union dans pâti, pairie, Party, est sensiblement égal au degré de séparation dans pâti, partie, papille.) 4. L'idée traditionnelle de division de deux consonnes consécutives dans la syllabation phonétique ne correspond aucunement à la réalité. La coupe syllabique ne se produit normalement entre deux sons consécutifs que dans la séquence voyelleconsonne. Pour deux consonnes, la coupe syllabique se trouve dans le cours de la première, tendant vers le début de cette première dans la mesure où la transition est ouvrante, et vers la fin de cette première dans la mesure où la transition est fermante.
L'E MUET DANS LA COUPE SYLLABIQUE*
On lit, dans un des récents traités de prononciation française à l'usage des étudiants étrangers, la règle suivante : "When a word contains a written mute e which disappears in the pronunciation, the consonant that precedes the written mute e belongs to one syllable and the consonant or consonants that follow the written mute e, to another syllable : env(e)-lo-pper, él(e)-ver, am(e)-ner, dév(e)-lopper,
âv-lo-pé ; el-vé; am-né ; dev-lo-pé, etc.
The above phonetic division does not correspond to the written division". 1 Le lecteur se pose aussitôt la question: comment les syllabes se séparent-elles dans des mots où les mêmes groupes de consonnes se trouvent réunis dans une position semblable, sans e muet pour les séparer? Et il cherche de tels mots pour les opposer aux exemples de la règle. Seul le troisième de ces quatre exemples peut présenter une opposition dans la manière de séparer les syllabes suivant qu'il y a ou qu'il n'y a pas d'e muet entre les deux consonnes. En effet il peut arriver qu'on dise calo-mnie, inde-mnité, gy-mnastique, bien qu'il soit généralement admis que la séparation se fait entre m et n. Mais on ne prononce jamais be-lvédère, ca-lvaire, a-lvéole, la séparation se faisant toujours entre les deux consonnes du groupe Iv. Quant au groupe v/, il n'existe pas en français entre voyelles, on ne peut donc le comparer à v(e)l. Si, aux exemples cités, on en ajoute un qui représente les groupes de consonnes dits inséparables (batterie, comparable à pairie), on se rend mieux compte qu'il se pose là un problème discutable et que nous énoncerons de la façon suivante : Dans le cas d'un groupe intervocalique de deux consonnes, la coupe syllabique estelle altérée par la présence, entre les deux consonnes, d'un e muet (écrit, mais qui disparaît dans la prononciation)? *
Déjà publié dans Le Français Moderne, 7,2 (April, 1939), pp. 154-158. Nous nous abstenons de donner le titre du livre, d'abord parce que c'est une édition provisoire, et en second lieu parce que la règle citée n'est pas celle que nous entendons discuter ici; elle y conduit seulement. 1
l'e muet dans l a coupe syllabique
169
Nous avons établi, pour étudier ce problème, une série des oppositions du type pairie-batterie qu'on trouve en français. Liste I
groupes inséparables
Liste II
appris vibrons patrie prendrai écrou aggraver
empereur biberon batterie broderai banqueroute droguerie
complet doublé athlète puddler gicler
appeler gobelet côtelette modeler coqueluche
capsule abjurer advint
dépecer gabegie vaudeville
occlusive-fricative
atmosphère admis dogmatique ethnique échidnée technique diagnostique
battement lendemain vaguemestre maintenant cadenas haquenée déguenillé
occlusive-nasale
calomnie
démener
captif acteur anecdote vodka
rapetisser paquetage aqueduc brodequin
occl usi ve-occl usi ve
affront avril disloquer Israélite
chauffrerette souverain bracelet causerie
fricative-liquide
occlusive-liquide
} nasale-nasale
170
groupes séparables
l'e muet dans l a coupe syllabique diphtongue presbyte masqué transmis plansichter
taffetas iceberg troussequin pansement acheter
fricative-occlusive (ou nasale)
inculpé culbute culture soldat calmant balnéaire calvaire répulsif balsamique heurter serment parfait chercher berlue
calepin hallebarde bulletin bouledogue roulement Villeneuve élever caleçon alezan pureté errement carrefour derechef bourrelet
liquide-consonne
Retenons bien qu'il ne s'agit pas ici de discuter le sujet de la syliabation, encore moins celui de la syllabe, mais simplement un aspect comparatif de coupe syllabique. Nous ne chercherons donc pas à déterminer où se séparent les syllabes dans chaque cas, mais seulement si elles se séparent de la même manière dans les deux listes. Nous savons qu'il y a passage d'une syllabe à une autre quand un son à tension croissante suit un son à tension décroissante. 2 La coupe syllabique se fait avant les deux consonnes quand la première est à tension croissante aussi bien que la seconde, car la voyelle qui précède a toujours une tension décroissante. L'énergie articulatoire se dépense alors surtout sur la première consonne. ca-ptif, a-près Mais quand la première consonne est à tension décroissante et la deuxième seulement à tension croissante, la coupe syllabique se fait entre les deux consonnes. L'effort articulatoire se porte alors sur la deuxième plus que sur la première. cap-tif, ar-pent S'il est à peu près impossible, sans l'aide des instruments, d'observer le sens de la tension pendant la prononciation des consonnes, il n'est pas impossible de distinguer laquelle des deux consonnes attire la plus forte dépense d'énergie articulatoire. Maurice Grammont, Traité de Phonétique (Paris, Delagrave, 1933), p. 102.
L'E MUET DANS LA COUPE SYLLABIQUE
171
Prononçons donc tous ces mots avec un débit assez naturel pour que les e muets ne se fassent pas entendre, et tâchons de distinguer sur laquelle des deux consonnes se porte l'effort articulatoire. Il est important de faire suivre chaque mot de la liste I par le mot de la liste II qui lui est opposé. Pour les groupes dont la première est une occlusive et la seconde une liquide, l'effort articulatoire dominant est toujours sur la première consonne, dans la liste II aussi bien que dans la liste I. La différence d'aperture entre les deux consonnes de chaque groupe est trop grande pour qu'il puisse en être autrement. La coupe syllabique se fait donc de la même manière dans les deux listes pour ces premiers mots. Inversement, pour les groupes dont la première est une liquide et aussi pour ceux dont la première est une fricative et la deuxième une occlusive (ou une nasale), la plus forte dépense d'énergie articulatoire va toujours à la deuxième consonne dans la liste II; mais il en est de même dans la liste I. (Ici, c'est la deuxième consonne qui a la plus petite aperture.) La coupe syllabique se fait donc identiquement dans les deux listes pour ces derniers mots. Ce n'est que dans les autres groupes qu'il peut être difficile de distinguer laquelle des deux consonnes attire l'effort articulatoire dominant; et cela arrive aussi bien pour la liste II que pour la liste I. Cette hésitation correspond principalement au manque de différence entre les apertures des deux consonnes. 3 Il semble que l'effort articulatoire puisse dominer dans une consonne aussi bien que dans l'autre. M. Grammont déclare que la prononciation a-ptitude est la plus fréquente bien que la prononciation ap-titude existe aussi.4 Mlle Durand fournit deux tracés du mot aptitude.5 Sur l'un, la tension est décroissante pour p et croissante pour t; sur l'autre la tension est croissante pour les deux. Elle présente aussi un tracé de sept sous, prononcé setsu, sur lequel la tension est croissante pour t comme pour s.6 Cela contredit la notion, généralement admise, que ces groupes (sauf fr et vr) sont séparés entre les deux consonnes. Quoi qu'il en soit, pour les groupes de consonnes dont la prononciation est incertaine, on observe que si l'effort articulatoire se porte sur la deuxième consonne dans la liste I (ac-teur), il en est de même et à plus forte raison pour le mot correspondant de la liste II (paqu(e)-tage) ; et que si l'effort dominant se porte sur la première consonne dans la liste I (a-dmis) il est rare qu'on ne le fasse pas porter également sur la première consonne dans le mot correspondant de la liste II (len-d(e)main). 3
Si les groupes occlusive-fricative ne sont pas aussi nettement inséparables (capsule) que les groupes fricative-occlusive ne sont séparables (masqué), c'est surtout qu'il est plus facile de prononcer les consonnes séparément qu'ensemble, même avec la tension musculaire du français moderne. Il est donc nécessaire, entre autres conditions, pour que deux consonnes successives soient à tension croissante, que la deuxième ait une aperture nettement supérieure à la première; mais pour que deux consonnes soient clairement séparées par la coupe des syllabes, il n'est pas nécessaire que la première ait une aperture supérieure à la deuxième d'une manière aussi marquée. 4 Maurice Grammont, op. cit., pp. 100-101. 5 Marguerite Durand, Étude expérimentale sur la durée des consonnes parisiennes (Paris, Français Moderne, 1936), p. 21. 6 Ibid., p. 17.
172
l ' e muet d a n s l a coupe s y l l a b i q u e
En résumé, cela ne nous laisse pas beaucoup de mots de la liste II pour lesquels la coupe syllabique soit différente de celle des mots correspondants de la liste I. Il n'y en a point dans les premiers mots, ni dans les derniers, et il peut s'en trouver quelquesuns dans les mots du milieu, mais seulement dans le cas où l'on ne sépare pas les deux consonnes dans la liste I.
STAGES OF OLD FRENCH PHONETIC CHANGES OBSERVED IN M O D E R N SPANISH*
Old French, 1 until the end of the Gallo-Roman period, was physiologically characterized by articulatory laxness 2 to a high degree. This laxness of articulation chiefly manifested itself by intensifying 3 certain syllables while weakening others, and by producing diphthongs and affricates out of strongly situated4 sounds while others tended to disappear 5 or remained as they were. During the ninth century, physiological Originally published in PMLA, LXI, 1 (March, 1946), pp. 7-41. There is no agreement among philologists on the time meaning of the expression Old French. It covers a variable period which extends to the fourteenth, fifteenth or even sixteenth centuries and begins either with literary documents (843) or as far back as the end of Vulgar Latin. For instance, according to Kr. Nyrop, "la période de l'ancien français s'étend du 9e au 14e siècle." (Grammaire historique de la langue française, Tome I, Copenhague, 1914, p. 25). He has it preceded by "le latin populaire des Gaules, le gallo-roman ..." (Ibid., p. 11) and followed by "le moyen français, (qui) embrasse la fin du 14e siècle, le 15e et le 16e siècle." (Ibid., p. 37). A. Dauzat makes three similar divisions: before 853, from 843 to 1345, and from 1345 to 1610 (Histoire de la langue française, Paris, Payot, 1932, pp. 77, 90). A different division is the one used by Holmes and Schutz in whose History of the French Language (New York, Farrar and Rinehart, 1933) Old French extends from 1000 to 1300 (p. 41) and is preceded by Low Romance, 700 to 1000 (p. 26), and followed by Middle French, 1300 to 1515 (p. 53).—Here we use the expression Old French in the broader sense meant in SchwanBehrens, Grammaire de l'ancien français (Leipzig, Reisland, 1923), and expressed by F. B. Luquiens, An Introduction to Old French Phonology and Morphology (New Haven, Yale University Press, 1926), in this manner: "Old French was the transitional stage between Latin and Modern French" (p. 11). 2 The terms laxness and tenseness are limited throughout this study to the meaning of "muscular" laxness or tenseness during an articulation. 3 "To intensify is to heighten in intensity", says Webster. This definition is in accord with Dauzat's use in "Les sons qui s'intensifient". (Op. cit., p. 55.) The word is appropriate in its literal as well as its figurative sense, for Old French had neither a pitch stress nor a length stress but the type of stress in which physical intensity dominates (as in Modern English) with greater duration and higher pitch only as consequences of the increase of intensity (amplitude of sound waves). On the transformation of Latin pitch accent into Old French intensity accent, cf. A. Dauzat, op. cit., pp. 38-39. On the nature of stress, see C. E. Parmenter and A. V. Blanc, "An Experimental Study of Accent in French and English", PMLA, XLVIII, 598-607. 4 The words strongly situated sound, applied to a vowel, generally mean that it is in a stressed and open syllable; applied to a consonant, that it is initial in a word or postconsonantal in a word. Cf. Schwan-Behrens, op. cit., p. 36: "Les voyelles se transforment en premier lieu sous l'influence de l'accent. ... Les voyelles en outre se transforment d'une façon différente suivant qu'elles se trouvent (1) dans une syllabe ouverte, c'est-à-dire se terminant par une voyelle, ou (2) dans une syllabe fermée, c'est-à-dire se terminant par une consonne." And p. 74: "Les sons qui entourent les consonnes ont exercé, sur le développement de ces consonnes, une influence particulièrement importante, l'accent une influence beaucoup moindre..." ° The evolution of weakly situated sounds is briefly described in the following paragraph by A. * 1
176
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
characteristics of precisely opposite nature started to appear, and French gradually gained in tenseness until it became about what it is today: the tensest of known languages. We reject here the theory proposed by W. von Wartburg concerning the effects of Germanic invasions on early Old French changes. "Le provençal s'étendait autrefois jusqu'à une ligne qui allait depuis l'embouchure de la Loire jusqu'aux Vosges méridionales. Cette ligne coïncide assez exactement avec une limite ethnique et politique qui s'était formée vers 500, grâce aux invasions germaniques."6 And we accept the opposite views which attribute the early Old French laxness to the Celtic substratum and only the tenseness of a later period to the Germanic superstratum. They are well exposed by Dauzat : A partir du IXe siècle, de nouvelles directives s'accusent très nettement dans le langage. Sans doute, nombre d'évolutions en cours continuent leur développement. Mais des tendances très différentes apparaissent, en contraste complet avec celles qu'on a observées auparavant."' " A ce moment (842), la fusion des races (Gallo-Romains et Francs) est faite, comme le montre, dans le domaine juridique, la territorialité des coutumes (expression de la féodalité nouvellement constituée) qui se substitue, au Xe siècle, à la personnalité des lois. Les conséquences phonétiques de cette fusion apparaissent très importantes: ce n'est pas un hasard si notamment le cycle des palatalisations consonantiques (que le latin primitif et classique ignorait et qui s'ouvre dès le lile siècle) se clôt avec l'époque carolingienne pour faire place à des tendances toutes différentes. 8 Spanish does not show in its history any such about face of phonetic tendencies. Although it never knew a state of laxness equal to that of Old French, Old Spanish did show laxness of a certain degree and type, and has preserved it until today with little marked change. Since the breaking of short e (t/erra) and short o (bweno), no new breaking has occurred in Spanish ; and on the other hand, none of the existing diphthongs have disappeared. Cf. R. Menéndez Pidal: ... hay que recordar ciertos fenómenos que en el siglo X presentaban un estado igual o muy semejante al que conservan hoy día. ... Es enorme la porción de léxico que viene inalterada, o poco menos, desde los comienzos del idioma hasta hoy. ... Por otra parte, las variaciones fonéticas que las mudanzas de la pronunciación han traído consigo son pequeñas. Bien podemos decir que las voces modernas permanecen substancialmente iguales a las primitivas, lo mismo en su forma que en su contenido psicológico. 9 Dauzat on la période de formation, de la conquête romaine au traité de Verdun : "La contraction s'accélère par l'affaiblissement et l'élimination progressive des éléments faibles du mot: réduction des hiatus; abrègement, amuissement et chute des voyelles atones; chute de certaines consonnes finales; assimilation des groupes de consonnes, simplification des géminées, affaiblissement des intervocaliques qui conduit, par étapes, à la sonorisation des sourdes, à l'affriquement des occlusives, enfin, pour certains sons, à l'effacement total. Tous ces phénomènes, qui proviennent en dernière analyse d'un relâchement d'articulation, d'une prononciation plus négligée, sont connexes et doivent être groupés ensemble" (A. Dauzat, Histoire de la langue française, Paris, Payot, 1930, p. 42). • W. von Wartburg, Evolution et structure de la langue française (Paris, Didier, 1934), p. 54. 7 A. Dauzat, op. cit., p. 76. 8 Ibid., pp. 37-38—Cf. also : A. Dauzat, Tableau de la langue française (Paris, Payot, 1939), pp. 17-24. 9 Origenes dei espaìtol (Madrid, Editorial Hernando, 1929), I, 570.
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
177
Thus, the articulations of Modern Spanish 10 are still considerably lax, and permit us to observe certain phenomena whose occurrence is determined by laxness. It must be said here that a comparison of laxness between two languages is not only quantitative but also qualitative, so to speak. For instance, English is certainly more lax than Spanish, but it is differently lax. The English type of laxness gives aspiration to the voiceless plosives and increases the acoustic impression of explosion; the Spanish type, on the contrary, adds no aspiration and minimizes the acoustic impression of explosion to such an extent that a German ear will easily take Spanish voiceless plosives for voiced or even fricative consonants. This being understood, we must keep in mind that the type of laxness found in Old French and the one of Modern Spanish are not entirely alike. A number of phenomena of Old French cannot be observed in Modern Spanish, although they could be found in other modern languages possessing other types of laxness. We shall naturally limit ourselves here to the Old French forms of laxness which are recalled by those of Modern Spanish. Let us next see how phonetic changes can be observed. Leonard Bloomfield makes the following statements concerning the possibility of observing sound-changes : "The process of linguistic change has never been directly observed ... such observation, with our present facilities, is inconceivable." 11 And further: "Even the most accurate phonetic record of a language at any one time could not tell us which phonemes were changing." 12 The quoted statements of L. Bloomfield are not in contradiction with this study. We are not trying to discuss sound-changes taking place in Modern Spanish, but to observe some stages of Modern Spanish, each one of which should be taken as a static case. These Modern Spanish stages will recall similar stages of some known Old French changes. Throughout this study, the phonemic meaning of the word "change" could apply to Old French only, never to Modern Spanish where it will only be used with its phonetic meaning—that is to say with the understanding that it does not affect the structure of the language. 13 Further, if we find many of these stages forming in appearance a closely knitted chain, it does not prove that a change is taking place, nor does it determine which direction it would follow if it were taking place. With this understanding, we can state, without disagreeing with L. Bloomfield, 10
When the general expression Modern Spanish is used here, it is meant to include not only Modern Castilian but also all modern forms of Spanish, such as Modern Andalusian, and every HispanicAmerican language. We are interested in all modern dialects of Spanish that have some degree of extension in any of the social classes. 11 Leonard Bloomfield, Language (New York, Henry Holt, 1933), p. 347. 12 Ibid., p. 365. 13 Ibid., p. 367 : "We can speak of sound-change only when the displacement of habit has led to some alteration in the structure of the language." For instance, compare pit with bit in English. The difference between p and b is called distinctive because it is sufficient to change the meaning. It constitutes a phonemic contrast. Any variant of the pronunciation of p which would not change the meaning of pit would be phonetic and not phonemic. "La phonétique d'une langue étudie les sons existant dans cette langue; la phonologie (phonemics) étudie les phonèmes en tant qu'ils ont une valeur significative ou fonctionnelle." (G. Gougenheim, Eléments de phonologie française, Paris, Belles Lettres, 1935, p. 1.)
178
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
that it is possible to observe at any one time in Modern Spanish one or more phonetic stages of each of certain phonemic changes that are known to have taken place in Old French. Here are three instances of how such observation is possible : (a) A given change, taking place in a definite position, can be facilitated by certain conditions more than by others : preconsonantal [/]14 vocalized earlier after [a] than after closer vowels in Old French. Thus different stages of this change can have appeared at one time, (b) The degree of emphasis, of care, of tension, etc., can also affect a sound: said with anger, its stage might be very different from what is heard when spoken in a normal tone. The Spanish case of yo mentioned later offers a striking example of this, (c) Visible recording of speech (kymographic, palatographic, oscillographic, etc.) might often permit observation of stages different from those perceived by the human ear with its limitations and prejudices. We shall now discuss briefly thirty-one cases of phonetic parallel between Modern Spanish and the development of Old French. Although most of them have been observed directly by the author, other testimonies are frequently quoted as confirmations. They are meant to serve only as an introduction to the bibliography of each of the thirty-one cases in question and are very far from exhaustive. The phonetic discussions also are meant to be no more than introductory. This exposé is being published with a view to attract young philologists to study intensively and scientifically each separate parallel. 1. Vulgar Latin initial [j] became [j] or [jj] during the Gallo-Roman period of the development of Old French : [jam] > [jja]. 15 This is a case of acoustic strengthening, physiologically explained by laxness. Perhaps in closing for the high and front position of the [j], laxness allowed the tongue to go a little too far up, and contact the palate, before coming down in the characteristic semi-vowel movement. This contact being lax, it produced, in addition to the original [j], the affricate [j] (or [d3]) in which the acoustic impression of the [d] and [3] are produced not by the tip and blade of the tongue but by the front or middle, that is to say about the part of the tongue which 14
The phonetic symbols used here are those of the International Phonetic Association. They are always between brackets. In the text, we use them only when indispensable; otherwise, we use the letters of the alphabet with their obvious phonetic meaning. In quotations, we translate the author's phonetic transcriptions into I.P.A. alphabet only when indispensable; otherwise, we leave the transcriptions—or partial transcriptions—as they are in the original. In the I.P. A. transcriptions between brackets, stress marks are used only with diphthongs when it is relevant to indicate on which part of them the stress falls. The stress mark is an acute accent over the vowel. Syllabic stress is not indicated because it has no particular importance in this study. 15 "La spirante initiale [j] devient [d3] (transcrit j et g)" (Schwan-Behrens, Grammaire de l'ancien français, Traduction par O. Bloch, Troisième édition, Leipzig, 1923, p. 104). But this affricate M3] must have kept for a long time some of its original palatal element and therefore be more like [«fej]: "Les semi-occlusives [ts], [tf] se réduisent respectivement à [s], [J] vers le XlIIe siècle, l'orthographe une fois de plus ne portant pas trace de ce changement (cent; chanter). Il est vraisemblable que le phonème chuintant devait être encore fortement palatalisé, même après la simplification." (A Dauzat, op. cit., p. 87.) "le [J], comme la semi-occlusive [tj] qui l'avait précédé, était resté assez longtemps assez palatalisé: on devait prononcer à peu près [tjjanter], puis [Jjanter]..." (Ibid., p. 100),—The phonetic symbol [j] is preferable to [d3] because this sound is pronounced in a single articulation which does not include either [d] or [3] as they appear in isolation.
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
179
enters into the production of the the semi-vowel [j]. This, naturally, is but one of several possible explanations. Another one, for instance, could suppose, as does Bourciez,16 a lax [d] as the starting point of acoustic strengthening of [j], with later intercalation of [3] between [d] and [j], somewhat as in English [djurirj] > [d3jurig]. Or again, as proposed by Dauzat, the starting point for strengthening of [j] was [gj]. 17 Now in Spanish, initial [j] is frequently heard as |jj]. The same person who pronounces [jo] in normal speech will say [jjo] when angry, for instance, and will use all intermediary stages between [jo] and [jjo] depending on the degree of emphasis, carelessness, etc. In an expression such as ya lo creo, the emphatic meaning of indeed, certainly, makes it liable to be pronounced [jja lo kreo]. Speaking of standard Castilian, Navarro Tomás calls this [j] la y africada", 18 and he deals with it on several pages of his Manual : "la fricación con que termina la articulación de la [j], además de ser sonora, es más suave que la de la [c], presentando aquélla, de ordinario, mayor semejanza con el sonido de la [j] fricativa que con el de la [3] (J francesa).. ." 1 9 On the varied aspects of the sound to be heard, he states: "En posición inicial acentuada, después de pausa, alternan la africada [j] y la [j] fricativa, predominando la primera en pronunciación lenta, fuerte o enfática, y la secunda en pronunciación familiar, rapida o descuidada: yegua—[jeywa] o [jeywa] ..." 2 0 " L a amplitud de la abertura linguopalatal varía según la fuerza de la pronunciación; la afectación y el énfasis, aumentando la elevación de la lengua, llegan a convertir la [j] en [j] africada; la pronunciación relajada, por el contrario, aumentando la distancia entre la lengua y el paladar, hace que en algunos casos la [j] llegue propiamente a tener más timbre de vocal que de consonante. Entre uno y otro extremo la conversación ordinaria ofrece numerosas variantes .. ." 2 1 Navarro Tomás also finds this sound in Valencian (with the spelling j instead of y) : "Aparece también con articulación africada, [j], en jo (jo], ja [ja], injecció [injeksjo]." 22 A. M. Espinosa mentions it in the Spanish of New Mexico : " L a y inicial, cualquiera que sea su origen, puede, en la pronunciación vulgar, cam biarse en [3], [j] : yo > [jo], [jo], [30]... " 2 3 And so does E. C. Hills : " L a y inicial tiende a convertirse en un sonido entre la j francesa de juge y la j inglesa de judge .. ." 24 F. M. Josselyn made some kymograph recordings of the cultivated speech of various regions of Spain. He remarks : "Il est rare de trouver un bon [j] à l'initiale. C'est presque toujours une occlusive [}] ou une articulation qui tend à le devenir ... en 16
Edouard Bouciez, Précis historique de phonétique française (Paris, Klincksieck, 1930), p. 157: "Dans le latin parlé de l'époque impériale, le [g] devant [e] a pris un son fricatif ([ge] passe à [je]), qui s'est lui-même renforcé d'une articulation dentale ([je] passe à [dje])." 17 A. Dauzat, op. cit., p. 63, note 1 : "C'est [gj] qu'il faut postuler et non pas [dj], le [jl intensifié dégageant un phonème palatal et non linguo-dental ..." 18 T. Narvarro Tomás, Manuel de pronunciación española, 4th edition (Madrid, 1932), p. 127. 19 Ibid., p. 128. 20 Ibid., p. 129. 21 Ibid., p. 130. 22 "Análisis fonético del valenciano literario", Reista defilologíaespañola, XXI, 133. 23 Aurelio M. Espinosa, "Estudios sobre el español de Nuevo Méjico", Biblioteca de dialectología hispanoamericana, I, 204. 24 E. C. Hills, "El español de Nuevo Méjico", Biblioteca de dialectología hispanoamericana", IV, 20.
180
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
prononçant yo, B (Madrid) le prononçait presque toujours occlusif, dans mayo toujours. C (Salamanque) avait presque toujours la prononciation fricative, pareille à celle de B. F (Leon) prononçait une fricative la plupart du temps, peut-être, mais en disant mayo, il faisait une occlusion dentale et alvéolaire. C'est à ce point que commence le |j]. Le seul sujet qui fit une différence sensible entre l'initiale et la médiale (outre l'occlusion) était D (Cuenca)."25 And having found the most varied pronunciations by analysis of artificial palates, he concluded : "De cette prononciation fricative, on arrive à l'occlusive par une série de changements qu'on peut étudier dans le parler de plusieurs sujets. Les variations des nuances de ce son sont irrégulières, et il n'y a pas moyen de les codifier."26 Scientific study of a number of Spanish stages between [j] and [jj] would help to understand the way the change occurred from Vulgar Latin to Old French. It might indicate whether or not any one of the three hypotheses previously mentioned is correct. 2. Vulgar Latin initial [w] early became a labio-dental [v] : [wenit] > [vînt],27 perhaps directly ; perhaps in the same manner as oui is pronounced [vwi] and [vi] in careless Modern French, the rounding of the lips going too far and allowing labial or labio-dental contact for a [v] ; perhaps also with the intermediary step of a bilabial [ß] as suggested by A. Dauzat28 and E. Richter.29 This, however, has no parallel in Modern Spanish. But later in the development of Old French, a very different acoustic strengthening of initial [w] took place which does 25
F. M. Josselyn, Etudes de phonétique espagnole (Paris, Welter, 1907), pp. 135-136. Ibid., p. 140. 27 Opinions differ on the time of this change, but no one places it later than the fourth century. The fricative w, "à l'initiale ou à l'intérieur du mot (dans uinum, seruire), a pris dès la fin du premier siècle ap. J.-C. le son d'un v labiodental, et a été dès lors la fricative sonore correspondant à la sourde f . . . " E. Bourciez, op. cit., p. 47. "The v or consonantal u lost its pronunciation equivalent to our English w and became similar to our English v, during the first century of the Empire" (Urban T. Holmes, Jr. and Alexander H. Schutz, A History of the French Language, New York, Farrar and Rinehart, 1938, p. 21). "Cette évolution a débuté assez anciennement en latin vulgaire; elle est cependant postérieure aux premiers contacts entre Romains (comme le fait présumer l'emprunt, fait par le germanique au latin, du nom de vin, qui a passé sous la forme win-, all. wein\ dans les emprunts postérieurs, le v latin est traité différemment (cf. viola, ail veilchen), et n'a pu être achevée en Italie et en Gaule avant le 3e ou le 4e siècle." (A. Dauzat, op. cit., p. 71). "3. bis 5. Jahrhundert.—Das zwischenlippige v < u, w wird labiodental. Vgl. Pirson, Mél, Wilm. S. 504, der diesen Wandel ins. 4 Jahrhundert und Lindsay, S. 54, der ihn vor das 5. Jahrhundert setzt. Durch die labiodentale Aussprache des v ist es begreiflich, dass n/v auftritt. Sobald das v > [v] geworden war, hörten Schwankungen zwischen v, b, w auf. Erst dann ist die Erhaltung des v gesichert" (Elise Richter, Beiträge zur Geschichte der Romanismen. I : Chronologische Phonetik des Französischen bis zum Ende des 8. Jahrhunderts, Halle/Saale, Niemeyer, 1934, p. 171). 28 "Il est remarquable que 1'/ et l'u consonne à l'initiale ont été également renforcés en latin vulgaire. Nous avons vu que dans cette position, i consonne s'est raffermi en [gj].—Le passage de I'M consonne [w] à [v], que l'orthographe n'a pas enregistré, et qui a affecté toute la Romania, répond à une tendance analogue, qui intensifiait toutes les explosives initiales, articulées avec une énergie particulière ; l'intermédiaire a dû être le v bilabial qu'on observe encore (lorsqu'il n'a pas passé à b par un renforcement d'un autre type) en Espagne et en Gascogne." (A. Dauzat, op. cit., p. 71). 29 From the passage by Elise Richter quoted above in footnote 27, we repeat the first sentence of paragraph 88A: "Das zwischenlippige v < u, w wird labiodental". 28
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
181
have its parallel in Modern Spanish. When the Gallo-Romans borrowed, from the Germans, words with an initial [w], they changed that initial [w] to [gw] : Germanic [wadja] was pronounced [gwajja] (wage in English, gage in French) by the Gallo Romans. 30 [gw] for [w] can be explained in the same physiological manner as Qj] for [j], and [vw] for [w]. In closing for the high and back position of [w], laxness allowed the tongue to go too far up and contact the palate. The point of contact was near the highest point on the tongue for [u] and close enough to the point of articulation of [g] to give the acoustic impression of a soft voiced linguo-palatal plosive. In Modern Spanish, something similar happens when people say [gwesos] for huesos, [doz gwePos] for dos huevos, [gwi] for French oui, [gwat] for English what. A [g] is almost always present to some degree, although generally unconscious on the part of the native speaker. Navarro Tomás notes it for Castilian: "A veces la [w] aparece entre vocales, ahuecar, a en posición inicial absoluta, hueso, y en estos casos el punto de partida de su articulación toma aun mas carácter de consonante que cuando va dentro de sílaba entre consonante y vocal ; los labios se aproximan más entre si y la lengua se acerca más al velo del paladar, llegando especialmente en la conversación familiar a desarollarse delante de dicha [w] una verdadera consonante que, según predomine la estrechez de los órganos en uno u otro punto, aparece como una [y] labializada o, menos frecuentemente, como una [P] velarizada: ahuecar—[awekar], [aywekar] o [aPwekar]; hueso—[weso], [yweso] o [pweso]." 31 "El habla vulgar lleva corrientemente este elemento hasta el grado occlusivo cuando la [w] es inicial absoluta o va precedida de nasal: huevo—[gwepo] o [bwepo], un hueso—[uq gweso] o [um bweso]." 32 F. Josselyn mentions it for other dialects of Spain: "Cette élévation postérieure de la langue peut être accentuée jusqu'à ce qu'il se produise une occlusion qui ne diffère en rien de l'articulation de [gwe] ... A l'initiale (hueco, huerto, etc.), B (Madrid) le prononçait fricatif sans occlusion et sans explosion; C (Salamanque), avec occlusion préliminaire, mais sans explosion sensible ; E (Palencia) et F (Leon), comme occlusif avec explosion; tandis que D (Cuenca) hésitait entre la prononciation de C et celle de E et de F." 33 For Chile, we have it described by R. Lenz: "La u consonántica delante de vocal (en la escritura u-, hu-, gu-, bu-) se pronuncia [yw] con enérgica fricación dorso prevelar o postpalatal. ,.." 34 And for Mexico by C. C. Marden : "la [w] inicial sufrió exactamente el mismo cambio que la [w] gótica y la árabe, convertidas en [gw] en español." 35 And by P. H. Ureña: "Grammont cita como 30
"franc [w] (bilabial) au commencement d'un mot latin vulgaire > [gw] ..." (Schwan-Behrens, op. cit., p. 34). 81 Op. cit., p. 64. 32 Ibid., p. 64, note 1. 33 Op. cit., p. 81. 34 R. Lenz, "Dialectología hispanoamericana", Biblioteca de dialectología hispanoamericana, VI, 92. 36 C. C. Marden, "La fonología del español en la ciudad de Méjico", Biblioteca de dialectología hispanoamericana, IV, 120.—Although Marden's work was originally published in English ( P M L A , XI, 85-151) we prefer quoting from the recent Spanish translation because the statements in it have been revised and annotated. The same remark applies to the works of E. C. Hills and A. M. Espinosa which are quoted here from their Spanish versions.
182
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
ejemplo de diferenciación el de [w] inicial de palabras germánicas que al pasar al latin vulgar engendró una consonante velar: warta > guarda. En la zona mejicana el caso se repitió con las palabras de náhuatl (lengua que carece de g) al adoptarlas al español: en posición inicial, waxin > guaje; en posición intervocálica, awácatl > aguacate. Pero posteriormente la convivencia de la población que habla español con la que habla náhuatl ha sido causa de que en la pronunciación culta de Méjico se adopte la [w] sin reforzarla hasta producir la [g]: Huatulco, Huehuetoca, huipil, Chihuahua, ahuehuete, chiquihuite. Es significativo que no exista el refuerzo en palabras de origen indio pero sí en palabras de otro origen, como en inglés: gwater, Gwashington."36 For New Mexico let us consult A. M. Espinosa: "hue-, güe-. La labio-velar, en posición inicial, refuerza su elemento velar con lo que se llega a la pronunciación g: güevo, güespede, güeso, güerfano, güero, güeco, güerta. ,.." 37 And E. C. Hills, who, like Navarro Tomás, transcribes the g as a fricative: "[ywePo] huevo, [yweso] hueso, [ywerta] huerta. Después de [q], este [ywe] se vuelve comunmente [gwe]: [uq gweso]. ..." 38 P. H. Ureña even expresses the opinion that [gw] for [w] can be heard "... dondequiera que se habla español. ..." 39 (An important contribution to the phonetic problem involved in this change has already been made by A. Alonso in Vol. I of Biblioteca de dialectología hispanoamericana.40) Thus we see that all intermediary stages between [w] and [gw] can be heard depending on the type of speech, the degree of tension, emphasis, etc. Preference by the Spanish articulation for the velar strengthening [gw] rather than the labial strengthening [vw] is confirmed by the familiar pronunciation [gweno] for bueno.*1 The resonance cavity of the [u] or [w] can be constricted at either end, front 36
P. H. Ureña, "Mutaciones articulaterias en el habla popular", Biblioteca de dialectología hispanoamericana, IV, 368. 37 A. M. Espinosa, op. cit., p. 155. 38 E. C. Hills, op. cit., p. 23. 39 P. H. Ureña, a footnote to C. C. Marden, op. cit., p. 142. 40 "Problemas de dialectología hispanoamericana", Chap. V, pp. 405-410. 41 It extends to most Spanish speaking countries. Navarro Tomás notes it in Spain: "El habla vulgar lleva corrientemente este elemento hasta el grado oclusivo cuando la w es inicial absoluta o va precedida de nasal: huevo [gwe|3o] o [bwePo], un hueso [uq gweso] o [um bweso] ..." (Manual, p. 64, note 1.) R. Lenz in Chile: "después de n, la forma más frequente es gu; más rara es mbir. con güevo, un güeso, ungüei, menos popular um buey.'" (Op, cit., p. 193.) E. C. Hills in New Mexico: "Bue, vue > [gwe]: [gweno] bueno, [ayweloj abuelo, [gwelta] vuelta, [gwelpoj vuelvo. Después de nasal, hay b: [üm bwen ombre], etc." (Op. cit., p. 12). And C. C. Marden in Mexico. "Otro desarollo característico de los dis tritos rurales, más bien que de la ciudad de Méjico, es el cambio de bue o vue inicial a güe: por ejemplo, bueno > [gweno], buey > [gwej], vuelto > [ywelto]." Marden then adds tho those examples a partial estimate of the phenomenon's extension: "El fenómeno está muy extendido entre las clases bajas de España; su extensión en América no ha sido determinada, pero se sabe que existe en la República de Costa Rica, en la ciudad de Bogotá, en la ciudad de Buenos Aires y en los distritos rurales de la Argentina y el Uruguay." (Op. cit., p. 120). To which P. H. Ureña adds: "es corriente en América en las hablas rústicas ... además, en las Antillas, en toda la América Central, en el Ecuador, en Chile: en suma, todo el Nuevo M u n d o . " (Ibid., p. 120 and note 6, p. 120).—On an explanation for this change, see the theory expressed by A. Alonso, in opposition to all previous ones, in "Problemas de Dialectología Hispanoamericana", Chapter IX on "Equivalencia acústica", Biblioteca de dialectología hispanoamericana, I, 440-469. H e sees in it a case of "acoustic equivalence", and not a mecanico-physiological process similar to that of the change: huevo > güevo or buevo.
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
183
(lips) or back (velum). Spanish chooses the latter. Why? This is not the place to discuss it. At this point, at least two other questions arise. First, why was Latin initial [w] strengthened by addition of a [v] while Germanic [w] was strengthened by addition of a [g]? Secondly, what prevents [j] and [w] from changing to jjj] and [gw] in Modern English where the articulation is even more lax than in Spanish? 3. Old French palatalized / lost its consonantal element to become a pure semi-vowel : [A,] > [j], [travaXer] became [travaje]. 42 This change was not recorded until the XVIth century 43 but must have started long before it was recorded in writing. In Mexico and in other Latin-American countries, as well as in certain parts of Spain, it is neither the [X,] of Italian figlio nor the [j] of French filleul that is usually heard, but rather sounds close to the half-way mark between [X] and [j]: caballo. The existence of a number of regions where intermediary stages can be observed is supported by the following quotations from P. H. Ureña and Navarro Tomás : "Es corriente afirmar que en America—como en Andalucía y en gran parte de Castilla la Nueva, incluyendo Madrid—, la elle española se ha convertido en ye; pero en Colombia, a excepción de la parte septentrional (Antioquia y costa del Atlántico), subsiste la elle. Igualmente en Chile, exceptuado el centro, y en gran parte del Perú. Se me asegura que también subsiste en la provincia de Corrientes, de la República Argentina." 44 "Tanto en Castilla la Vieja como en Castilla la Nueva, y lo mismo en la conversación culta que en el habla popular, la distinción entre la // y la y es mucho más corriente que su confusión. El yeísmo madrileño es considerado en la mayor parte de Castilla como un fenómeno local. El yeísmo de cierta parte de la población de Valladolid es juzgado corrientemente como una mera imitación del habla madrileño. Los pueblos yeístas de Avila y de Toledo se hallan en minoría dentro de estas provincias. El yeísmo es aún más raro en Palencia, Burgos, Logroño, etc. A los yeístas de Brihuego (Guadalajara), los vecinos de Argecilla, Ledanca, Utande y demás pueblos circundantes, en los cuales se pronuncia la II = [X], les llaman "los andaluces de la Alcarria". Conozco pueblos de Cuenca y de la Mancha donde tanto el vulgo como las personas cultas pronuncian la II = [X] sin vacilación. Una investigación geográfica sobre este punto demonstraría seguramente que los límites de la [X,] se 4
2 It must be noted however that palatalized I is used today in a great many dialects of France, not only of the southwest, center and east, but even of the northwest and northeast. The Atlas Linguistique indicates a [X] for the word mouiller in parts of the following "départements": Meuse, Manche, Loire-Inférieure, Vendée, Gironde, Landes, Basses-Pyrénées, Hautes-Pyrénées, HauteGironde, Ariège, Pyrénées Orientales, Tarn, Gers, Lot-et-Garonne, Dordogne, Lot, Aveyron, Cantal, Corrèze, Creuse, Puy-de-Dôme, Haute-Loire, Loire, Saône-et-Loire, Jura, Ain, Rhône, Drôme, Isère, Savoie, Haute-Savoie (J. Gilliéron, et E. Edmont, Atlas Linguistique de la France, Paris, Champion, 1902, Tome 4, Carte 880). 43 "Dans la langue moderne, la latérale mouillée n'existe plus; elle a été simplifiée en [j]: fille se prononce [fi:j], briller [brije], etc. Les premières traces de cette simplification se trouvent au XVIe siècle, dans la graphie coion (italien coglione), sobriquet grossier appliqué aux Italiens." (Kr. Nyrop, op. cit., p. 338.) 44 P. H. Ureña, "Observaciones sobre el español en América", Revista de filología española, VIII, 368.
184
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
extienden por el Sur de España mucho más de lo que de ordinario se cree." 45 It seems therefore that a statement like the following one by E. Bourciez is to be taken as an unfounded generalization: "Actuellement le son [A,] est en voie de disparition ...' M6 But it does point to an unsettled state which should offer abundant opportunities to the linguistic investigator. 4. A partial parallel may exist between the Old French assimilation of [j] to a following tonic [i]—as in V. L. [rejina] > O.F. [raina]47 and the Mexican weakening of [j] in such words as gallina. "La [j] intervocálica se debilita o cae en gran parte de la zona mejicana ... se debilita o cae en el sudoeste de los Estados Unidos (en Nuevo Méjico hay regiones de pérdida completa en determinadas combinaciones, como [ija], [eja], y regiones en que se oscila entre el debilitamiento y la pérdida); en el norte de Méjico, penetrando hasta regiones centrales como Querétaro; en los estados mejicanos meridionales de Morelos, Guerrero, Yucatán y Chiapas, y en gran parte de la América Central. La caída es usual cuando hay contacto con i acentuada, es decir, con fuerte vocal homorgánica: gallina > gayina > gaína; silla > sía."iS In an earlier study, the same author mentioned this tendency for parts of Peru: "En la costa del Perú, no es desconocida la asimilación y desaparición de la [j] cuando se halla en contacto con la vocal i: amariyo > amarlo; asimilación que en el Río de la Plata y en parte de Méjico ha sido evitada por la transformación de la [j] en sonido semejante a la j francesa, en la región andina desde Colombia hasta el Perú por la conservación de la [X], y en las Antillas, como a menudo en Andalucía, reforzando la [j] y haciéndola pasar de fricativa a africada." 49 5. Some stages of the palatalization of [n] before [j] as in V. L. [vinja] O. F. [viga]50 appeared in numerous Hispanic regions. For example in Mexico: "Cuando al diptongo ie lo precede una n, la i del diptongo es absorbida por la nasal, que se convierte en ñ: por ejemplo, nieve > [jiepe], nieto > [jieto]." 51 And in New Mexico: "ni- > ñ. Se produce en todos los casos: ñeve, ñeso, ñuño, neto, ñervo y niervo, ñega, (nieva, ni eso, ni uno, nieto, niervo, niega), etc." 52 P. H. Ureña confirms this tendency and provides examples of intervocal [qj]: "En toda la zona mejicana, [nj] > [ji] es usual: demoño, Antoña, ñeto, Dañel... La excepción es Yucatán, donde se mantienen separadas la n y la i." 53 And R. Lenz heard it occasionally in Chile: "El grupo ni inacentuado se vuelve a veces ñ, mientras que li se conserva siempre como tal, es 45
Navarro Tomás, "La metafonía vocálica y otras teorías del Sr. Colton", Revista de filología española, XX, 39. 46 E. Bourciez, op. cit., p. 411. 47 "pretonic intervocal [j] is assimilated to a following tonic i or u ..." (F. B. Luquiens, An Introduction to Old French Phonology and Morphology, New Haven, Yale University Press, Third Edition, 1930, p. 50). 48 P. H. Ureña, "Mutaciones articulatorias en el habla popular", Biblioteca de dialectología hispanoamericana, IV, 352. 49 Ibid., p. 369. 50 "Intervocal [nj] ... became IjiJ ..." (F. B. Luquiens, op. cit., p. 56). 51 C. C. Marden, op. cit., p. 110. 52 A. M. Espinosa, op. cit., p. 160. 53 P. H. Ureña, "Mutaciones ...", op. cit., p. 359.
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
185
decir, no se cambia en 11 ni en y; así, pues: Alemania > Alemana, pero nunca familia >
famiya."54 This is the place to notice that the palatalization of [lj], as in O . F . [fita] for V . L.
[filja], does not regularly parallel the palatalization of [nj]. It does not in C h i l e — a s indicated by the preceding quotation—and it does not either in Mexico: " N o hallo casos de [lj] >
> [3] en Méjico, como en la Argentina familia,
sierra del Perú Callente,
Celia."5S
Juvenilia, o en la
The two places mentioned here as showing a ten-
dency to palatalize [lj] are regions where [X] turns to [3], a fact which considerably lessens the chances for the observation of intermediary stages no farther advanced than [X]. 6. It is probable that the Modern Spanish soft pronunciation of intervocal voiceless plosives corresponds to an early O l d French stage in the voicing of plosives in the same position. Concerning the [p], Modern Spanish capa must represent an early stage between V . L. [sapidu] and O . F. [sabidu]. 56 Concerning the [t], Modern Spanish gato must represent an early stage between V. L. [sobitanu] and O . F. [sobidanu]. 57 Concerning the [k], Modern Spanish boca must represent an early stage between V. L. [mediku] and O . F. [medigu]. 58 This soft, mild quality of Spanish voiceless plosives—which causes a Germanic ear to take them for voiced—comes both from the weakness of the pressure exercised in the contact of the organs that form the occlusion, and from the early voicing in correlation with the explosion. The first feature is characteristic of all Spanish plosives, whether voiced or voiceless; it is more noticeable with the voiced because they can reach a stage of softness which actually belongs to the fricative type. 59 The second feature—early voicing—has been best analysed experimentally by S. Gili whose conclusions are given in an article entitled: "Algunas observaciones sobre la explosión de las oclusivas sordas", in which he says: " D e una manera general puede decirse que la explosión, en la mayoría de los casos, es sonora por completo; y que aun en aquellos en que hay algo de sordez, la sonoridad empieza siempre dentro de la explosión." 6 0 The kymograph tracing presented in this article shows that voicing is even on the verge o f starting before the explosion. And, as we know, as soon as the voicing of a plosive precedes the explosion, it can no longer be called voiceless. A. M . Espinosa reports this voicing tendency for [k] in New Mexico: "Sin ser lo 64
R. Lenz, op. cit., p. 160. P. H. Ureña, op. cit., p. 359. °6 "Intervocal p became b and then v: ripa > ribe > rive" (F. B. Liquiens, op. cit., p. 42). 57 "Intervocal t became d... : espata > espede ..." (F. B. Luquiens, op. cit., p. 43). 58 "Intervocal k becameg ..." (F. B. Luquiens, op. cit., p. 48). 59 "Tres articulaciones particularmente características de la lengua española son las que se representan fonéticamente con los signos [0], [ó], [y] ... son articulaciones generalmente desconocidas en francés, en inglés y en otros muchos idiomas; en español, por el contrario, son tan frecuentes que apenas hay frase en que no aparezcan varias veces ... Su uso es sin duda en nuestra pronunciación mucho más frecuente que el de las oclusivas [b], [d], [g]." (Navarro Tomás, "Manual ...'\op.cit., p. 80). 60 S. Gili, "Algunas observaciones sobre la explosión de las oclusivas sordas", Revista de fitología española, V, 48. 55
186
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
suficientemente general como para considerarla una variante especial, se oye a veces otra k (en que, qui) en parte sonorizada, lo que la aproxima a la oclusiva sonora [g]." 61 And further: "Casos de sonorización de oclusivas sordas intervocálicas: trafigar (traficar), rede (prefijo rete). Es, evidentemente, una supervivencia de la antiqua ley general en el desarollo de las lenguas románicas." 62 7. The weakening of intervocal voiced plosives offers many comparisons between Old French and Modern Spanish. Intervocal [b] (from Latinp) became [v] in Old French: [riba] > [riva].63 Between the bilabial plosive [b] and the dento-labial fricative [v], we can infer that some stages of the change corresponded to the Modern Spanish [P], which varies from a weak plosive to a real fricative, depending on the tenseness and emphasis of the articulation. This would mean that Old French v was bilabial before it became dento-labial. 64 References to the weakening of Spanish b to a labial fricative abound, "dès 1450 en Vieille-Castille (seulement un siècle plus tard en Nouvelle-Castille et en Andalousie), le v passant généralement à la fricative bilabiale [P] s'est confondu avec b qui a pris le même son : l'espagnol ne fait donc plus de distinction entre l'initiale de verde et celle de beso malgré l'orthographe restée étymologique ..." 65 "Se pronuncia, pues, fricativa toda b que no se halle en posición inicial absoluta ni precedida de m o n, que son los casos en que, como queda dicho, aparece el sonido oclusivo." 66 "Distingüese esta [P] de la [b] oclusiva, aparte de su menor tensión muscular, por la posición de los labios, los cuales, en la [P], en vez de cerrarse por completo como en la [b], permanecen entreabiertos, dejando entre uno y otro una hendidura mas o menos estrecha, según la naturaleza de los sonidos vecinos y según la fuerza de la pronunciación." 67 And this tendency probably extends to all Latin America: "La b y la v, en Méjico, como en Castilla, tienen sonido bilabial fricativo y no se distinguen la una de la otra." 68 Speaking of Chile, R. Lenz says : "todas las oclusivas sonoras b, d, g, y ocasionalmente también n, m, tienden a una oclusión deficiente, que puede llegar hasta la total desaparición." 69 8. Preconsonantal labials fell, in the development of Old French, before all consonants except liquids : V. L. [eskriptu] > [eskrit], [septe] > [set], [obscuro] > [oskyr]. 70 61
A. M. Espinosa, op. cit., p. 147. Ibid., p. 167. 63 "Le p latin intervocalique est devenu v en passant par b" (Schwan-Behrens, op. cit., p. 79). 64 A. Dauzat expresses the same opinion: "... l'affriquement des sonores avait commencé en latin vulgaire dès le Ile siècle par le passage de b a v (alors bilabial)" {op. cit. p. 50). The parentheses are Dauzat's. 65 E. Bourciez, op. cit., pp. 406-407. 66 Navarro Tomás, op. cit., p. 85. 67 Ibid., p. 85. 68 C. C. Marden, op. cit., p. 118. 69 R. Lenz, op. cit., p. 89. 70 "Before other consonants than r and /, labials disappear completely" (F. B. Luquiens, op. cit., P. 42). 62
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
187
In Modern Spanish, the same tendency is at work although it is counteracted by the influence of spelling. It seems that the preconsonantal labial, revived by purists, tends again to fall in neglected speech. Thus both are heard: [séptima] and [sétima], [obscuro] and [oscuro]. Signs of a certain tendency for the labial to weaken and fall can be seen in the following passages concerning Castilian: "Seguida de c o s, la p se mantiene en pronunciación esmerada y fuerte, sobre todo en sílaba acentuada ... pero en la pronunciación corriente, y sobre todo en posición inacentuada, la p seguida de dichas consonantes toma normalmente el sonido de la fricativa [P]." 71 "se pierde la p, asimismo, en el grupo pe, en algunas palabras cultas de uso relativamente frecuente, como suscripción—[suskriOjon] y transcripción—[transkriGjon]."72 "En submarino, submultiple, etc., pronunciase una b implosiva muy débil y breve, la cual, muchas veces, se convierte en m asimilándose a la m siguiente y formando con ella una sola articulación, que resulta un poco más larga que la de la m ordinaria y se reparte entre las dos sílabas continguas." 73 "Seguida de t, la b se articula como p en pronunciación lenta o esmerada, y como una [P] mas o menos sorda en la pronunciación relajada de la conversación familiar: obtener—[optener] u [optener] ..." 74 "La b de las partículas ab, ob, sub, seguida de s más otra u otras consonantes ... en el habla corriente ... es un sonido breve y suave, muy inclinado a desaparecer ... De hecho, aunque se escriba, no se pronuncia la b en obscuro—[oskuro], subscribir— [suskripir], substraer—[sustraer], substancia—[sustanOja], substituir—[sustituir], y asimismo en las demás formas derivadas de estas palabras." 75 In the Mexican zone, this tendency seems to be more generalized. A. M. Espinosa records for Mexico: "La p final de sílaba no se pronuncia por lo general en nuevomejicano ...: adatar, adotar, atitu o autitu, suscrisión, setiembre ..," 76 "En el grupo bs, la b se pierde por regla general ...: oscuro or escuro, sustansia, asoluto, suscribir, oservar, osequio o esequio, etc." 77 E. C. Hills confirms it with some of the same examples: "La p en final de sílaba cae ..." 78 "La b en final de sílaba cae ..." 79 And C. C. Marden indicates similar tendencies in Mexico: "P+consonante. Las combinaciones pt, ps, y pc occuren en español solo en palabras cultas o en préstamos; en todos los demás casos, la p ha caído. En Méjico las palabras españolas que presentan esas combinaciones han sufrido igual reducción que antes en español las palabras latinas donde existían esas mismas combinaciones." 80 "En Méjico la b del prefijo sub- cae en todos los casos en que va seguida de consonante excepto l ..." 81 71
72 73 74 75 76
77 78
79 80
81
Navarro Tomás, op. citp.
Ibid., p. 84. Ibid., p. 84. Ibid,, p. 84. Ibid., p. 87.
83.
A. M. Espinosa, op. cit., p. 237.
Ibid., p. 227.
E. C. Hill, op. cit., p. 13.
Ibid., p. 13.
C. C. Marden, op. cit., p. 126.
Ibid., p. 125.
188
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
9. The fall of intervocal [v] ( < b) before o and u, as in V. L. [sabuku], O. F. [say],82 could be studied in Chile, where a striking tendency of a similar type is reported by R. Lenz: "En el habla popular de Santiago la [P] se forma siempre muy relajada, de tal modo que no es raro que la sonoridad anule por completo la perceptibilidad del débil ruido fricativo. Donde más cerca de su desaparición total está la [|3] es en proximidad de o, um y más bien después de sílaba acentuada que inmediatamente antes del acento." 83 A similar tendency is reported by E. C. Hills in the speech of New Mexico : "La b intervocálica cae a veces, especialmente cuando le sigue o le precede una u inacentuada, incluyendo la u < o ...: [setáu] centavo, [al káu] al cabo ..."84 10. Vulgar Latin intervocal [g] fell before [o] and [u] in Old French: [agostu] > [aust]. 85 Before falling, in the process of weakening, it can have gone first through the stages offered by Modern Spanish intervocal g which varies from a soft palatal plosive to a real fricative: [agosto], [ayosto]. Here is how Navarro Tomás describes this articulation : "el postdorsal de la lengua se eleva, como en la g oclusiva, contra el velo del paladar, pero sin llegar a formar con éste un contacto completo; el aire espirado sale por la estrechez que de la aproximación de dichos órganos resulta, produciendo una suave fricación ,.." 86 And here are the positions in which it appears: "Resulta, pues, normalmente fricativa toda g ortográfica ante a, o, u (gu ante e, i) que en la pronunciación no se halle inicial absoluta ni precedida de n, únicos en que como queda dicho, aparece la g oclusiva de una manera constante ,.." 87 This pronunciation seems to be widespread in Latin America. For instance in Mexico : "La g intermedia generalmente subsiste como en Castilla: por ejemplo, [djaloyo], [tráiyo]." 88 In New Mexico: "La g es generalemente una fricativa gutural o palatal sonora, como lo es frequentemente en español: [yato], [aya], [alyo], [ormiya], La g intervocálica se pronuncia muy suavemente ,.." 89 What precedes concerns only the first stages of the fall of [g] before [o] and [u]. The last stages can also be observed in Spanish although in more limited areas. Speaking of Castilian [y], Navarro Tomás states: "La pronunciación rápida y relajada y la posición intervocálica producen las formas más abiertas; la pronunciación lenta, enérgica o enfática y el contacto con otras consonantes favorece la tendencia contraria. En el primer caso, palabras como agua, aguardar, aguador, etc., 82
"Le b latin intervocalique commença de bonne heure à passer à la fricative sonore v, avec laquelle le v intervocalique d'origine latine coïncide dans ses transformations ultérieures. Quand il restait intervocalique en français, v ... est tombé devant les voyelles labiales o, « ..." (Schwan-Behrens, op. cit., pp. 79-80). 83 R. Lenz, op. cit., p. 140. 84 E. C. Hills, op. cit., p. 13. 85 "[g] (devant o, u) et [k] (devant o, u) tombent: 1) Au commencement de la syllabe tonique. Exemples: [legume] > [layn] ... 2) Après l'accent tonique dans les paroxytons. Exemples: [fagu] > [fau] ..." (Schwan-Behrens, op. cit., p. 102). 86 Navarro Tomás, op. cit., p. 139. 87 Ibid., pp. 139-140. 88 C. C. Marden, op. cit., p. 143. 89 E. C. Hills, op. cit., p. 21.
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
189
suelen pronunciarse casi como [awa], [awardar], [awador] ..." 90 The same tendency is common in Mexico : "La g intermedia delante de ua, uo tiene el mismo desarollo que la g inicial delante de ua, es decir, que desaparece en la pronunciación por medio de la asimilación a la m siguiente: antiguo [antiwo], etc. ..." 91 But besides occurring before the semi-vowel [w], it also occurs before the full vowel [u] : "La g intermedia ha desaparecido en [auXero] agujero, [au^a] aguja. La forma mejicana occurre también en Bogotá, Chile y Costa Rica ..." 92 This tendency is even more marked in Chile according to R. Lenz : "A veces la g intervocálica desaparece completamente a favor de una u siguiente: láuna < launa < laguna, au'tina < Agustinas." 93 And in New Mexico, according to A. M. Espinosa : "g. Se pierde ... cuando es intervocálica : ... luego > luéo, hago > áo ...La caída de la g i ntervocálica occurre en la conversación rápida, pero no es general o absoluta." 94 11. The Old French palatalization and vocalization of the voiceless velar plosive [k] in the intervocal groups [kt] and [ks] (to give [jt] and [js]) is known as a very early change extending over the whole Celtic zone, well beyond the borders of Gaul. 95 A similar tendency is listed for a number of Hispanic regions by A. Alonso and A. Rosenblat: "La vocalización en i se ha registrado en Castilla, Andalucía, Méjico, Costa Rica, Venezuela, Colombia, Chile (ocasionalmente en Santiago pero más frecuentemente en otras partes) y Argentina: ..," 96 In New Mexico and Mexico, it seems to be restricted to words in which the vowels a or e precede : "[aks] > [áis], [áus], y muy raramente [as] : acción > [aision], [ausion] ; facción > [faision], [fau-' sion]; [fasion] es raro, [akt] > [ait], [aut], y también [at]: carácter [karaiter], [karauter]; activo > [aitivo], [autivo]; intacto > [intauto], [intaito], [intuato]. (La última forma se oye en Colorado), [eks] > [es], [eis], [eus] (raro): lección [lesion], [leision]; corrección > [korresion], [korreision], [korreusion] ; sección [sesión], [seision], [sision], [seusion]. [ekt] > [eit], [eut]: correcto > [korreto], [korreito],[korreuto]; perfecto > [perfeto], [perfeito], [perfeuto]; respecto > [respeito], [respeuto], [respeto] ; efecto > [efeto], [efeito], [efeuto] ; directo > [direito], [direuto] ; recto > [reito], [reuto]." 97 "La [k] de la combinación [kt] ha caído en Méjico, dejando tras sí una i epentética si la vocal precedente es a o e: redactor [redaitor] ... El desarrollo de la [ks] es semejante al de la [kt], es decir, la [k] cae, y si la vocal precedente es a o 90
Navarro Tomás, op. cit., p. 139. C. C. Marden, op. cit., p. 143. 92 Ibid., pp. 143-144. 93 R. Lenz, op. cit., p. 251. 94 A. M. Espinosa, op. cit., pp. 232-234. 95 "La palatalisation (et vocalisation) de consonne devant consonne s'est effectuée dans différents groupes.—L'évolution du groupe [kt] dans le nord-ouest de la Romania se présente nettement comme un celtisme. Ce groupe, qui était, au début de l'Empire romain, en pleine évolution en gaulois, a passé à [jt] par l'intermédiaire d'une palatale spirante, transformation commune à toute la Gaule, la Rhétie, la Haute Italie, et la péninsule ibérique; c'est le type du celtisme à extension maxima: [faktum] > [fajt], français fait. Le passage de [ks] à [js]: laxare > [lajsare], (laisser) est parallèle" (A. Dauzat, op. cit., p. 66). 96 Biblioteca de dialectología hispanoamericana, I, 223, footnote 2. 97 A. M. Espinosa, op. cit., pp. 223-224. 91
190
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
e, se introduce una i epentética .,." 98 But P. H. Ureña adds a footnote denying the explanation by "epenthetic /": "No hay epéntesis, la c se vocaliza."99 12. Intervocal [d] changed in Old French from a plosive to a fricative before falling completely.100 V. L. [kadere], on its way to late O. F. [jaer], went through the stage [cjaôeir],101 in which the d must have had a sound near that of intervocal d in Spanish, varying from a very soft plosive to an actual fricative: [kadena], [kaôena]. "la punta de la lengua toca suavemente los bordes de los incisivos superiores, sin cerrar por completo la salida del aire ..." is the description Navarro Tomás gives of the fricative d.102 Then he defines its position : "Se pronuncia fricativa, en la conversación española corriente, toda d ortográfica que no se halle en posición inicial absoluta ni en contacto con n o / precedentes .,." 103 In order to give an idea of the great variety of stages that can be observed in this change, let us quote from F. M. Josselyn's experimental studies made on natives from different regions of Spain : "le parler de B (Madrid) et de D (Cuenca) nous offrent un exemple bien distinct d'un d occlusif ... Les parlers de A (Séville) et E (Palencia) hésitent entre la fricative et l'occlusive ... Chez C (Salamanque), F (Leon), et G (Asturies) on ne trouve pas un seul cas de prononciation occlusive ... Les sujets du nord (Asturies, Leon et Salamanque) possèdent la fricative dans la position intervocalique. Ceux de Madrid et de Cuenca (au sud) le prononcent comme occlusif, tandis qu'il y a hésitation chez ceux de Séville et de Palencia, avec une tendance à l'occlusive peut-être." 104 In Latin America also, many different stages of intervocal d can be observed, as is shown by the following controversy over its disappearance : "Es sabido que la de intervocálica o en posición final se debilita y aun se pierde en muchos lugares de América, como en la mayor parte de España—no solo en Andalucía—; pero el fenómeno no es general; así, en las altiplanicies del Ecuador y parte de Colombia se conserva la de en las terminaciones -ado, -ada; igual cosa ocurre con frecuencia en la altiplanicie mexicana. Es verdad que, según Marden y Carreño, en la ciudad de México es usual la caída de la de, no entre cualesquiera vocales, sino solamente entre a-o y a-a; pero estas observaciones son incompletas. He vivido ocho años en aquella ciudad, y si bien la pérdida de la de no es desconocida, puedo asegurar que no solo en la clase culta, sino en gran parte de la clase baja, es frecuente el fenómeno contrario : el reforzar la de tal manera, que hasta se oye a veces como doble : andaddo, paradda."105 Navarro Tomás describes the behavior of the ending -ado in Spain: "En pronunciación esme98
C. C. Marden, op. cit., pp. 146-147. Ibid., p. 146, footnote 2. 100 "En position intervocalique, l'occlusive sourde [t] devient sonore [d]; ce [d] de même que le [d] du latin vulgaire, persiste (vraisemblablement à l'état de [Ó]) jusque vers la fin du l i e siècle, puis il tombe" (Schwan-Behrens, op. cit., p. 85). un The phonetic symbol [c] is a linguo-alveolar voiceless affricate, similar to ch in Spanish China or English China. ios Navarro Tomás, op. cit., p. 99. 103 Ibid., p. 100. 104 F. M. Josselyn, op. cit., pp. 95-97. 105 P. H. Ureña, "Observaciones ...", op. cit., p. 365. 39
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
191
rada, lenta o enfática, en la escena, en el discurso y en la conversación ceremoniosa, la d de la terminación -ado se pronuncia [ô] como cualquier otra if intervocálica; pero, ordinariamente, en la conversación familiar la d de dicha terminación se reduce mucho o se pierde. Entre la conversación y la pérdida completa de este [5] suelen ser perceptibles en una misma persona, según el tono y la rápidez del lenguaje, ciertos grados intermedios de relajación." 106 In the Americas the tendency for intervocal d to disappear can be found both less advanced than in Spain (see preceding quotation of Ureña) and much more advanced, as in the case of Chile reported by R. Lenz : "En Santiago es corriente la desaparición de la d intervocálica—en el habla popular y a menudo también en la pronunciación 'mejor'—después de vocal. Así, pues, no solo amao sino también amaa, habió, deo, via, nio, too, naa. Lo mismo después de antepenúltima acentuada: meico, creito, meula ... Igualmente entre las sílabas penúltima y última inacentuadas: acio, calió ... Inmediatamente ante sílaba tónica, la d intervocálica desaparece también por completo en el habla baja; pero en este caso no es raro que se conserve una d reducida." 107 New Mexico also shows advanced stages: "La lengua obra my frecuentemente nada mas que como modificadora, sin tocar los dientes, y en este caso la [ó] puede desaparecer totalmente .,." 108 "En Nuevo Méjico la d se pierde en las siguientes circunstancias : 1. En posición intervocálica ... por lo común en pronunciación rápida: nada [náa], puedo [puéo], no dice [no ise], pedazo [peáso] ... 2. En la terminación -ado: [soldáu], [kompráu], [amáu], [konráu], [láu], soldado, comprado, amado, Conrado, lado, etc." 109 13. Very similar to the preceding loss of intervocal d is the loss of d between vowel and r as in Old French [padre] (from V. L. patre) > [pera].110 This change must have known a stage [5r] similar to that of Modern Spanish, where the occlusion of the d is heard little or not at all: [pa5re]. In his examples of fricative d, Navarro Tomás includes such transcriptions as: [maóre], [kwaóro], [pieôra], [laôriXo].111 Such pronunciation is widespread not only in Spain but in Latin America. Besides, it can occasionally go beyond the stage of [ó]. In New Mexico and Colorado, the pronunciations [pare] for padre, [kwaran] for cuadran are heard, according to P. H. Ureña, 112 and A. M. Espinosa. 113 14. The loss of final d after vowel, as in Old French [kryd] becoming [kry],114 can be observed in Modern Spanish in at least four distinct steps, and besides, of course, 106
Navarro Tomás, op. cit., p. 101. R. Lenz, op. cit., pp. 153-154. 106 A. M. Espinosa, op. cit., p. 139. 109 Ibid., pp. 229-230. no "[tr] intervocalique devient [dr] qui, de même que [dr] primitif, s'est transformé, à partir de la fin de la période qui nous occupe, en [rr] et en [r] (vraisemblablement en passant par [ó])" (SchwanBehrens, op. cit., p. 87). 111 Navarro Tomás, op. cit., p. 100. 112 "Mutaciones ..." op. cit., p. 351. 113 Op. cit., p. 139. 114 "Après une voyelle, [d] et [tl sont tombés depuis la fin du Xle siècle ... Ici également on peut supposer que [ó] et [9] ont servi de son intermédiaire" (Schwan-Behrens, op. cit., p. 91). 107
192
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
in all the intermediary stages. The purist will say at times [berdad], with an occlusive d. The pronunciation generally heard is [berdaó], with a voiced fricative. Before a pause, [berdaO], with voiceless fricative, is common. Finally, a neglected or dialectal pronunciation offers frequent examples of [berda], with an implosive d or even no d at all, although the loss may be unconscious with the speaker. The following quotations confirm the occurrence of all four pronunciations. A. Bello warns against faults that he has noticed in Chile: "Es necesario hacer sentir la d final de las palabras que la tienen, como usted, virtud, vanidad."U5 About Castilian, Navarro Tomás says: "en las palabras sed, red, huésped, césped, y áspid, y en los imperativos hablad, traed, etc., las personas cultas conservan siempre, aunque relajada, la dfinal ..." 116 But the most widespread pronunciation of final d is the one he describes here: "La d final absoluta, seguida de pausa, se pronuncia particularmente débil y relajada : la punta de la lengua toca perezosamente el borde de los incisivos superiores, las vibraciones laríngeas cesan casi al mismo tiempo que se forma el contacto linguodental, y además, la corriente espirada, preparando la pausa siguiente, suele ser tan tenue, que de hecho la articulación resulta casi muda." 117 He also mentions locations where the [5] is completely voiceless : "En Valladolid, Salamanca y otros lugares de Castilla, en lugar de la d final se pronuncia ... una [9] relajada: [birtuG], [berôaG], [%uPentu0], [usteô], etc. ; lo mismo ocurre entre el pueblo bajo madrileño," 117 The same sound is spoken of by F. M. Josselyn as it occurs in the word Madrid: "La prononciation sourde apparait aussi dans le d f i n a l . . . Ici le son est complètement sourd. C'est la prononciation usuelle mais de temps en temps on en trouve un qui est sonore au début." 117 Finally Navarro Tomás indicates that the acoustic omission of the final [ó] is done even by educated Castilian people: "En formas nominales como virtud, verdad, juventud, libertad, etc., la pronunciación vulgar, en la mayor parte de España, suprime la d final: [birtu], [beróa], [xuPentu], [liperta]. Este uso se extiende también, más o menos, a la pronunciación familiar de las personas ilustradas." 118 Marden bluntly states that in Mexico : "La d final cae." 119 And A. M. Espinosa is no less positive about New Mexico : "La d final de palabra no se pronuncia nunca." 120 15. Preconsonantal [s] was first voiced to [z] and then fell before all consonants but voiceless stops in the development of Old French : [asna] > [azna] > [a:na]. 121 Both of these steps can be observed in Modern Spanish, as well as intermediary stages : 115
A. Bello, "Advertencias sobre el uso de la lengua castellana", Biblioteca de dialectología hispanoamericana, VI, 52. un Navarro Tomás, op. cit., p. 103. F. M. Josselyn, op. cit., p. 93. us Navarro Tomás, op. cit., p. 103. 119 C. C. Marden, op. cit., p. 133. 1211 A. M. Espinosa, op. cit., p. 231. 121 "Before other consonants than surd mutes, [s] first becomes [z] and then disappears." (F. B. Luquiens, op. cit., p. 45). "[s] suivi de [1], [n], [m], après être devenu sonore, est tombé vers la fin du Xle siècle. Dans l'orthographe il a le plus souvent persisté, même à une époque plus avancée de la période du vieux français ... [s] devant les spirantes [3], [v], [f], et devant les occlusives sonores [b], [d], [g], a été vraisemblablement traité de la même manière que devant [1], fn], [m] ..." (SchwanBehrens, op. cit., p. 93).
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
193
mismo has generally reached a stage close to [mizmo], and in neglected or dialectal speech, it is common to hear [mi:mo], and at times even [mimmo] or [mimo]. Later, Old French lost preconsonantal [s] even before voiceless stops: [festa] > [fe:ta].122 This last stage can also be heard in neglected or dialectal pronunciation of Modern Spanish : le gusta > [le gu:ta]. Navarro Tomás mentions the voicing of [s] : "La s aparece únicamente, en nuestra lengua, en posición final de sílaba, precediendo inmediatamente a otra consonante sonora ; en cualquier otra posición su presencia es anormal y esporádica. Es siempre, asimismo, una articulación breve y suave; la pronunciación lenta o fuerte impide su sonorización, reapareciendo en su lugar la s sorda." 123 He also mentions its disappearance: "Debe evitarse la compenetración entre la s y una consonante sonora siguiente, con pérdida de la sonoridad de dicha consonante, fenómeno frecuente en el habla vulgar de una gran parte del sur de España ,.." 124 F. M. Josselyn finds s to be voiced by all his subjects but one: "Exception faite pour C (Salamanque), qui avait la prononciation fort sourde, dans la plupart des cas, s est sonore dans cette position. Dans les mots desde, desviar, esbelto et rasgo, il n'y a pas une seule exception." 125 As the fall of s is very marked in Chile, Lenz studies it before all possible consonants : "existen todos los grados posibles de debilitamiento, hasta la completa desaparición, a veces con alargamiento de la vocal precedente o de la consonante siguiente: mismo > mVmo > mimmo, mimo .,."126 "La pronunciación plena de s ante consonante es extremadamente rara, aun en personas cultas ; existen, por lo demás, numerosos grados intermedios. Cuando la s precede a una fricativa sorda, desaparece completamente, o a lo sumo prolonga un poco la pronunciación de la fricativa ... satifasion ... Delante de p, se pierde la s, pero se aspira la vocal ... [krepo] ..." 127 Etc. In most cases he indicates either a complete loss of s or a partial assimilation with aspiration or reduplication of the following consonant. Mexico, on the other hand, shows very little tendency to lose the preconsonantal s. Marden simply mentions its voicing: "La s seguida de consonante sonora se vuelve sonora: mismo > [mizmo], durasno > [durazno], etc." 128 And P. H. Ureña provides a humorous but revealing footnote: "De la pronunciación mejicana se ha dicho que es un mar de eses del cual emerge uno que otro sonido." 129 16. The loss of final s belongs to the very end of the development of Old French, starting no earlier than the XHIth century. 130 In Spanish it appears today as a popular 122
"[s] devant les occlusives sourdes s'est généralement amui dans la langue écrite dans le IHe siècle environ ..." (Schwan-Behrens, op. cit., p. 155). 123 Navarro Tomás, op. cit., p. 108. 124 Ibid., p. 110. 126 F. M. Josselyn, op. cit., p. 100. 126 R. Lenz, op. cit., p. 252. 127 Ibid., pp. 128-130. 128 C. C. Marden, op. cit., p. 138. 129 Ibid., p. 136. 130 "Au XlIIe siècle, l's, qui joue un rôle si important dans les flexions, commence à s'effacer à l'atone après e muet..." (A. Dauzat, op. cit., pp. 88-89). "Le phénomène le plus frappant qu'offre le consonantisme, c'est la chute des consonnes finales, parallèle à la chute de Ve muet posttonique ... La consonne atteinte la première est IV, dont la chute est générale au XVe siècle et sans doute auparavant
194
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
or dialectal tendency. The pronunciation of Chile offers examples of the most advanced stages. "En final de palabra, delante de pausa, la s se pierde en mayor o menor grado en la pronunciación vulgar; después de sílaba acentuada queda en lugar de la s una aspiración; después de sílaba átona, se pierde del todo. Se dice, pues: [kruh] cruz, [meh] mes, [narih] nariz, [lombrih] lombriz, [doh] dos, [Poh] vos, pero [lapi] lápiz .,." 131 There, it even reaches the cultivated class: "Por lo que se refiere a la s final, el uso, como en tantos otros casos, es vacilante. El Chileno culto pronuncia en general una s más o menos completa después de vocal acentuada, pero en las sílabas átonas desinenciales pronuncia una vocal aspirada y brusca como la que emplea el habla vulgar en sílaba acentuada, mientras que en los otros casos de sílaba átona pierde toda huella de s, o bien se limita a pronunciar la vocal final con alguna mayor claridad."132 The loss of s is also found in Spain: "Recházase igualmente como vulgarismo la pronunciación de la s final como una simple aspiración, y asimismo su eliminación total en determinadas circunstancias, hechos corrientes, según es sabido, en el lenguaje popular de varias regiones de España y América. ..," 133 F. M. Josselyn mentions this loss in Andalusian : "Je présente dans la figure 98 l'articulation du mot más, dite à l'andalouse. On notera la disparition complète de l'articulation d'i." 134 E. Bourciez also, but he adds Asturias: "En Espagne, s est resté sensible dans tiempos, flores, cantas: mais il est en train de s'affaiblir, et n'est déjà plus qu'une simple aspiration soit au Sud en Andalousie, soit au Nord dans les Asturies."135 17. A stage of the change from [r] to [z], as in chaire > chaise, bericle > besicle, Gerainville > Gesainville,136 can perhaps be observed in Modern Spanish. A fricative r with its point of articulation between those of [z] and [3]—that is to say in the same place as multiple-vibration r—, is used extensively in Mexico and other Spanish speaking countries, even among educated people. Its sound resembles those of [z] and [3], but it is more intense, the tip of the tongue is more raised and the stricture more pronounced. It occurs when the rolling or vibrating of the r fails to get a start. Navarro Tomás describes sounds of that sort for Spain: "Un fenómeno dialectal, corriente en parte de Alava, Navarro, Rioja y Aragón muy extendido en la América de la lengua española, consiste en la asibilación más o menos desarrollada, de la r interior de sílaba en formas como tropa, otro ... El tipo de r que sirve de base a esta modificación es la r fricativa. Detrás de p, t, k, la asibilación va unida al ensordecimiento de una parte de la r. La fricación de esta r aparece contaminada, según los . . . A u XVIe siècle, toutes les autres consonnes finales, qui avaient résisté après cette date après tonique, tombent dans le parler populaire, sans qu'aucune série paraisse avoir offert plus de résistance que les autres ..." (Ibid., pp. 95-96). 131 R. Lenz, op. cit., pp. 125-126. 132 Ibid., p. 127. m Navarro Tomás, op. cit., p. 110. 131 F. M. Josselyn, op. cit., p. 98. 136 E. Bourciez, op. cit., p. 416. isa « J J F A U T remarquer le changement de r en s qui appartient à la fin de l'époque du vieux français" (Schwan-Behrens, op. cit., p. 12).
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
195
casos, de [z] o [s], presentando también algunas veces cierto matiz de [3] o [J]."137 "En las partes de España y América en que la r simple sufre en los grupos tr, pr, cr, etc., adviértese que la presencia de este fenómeno coincide con el uso de una rr ápicoalveolar fricativa, que se pronuncia asimismo con asibilación más o menos desarrollada:perro ,.." 138 A. M. Espinosa records in New Mexico a fricative r similar to the Spanish one described by Navarro Tomás, and says : "Corresponde a toda r en posición inicial, en grafía doble, o tras l, n, s ... Es un sonido intermedio entre [r] y [z] y es en general para las posiciones indicadas ,.." 139 F. M. Josselyn mentions "une r fricative qui est formée par l'élévation de la langue vers la position de r roulé, mais sans que la pointe entre en vibration. ,.." 140 From a detailed description of many different forms of assibilated r, by R. Lenz,141 we extract this passage: "Muchas veces el zumbido es reforzado por la aproximación de los dientes superiores o inferiores, lo que puede prestar a la pronunciación de la r vibrante un timbre parecido al de la [3]."142 And the following remark by A. Alonso is especially to the point on the articulatory relation existing between r and s: "En la realidad, la rr y la r tras t tienen en Chile pronunciación asibilada, pero todavía el timbre de ambos fonemas se reconoce sin duda como de la familia de las erres y no de las eses; es decir, su estrechez articulatoria tiene forma alargada básicamente, aunque con contaminación de redondeamiento. Este para la Fonética acústica-fisiológica; para la Fonología, que se ocupa de los fonemas como entidades ideales que forman el sistema de signos sonoros de una lengua, sin vacilación alguna ambos fonemas son rr y r."143 This clearly illustrates the viewpoint we express in the introduction, concerning phonemic and phonetic changes. While the Old French change from [r] to [z] is phonemic, the Spanish change is only phonetic. 18. The chances are great that Old French r came at times from a d, making possible such etymologies as medicu > mire, grammatica > grammaire. This discovery, owed to A. Tobler144 was accepted by Gaston Paris as early as 1877.145 The only point of disagreement between the two philologists was the manner in which this change took place. Modern Spanish might help in clearing up such a question for it often shows stages of a similar change. The acoustic confusion between d and r is known to all students of Spanish. Besides it has been recorded by philologists. For instance, Navarro Tomás notes that in Spain, "En los imperativos tomad, traed, 137 N a v a r r o Tomás, op. cit., p. 120. 138
Ibid., p. 124. A. M. Espinosa, op. cit., p. 139. 140 F. M. Josselyn, op. cit., p. 109. 141 Op. cit., pp. 94-116. I4i Ibid., p. 101. 143 A. Alonso y R. Lida, Biblioteca de dialectología hispanoamericana, VI, 197. 144 Adolf Tobler, "Etymologies françaises et provençales, III", Romania, II, 241-244. 145 "Nos lecteurs n'ont pas oublié l'excellent article dans lequel M. Tobler a démontré que mire vient de medicu(ni) et grammaire de grammatica. J'accepte pleinement sa double découverte, et je ne diffère avec lui que sur un point, qui fait l'objet de la présente note. Il s'agit de savoir comment on est passé de medicu à mire." Gaston Paris, a Français R-D, Romania, VI, p. 29. 139
196
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
venid, etc., el habla popular sustituye corrientemente la d por una r débil y relajada, de timbre muy semejante a una [5], lo cual hace que estas formas ofrezcan la misma aparencia que sus infinitivos: tomar, traer, venir, etc. En muchos lugares se oye también ser por sed, sustantivo." 146 This concerns only the d in final position. R Lenz noted it in Chile in intervocal position : "A veces se presenta también este contacto (del ápice con los alvéolos o los dientes superiores) dando r or rl; Brígida > Brigira."147 He also says : "A veces esta d apenas se distingue de la r, o bien aparece realmente una r: esto es lo habitual en nadie > naire ... Así también he registrado fatirió junto a fatidio."us As for Mexico, P. H. Ureña states : "Párpado > párparo; la dilación es por el sufijo-aro (cf.pífano > pifaró). favorecida por la equivalencia acústica átrydy En tragedia > trageria debe pensarse en influjo de la terminación -eria (miseria, etc.)."149 A. M. Espinosa, for New Mexico, quotes examples of both intervocal d and final d; "Casos de -r por -d; Lionires, arbolera, párparo, Liocaria (Leónidas, arboleda, párpado, Leocadia).150 "-r por -d:almud > almur,"151 This change of d to r is one of many which are due to "acoustic equivalence"—a process that has been discussed most competently by A. Alonso,152 but still deserves further investigation. He stresses its value in these terms: "Creo que tendremos que introducir el concepto de equivalencia acústica en la investigación histórica, también para muchos de los procesos llamados regulares y que evidentemente entrañan un cambio articulatorio. Los dialectos nos dan ocasión de hacerlo con fruto." 163 19. The loss of final r occurred in France during or shortly before the XVth century.154 Stages of this loss could be analyzed both in Spain and in Latin America. Here are two typical quotations, one for each continent : "La r final ante pausa suele ser pronunciada por los asturianos con sonido sordo, formándola, por lo que a la articulación lingual se refiere, unas veces como vibrante y otras como fricativa ... Los andaluces en esa misma posición, relajan y suavizan excesivamente la r o la suprimen por completo: señor > [segó], pintar > [pinta], mujer > [muhe]." 165 "La r final se ha hecho sorda, de tal modo que el único sonido audible es un deslizamiento sordo (a voiceless glide) después de la vocal precedente. ,.." 156 20. Final m which had not fallen in Vulgar Latin (as in monosyllables : rem > rien, mom > morí) became n in early Old French. 157 In Modern Spanish, there is a definite ne
Navarro Tomás, op. cit., p. 103. R. Lenz, op. cit., p. 153. 148 Ibid., p. 157. 149 P. H. Ureña, "Mutaciones ...", op. cit., p. 372. 150 A. M. Espinosa, op. cit., p. 169. 151 Ibid., p. 184. 152 "Equivalencia acústica", op. cit., pp. 440-470. 163 Ibid., p. 450. 154 "La consonne atteinte la première est IV dont la chute est générale au XVe siècle et sans doute auparavant ..." (A. Dauzat, op. cit., p. 96). 155 Navarro Tomás, op. cit., pp. 119-120. 166 C. C. Marden, op. cit., p. 152. 167 " Q u a n d m s e trouvait à la fin d'un mot en latin, il devient n dès l'époque prélittéraire du français ..." (Schwan-Behrens, op. cit., p. 121). 117
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
197
tendency in the same direction: "La pronunciación española no admite m final ante pausa, sustituyéndola constantemente, salvo raros excepciones, por el sonido rt. Se escribe indistintamente harem y harén, pero en ambos casos se pronuncia [aren], plural harenes. Del mismo modo Abraham se pronuncia [abran], máximum > [maysimun], minimum > [minimun], ultimátum > [ultimatun], álbum > [aipun]." 158 21. In Old French, n became m before a labial other than m: O. F. en+porter > emporter,159 There is still a tendency to do the same in Spanish : "En contacto con las consonantes p, b, iniciales de palabra, la n final de una palabra anterior se pronuncia corrientemente m, sin que en este sentido pueda advertirse diferencia alguna entre expresiones como, por ejemplo, con padre, y compadre, pronunciadas ambas [kompaóre], o entre con placer y complacer, pronunciadas [kompla9er]." 160 "La n ante v se pronuncia como ante p, ¿>."161 A. M. Espinosa records the same phenomenon in New Mexico: "Ante labiales, [b], [p], [P], [w], [f], la grafía n se pronuncia m: um baso, um bote, em pas, um bueso, emfermo o enfermo (un vaso, un bote, en paz, un hueso, enfermo).162 22. The loss of h came about in France at the very end of the Middle Ages.163 Many stages of this loss can be found in dialects of Spain, according to the report of A. M. Espinosa (son) and L. Rodríguez-Castellano, from which we extract this passage : "La aspiración de h se encuentra en una reducida zona Noroeste, limítrofe con Portugal, y en la parte meridional, lindante con Caceres. Fuera de estas dos comarcas se conservan restos de la aspiración en palabras sueltas en toda la provincia. En la zona Noroeste la aspiración tiene ya muy escasa vitalidad. Donde presenta mayor intensidad—dentro del estado caduco del fenómeno—es en varios pueblos de la parte más occidental del partido de Vitigudino : Aldeadávila de la Ribera, Corporario, Masueco, Mieza y Vilvestre. En todos estos lugares hay personas, aunque contadas ya, y pertenecientes principalmente a las generaciones más viejas, que aspiran con regularidad en la mayoría de las palabras; las de mediana edad para abajo, en cambio, emplean predominantemente la forma moderna, sin h aunque conservan abundantes restos del fenómeno antiguo en su lenguaje habitual." 164 It can also be studied in several parts of Latin America. P. H. Ureña surveys this question in "Observaciones sobre el español en América" : "La supervivencia del sonido aspirado procedente de efe latina, que hoy se encuentra—sobre todo en Andalucía—confundido con la jota regional, no es igual en toda la América española. En la altiplanicie mejicana la supervivencia es incompleta, en el Perú es nula y en Chile se reduce al verbo «s
Navarro Tomás, op. cit., p. 88. "Devant Ies labiales orales ... n devient m" (Schwan-Behrens, op. cit., p. 119). i«o Navarro Tomás, op. cit., p. 89. 1.1 Ibid., p. 91. 1.2 A. M. Espinosa, op. cit., p. 140. 1,8 "L'h, que le latin avait éliminé dès l'époque de Cicéron et que l'influence des envahisseurs germaniques avait rétabli dans la plus grande partie de la Gaule, disparait de nouveau aux abords de la Renaissance" (A. Dauzat, op. cit., p. 99). lM A. M. Espinosa (hijo) y L. Rodríguez-Castellano, "La aspiración de la "H" en el sur y oeste de España", Revista de filología española, XXIII, 226. 169
198
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
huir. Pero en el habla campesina de las Antillas es frecuente—entre los campesinos de Santo Domingo es constante con raras excepciones—, y en otros países todavía se transforma en hache aspirada o jota regional la efe moderna : fino > fino, difunto > dijunto, función > junsión (Argentina), Jelipe, Jilomena (Nuevo México), y aun ojrecer, jrente (Colombia)." 165 As a specific example of Latin America, we quote A. M. Espinosa on the pronunciation of New Mexico : "En cuanto a la h ortográfica, es muda en muchas palabras, pero la aspiración se conserva por lo general en posición inicial (y también en otras) y en todos los casos en que la h procede de una /latina." 1 6 6 23. Nasalization of vowels before nasal consonants was followed in Old French by loss of the nasal consonants that were not initial of syllable: [maison] > [maizôn] > [mezô], [planta] > [planta] > [plato].167 Both of these steps can be observed in Modern Spanish, as well as the intermediary stages. For instance, nación is heard with oral [o] (or almost) followed by a clear nasal consonant : [naGjog], [naOjon] ; or with more or less nasalized [o] followed by a nasal consonant : [na8jôq], [naGjón] ; and also with nasalized (or even nasal) [o] followed by an implosive nasal consonant or no nasal consonant at all, acoustically speaking: [na0jô]. In the process of vowel nasalization the loss of the nasalizing consonant indicates an advanced stage. For Spain, Navarro Tomás, provides information concerning the partial loss of n before j: 168 "En las sílabas ins, cons, y trans se pronuncia en general una n débil, breve y relajada, que a veces se reduce simplemente a una pequeña nasalización de la vocal precedente, y a veces se pierde por completo; la conservación total de la n en dichas sílabas tiene un carácter afectadamente culto; su perdida es constante en el habla popular; la pronunciación correcta, en este como en otros casos, se sirve, como se ve, de variantes intermedias, más o menos próximas a uno u otro extremo, según la ocasión y el tono en que se habla ..," 169 R. Lenz extends this for Chile to n before a fricative: "Si no me equivoco en algunas zonas centroamericanas hay fuerte tendencia a la nasalización de toda vocal delante de n ; en Chile las vocales sólo son afectadas por n+fricativa conservada ..." 170 Extreme examples of nasalization found in his study are : [lô%a], [kóforme], [narota], [ü %ardin] ;171 [gâso]. 172 E. C. Hills, for New Mexico, extends it to n before dentals : "Ante dental la n desa185
P. H. Ureña, "Observaciones ...", op. cit., p. 370. A. M. Espinosa (padre), op. cit., p. 148. 16 ' "On peut placer ici (avant 843) un autre cas d'assimilation, cette fois de voyelle à consonne, inconnu au latin classique, et qui paraît dû au substrat celtique (il offre son maximum d'intensité dans la Gaule septentrionale): c'est la nasalisation de la voyelle devant m ou n." (A. Dauzat, op. cit., p. 49). "Vers la fin du Moyen Age, la consonne nasale implosive, qui avait nasalisé jadis la voyelle précédente, a été peu à peu absorbée par celle-ci" (Ibid., p. 92). 168 We know that a tendency to lose n before s and other fricatives already existed in Latin and Vulgar Latin: "Before fricatives or spirants n regularly fell, probably through nasalization of the preceding vowel" (C. H. Grandgent, An Introduction to Vulgar Latin, Boston, Heath, 1907, p. 131). 169 Navarro Tomás, op. cit., p. 112. 170 R. Lenz, op. cit., p. 160. 1,1 Ibid., p. 161. Ibid., p. 253. 168
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
199
parece, dejando fuertemente nasalizada la vocal anterior: [kâto] canto, [kâtar] cantar, [tèder] tender, [kâsar] cansar, [küsau] cansado. Ante [f], [c], [J], es poco perceptible y puede desaparecer: [í(m)fjerno] infierno, [â(n)cu] ancho, [pü(n)Ji] (punshe)."173 And A. M. Espinosa, for the same region, indicates no limitation as to the following consonants and gives abundant examples of nasality for all five vowels : (â:kas], [tè:go], [sî:ko], [kô:tigo], [nü:ka]. 174 New Mexico has a high degree of nasality: "En el español del norte de Nuevo Méjico y del sur de Colorado, la nasalidad está muy generalizada, siendo menos perceptible que en francés, algo más que en español." 175 It would be one of the best places to study the physiology of nasalization. 24. All old French nasalized vowels showed a tendency to open. It is especially apparent in the cases of [i], [y], and [e], which became respectively [e], [œ], and [a]. This tendency reappears today in the Spanish of New Mexico : [ë] becomes [a] just as Old French [enfant] had become [ânfânt]. 176 "La e inicial, ante nasal seguida de dental o labial, se vuelve a veces a nasal, ligeramente redondeada : [âtâseh] entonces, [âdôde] en donde, [âtusjazmo] entusiasmo."177 "Una [â] en nuevomejicano aparece como pronunciación ... de e sílaba (no final absoluta) trabada por nasal, en algunas palabras y grupos de palabras : entonces > [â:tO:ses], en casa de > [â:kase] o [â:ka(e)J en ancas > [cíncr.kas], lengüetear > [15:gwetjar], calendario > [kalS:darjo], Enrique, [ô:rrike]." 178 "[ë]. Este sonido aparece en nuevomejicano como pronunciación ... de i en sílaba (no final absoluta) trabada por nasal, en un gran número de palabras comunes: imposible > [è(m)posi|31e], impedido > [è(m)peôi5o], imbécil > [ê(m)besil], interés > [È:teres], inducir > [e:dusir], principal > [prÊ:sipal], invitar > [ê(m)bitar], indecente > [s:desè:te], indirecta > [e:direita]." 179 25. The opening influence of r over the preceding vowel was only operating, in the evolution of the French language, as long as the r was apical (tongue tip), according to A. Dauzat. 180 Apical r being the normal articulation of r in most of the Spanish 17
'
E. C. Hills, op. cit., p. 17. A. M. Espinosa, op. cit., pp. 63-68. 176 Ibid., p. 58. 1,6 "Dès le Xle siècle, par une evolution qui ne gagna ni le nord ni le nord-est, [e] en s'ouvrant avait rejoint [a]: les deux séries assonent ensemble dans la Chanson de Roland" (A. Dauzat, op. cit., p. 87). 177 E. C. Hills, op. cit.. p. 9. 178 A. M. Espinosa, op. cit., p. 63. 179 Ibid., p. 65. 180 A. Dauzat mentions the "phénomène qui amène tout eka devant r implosif..." and says further : "il s'agit d'une évolution phonétique qui amenait eka devant r prépalatal ; cette tendance s'observe dès le latin vulgaire de Gaule dans quelques mots où des circonstances favorables l'ont facilitée {mercatu > marcatu, per > par), et on l'observe plus tard dans de nombreux patois. Les plus anciens exemples en vieux français ont été relevés par M. Brunot chez Rustefeuf (Hist, de la langue fr., 1,407), mais le phénomène ne parait se généraliser qu'au XlVe siècle. Phonétiquement, e + r prépalatal exige deux mouvements contraires de la langue, dont le dos doit se relever pour e avec la pointe baissée, tandis que pour r, le dos s'abaisse et la pointe se relève; au contraire, la langue est à plat pour l'a, toute prête à prendre la position requise pour l'émission de la consonne. Il s'agit donc d'une assimilation par anticipation" (Op. cit., pp. 102-103). "Cette évolution est liée au caractère prépalatal de l'r; IV dorsal provoque le changement inverse: nous l'observerons à l'époque contemporaine mais pas avant" (Ibid., p. 122). 1,4
200
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
speaking countries today, it is not surprising to find evidence of this opening influence. For example in New Mexico : "Sarnículo, armitaño (cernícalo, ermitaño), en la sílaba inicial erm-, ern-, por influencia de r+nasal ... Sartificau (certificado), por influencia de r." 181 26. The loss of the labial element of the Old French diphthong [we] seems to have occurred toward the end of the XlVth century: [parlwe] > [parle], [frâswe] > [frase]. 182 Several instances of a similar tendency have been noted in Spanish speaking lands. Here is a typical one recorded in Mexico: " l / e acentuado se reduce a e en las formas del verbo probar acentuadas en la raíz: por ejemplo, pruebo > [prePo], prueba > [prePa], prueben > [prePen]." 183 And in New Mexico: "L/e > e. Este interesante fenómeno es raro en nuevomejicano : prebo, greso, cleco (pruebo, grueso, clueco)."184 Both C. C. Marden and R. Menéndez Pidal have attempted to explain this change. Marden by the closeness of the points of articulation o f / a n d e; "la e del diptongo ue está, mucho más cerca de la posición de la r que de la labial w, y de ahí que la u caiga .,." 185 Menéndez Pidal by a dissimilation in which the second labial ([w] of the diphthong [we]) is eliminated by the first labial (p, f, etc.,): "la alternativa de un sonido labial+alveolar (1, r)+labial (w)+palatal (e) provoca una disimilación eliminadora que excluye el segundo sonido labial ..." 186 Neither one seems to be right and the problem needs much further investigation before it can be solved. Marden's theory is opposed by the example clueco which contains no r and Menéndez Pidal's by the example grueso which has no first labial to dissimilate a second one. And especially, both are strongly opposed by the fact that the same type of reduction occurs with other diphthongs when there is no limitation such as those of their theories. For examples, [wo] becomes [o] in numerous Hispanic areas as it does in New Mexico: "Uo, tónica o átana, da o: lengón, afetoso, respetoso, impitoso, virtoso, de contino, endivido, perpeto, mostro (lenguón, afectuoso, respectuoso, impetuoso, virtuoso, de continuo, individuo, perpetuo, monstruo)."137 27. In the evolution of Old French diphthongs, during a long period, whenever the stress was on the closer part of the diphthong, it showed a tendency to shift toward the more open part : Vulgar Latin mel > [miel] > [miél] ; Vulgar Latin cor > [kúor] [kúer] > [kuér]. 188 When both elements of the diphthong were about equally close, 181
A. M. Espinosa, op. cit., p. 91. "au cours du siècle suivant (XlIIe), loij passe à [óe] et, par glissement d'accent à [we], dont le premier élément tendra bientôt à s'éliminer" (A. Dauzat, op. cit., p. 85). "La phonétique populaire amena [we] à [e] vers la fin du XlVe siècle, par une tendance à l'élimination de la semi-consonne labiale dont on trouve de nombreux exemples antérieurement et postérieurement (cf. [kw] > [k], [gw] > [g]; [ue] > [ae]; vuide > vide, etc.). (Ibid., p. 101). 183 C. C. Marden, op. cit., p. 111. 184 A. M. Espinosa, op. cit., p. 120. 185 C. C. Marden, op. cit., p. 111. 186 R. Menéndez Pidal, Manual de gramática histórica española, cuarta edición (Madrid, 1918), P- 55. 187 A. M. Espinosa, op. cit., p. 120. 188 "Il y avait à l'origine deux diphtongues accentuées sur l'élément faible, [ie] et [úe|. L'une et l'autre ont éprouvé un glissement d'accent qui a rapidement amené [ie] à [je] et [úe] à [we]" (A. 182
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
201
the stress showed a tendency to shift to the second element: [fryit] > [fryit]. 189 Both of these tendencies can be observed in Modern Spanish. The first one—shift of accent to the more open part of the diphthong—in popular or neglected pronunciations such as: [áora] for ahora, [perjodo] for período, [dja] for día, [abja] for había, [a9ja] for hacía. The last three examples are considered by Navarro Tomás as common in popular language and tolerated in rapid speech: "El habla vulgar, dentro de determinadas circunstancias relativas a la posición de la palabra en la frase, practica corrientemente la sinéresis: [tja], [dja], [a-Pja], [a-0ja]. En lenguaje rápido y en posición poco acentuada, la sinéresis del grupo ia se tolera, en ciertos casos, aun entre las personas instruidas." 190 And he expresses somewhat the same opinion concerning other diphthongs. For instance: "La sinéresis de laúd, baúl, paíz, maíz, vizcaíno, bilbaíno, frequente entre el vulgo, en España, y muy extendida, aun en clases más altas, en América, se usa rara vez, en el ambiante castellano, entre las personas instruidas." 191 Let us quote a few examples from Latin American dialectal studies. In New Mexico: "El acento recae sobre la mas abierta, ya ocupe esta en el diptongo el primero o el último lugar: a) ái, páis, ráis, máistro, cáer {allí o ahí, país, raís, maestro, caer), b) periodo, ociáno {período, océano); parecía {parecía). Aunque la pronunciación más vulgar en nuevomejicano es ia para la terminación de los imperfectos también ía es corriente ... c) Ocurre también este cambio acentual en todos los bisílabos en -eo, -ea, si están en posición enfática: viá, siá, liá {vea, sea, lea) ,.."192 In Old Mexico: "reaparece la vieja ley del acento en la última especie mencionada de palabras españolas y la intensidad se traslada a la vocal precedente, que es la más sonora. Encontramos, así, palabras como óido {oído) .,." 193 "La e se convierte en i en tráir, cáir que corresponden a traer, caer. Tenemos aquí, en primer lugar, cambio de
Dauzat, op. cit., p. 84). "| s | libre devant des consonnes orales se diphtongue dans les oxytons et les paroxytons, et dans les proparoxytons dont la syllabe tonique reste ouverte, à l'époque romane, après la chute de la voyelle de la pénultième, en [ie] qui, par suite du déplacement de l'accent sur le deuxième membre de la diphtongue, devint [ié]" (Schwan-Behrens, op. cit., pp. 45-46). "[a] libre devant les consonnes orales se diphtongue dans les oxytons et les paroxytons, et dans les proparoxytons dont la syllabe reste ouverte, à l'époque romane, après la chute de la voyelle de la pénultième, en [úo], qui devient de bonne heure |ué, uè], en passant par [úe]" (Ibid., p. 52).—And we recall that a similar shift had already been taking place in Vulgar Latin : "Accented e and i, when immediately followed by the vowel of the penult, became [j], the accent falling on the following vowel : [mulieris] > [muljeris]; [putéolis] > [putjolis]; [parietes] > [parjetes] > [paretes]. This change seems to be due to a tendency to shift the stress to the more sonorous of two contiguous vowels" (C. H. Grandgent, op. cit., pp. 61-62). Of these three exemples, however, only the first and third have a "more sonorous" (more open) second vowel. In the second, puteolis, the two contiguous vowels have the same opening, therefore the reason for the shift is not "a tendency to shift the stress to the more sonorous" but a tendency to shift the stress to the second element, as in Old French [fryit] > [fryit], is« "/yj/; comme les rimes et les assonances d'uí:< permettent de le voir, est devenu, dans le cours du 12e siècle, /yi/" (Schwan-Behrens, op. cit., p. 138). (Cf. preceding note for similar tendency in Vulgar Latin.) aso Navarro Tomás, op. cit., p. 164. 191
192 1,8
Ibid., p. 161.
A. M. Espinosa, op. cit., p. 52. C. C. Marden, op. cit., p. 99.
202
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
acento hacia la vocal más sonora .,."194 In Chile: "Al lado de estas formas con éi por ai ocurren también las formas con ái: páV (país), ái (ahí), tráido, pero no pertenecen a las capas mas bajas del pueblo, sino a las personas semiilustradas. La pronunciación de ai, aé, aú es en general incómoda para los chilenos, como se advierte en el hecho de que, en esos casos, tienden a dislocar el acento aun cuando el diptongo sea muy reciente; así, la acentuación vacila ya a menudo en los numerosos diminutivos en -ito, como náita (nadita), tóito (todito), por ejemplo: tóito lo diá (toditos los días) ..."195 The author recorded in Mexico a change of stress in which emotion played a large part but which is nonetheless significant. An eight year old boy, son of a doctor, cried out as he suddenly noticed his uncle coming: [o mi tjo mi tjo]. The second tendency—shifting of the accent to the second element when the two elements are about equal—is heard in the common adverb muy, often pronounced almost [mwi]. Phonetic transcriptions in two different contributions of Le Maître Phonétique give [mwi] for mwy.196 R. Lenz transcribes it [mui] in a phonetic text given as an example of "lengua conversacional culta" of Chile.197 Navarro Tomás also transcribes it [mwi]198 but he adds as a footnote: "[mwi altos], la [i] acaba casi como una [j]; vulgar, [mujaltos]."199 In a song entitled El Caminante de Mayab, the author frequently heard a choir of Mexican students end the final syllable of the phrase el pájaro pujúy on a long held [i] sound, although it is meant to rhyme with azul. This whole question of change of accent is most competently treated by A. Alonso in an article entitled: "Cambios acentuales."200 which includes abundant examples from all Spanish speaking countries. It proves in a conclusive manner that accent changes in successive vowels are not due to an analogical process but to a phonetic process. 28. The change from vowel to semi-vowel, as in [tuéta] > [tweta], [pié] > [pje], seems to have completed itself only late in the Old French period.201 Modern Spanish, not having completed this change (and there is no indication that it will) offers for observation intermediary stages between vowel and semi-vowel, for instance between [nuéstro] and [nwestro], [anual] and [anwal], [piáno] and [pjano], [adiós] and adjos].202 194
Ibid., p. 108. R. Lenz, op. cit., p. 187. 198 Le Maître Phonétique, troisième série, LIX, 18 (janvier-mars, 1935). 197 R. Lenz, op. cit., p. 199. 198 Navarro Tomás, op. cit., p. 283. 199 Ibid., p. 182. 200 Biblioteca de dialectología hispanoamericana, I, 317-371. 201 "¡i y a v a i t à l'origine deux diphtongues accentuées sur l'élément faible, [ie] et [ûe]. L'une et l'autre ont éprouvé un glissement d'accent qui a rapidement amené [ie] à [je] et [úe] à [we]" (A. Dauzat, op. cit., p. 84). 202 A similar change had already been taking place in Vulgar Latin : "e, i, and u in hiatus with following vowels lost their syllabic value probably by the first century of our era, and sporadically earlier ... The pronunciation e, i, u was probably regular in popular speech by the first century or before; by the third century, with a narrowing of the mouthpassage, the semi-vowels presumably developed into the fricative consonants [j] and [w] : [aléa] > [aleá] > [alja], [filíus] > [filiús] > [filjus], [sapúi] > [sapuí] > [sapwi]" (C. H. Grandgent, op. cit., pp. 93-94). 195
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
203
The fact that Spanish stands at a less advanced stage than French is evidenced by the way linguistic investigators disagree in their transcriptions. Some use [i] and [u] where others use [j] and [w], and it leads to such discussions as the following ones by R. Lenz: "Escriche distingue, con mucho acierto, que hie, hue se pronuncian [je], [we], pero subraya que, en oposición al francés, no aparecen [je], [we] cuando precede consonante : por lo tanto, en español se dice [bién], en francés [bjË] ; en español [ruéda], en francés [rwa]." 203 "Me parece que a Araujo le ha confundido, en su grafía [pjedra], la transcripción del francés; pero el francés pierre se pronuncia de manera totalmente distinta. Tampoco me parece lícito transcribir sin más toda u española ante vocal acentuada como [w]..." 204 The existence of intermediary stages is also emphasized by this passage of Navarro Tomás: "En ciertos casos, sin embargo, la tendencia fonética a reducir los grupos de vocales a una sola sílaba lucha con influencias etimológicas y analógicas, siendo posible pronunciar una misma palabra con reducción o sin reducción." 205 29. Metathesis was a common phenomenon of Old French. Kr. Nyrop 206 classifies seven types of this transposition of sounds, and there are types not included in his classification. (For instance he does not include transpositions of yod to be regarded as metatheses and not as epentheses, according to A. Dauzat. 207 ) In Modern Spanish metathesis is common enough to offer examples of most of the types present in Nyrop's classification. Let us briefly list a few types that are found in both, in order to show the interest there would be in observing stages of the metathesis process in Spanish. (1) Single transposition to a preceding syllable (not consecutive). O. F. bevrage > breuvage.209 M. S. fábrica > frábrica,209 pantufla > plantufa,210 pobre > probe, dentífrico > dentrífico, temprano > trempano. (2) Reciprocal transposition of two consonants (not consecutive). O. F. lequerisse > regulisse > reglisse.211 M. S. estómago > estógamo, magullar > mallugar, Jerónimo > Jenorimo, derramar > redamar. (3) Reciprocal transposition of vowels (not consecutive). O. F. heritage > hiretage. M. S. Rudecindo > Reducindo 212 pescozón > cospezón. (4) Reciprocal transposition of consecutive vowel and consonant. O. F. berbiz > brebis, formage > fromage. M. S. permisa > premisa213 personaje > presonaje, cadáver > cadavre, Porfirio > Profirio. 203
R. Lenz, op. cit., p. 190. Ibid., pp. 191-192. 205 Navarro Tomás, op. cit., p. 158. 206 Op. cit., pp. 460-463. 207 Op. cit., pp. 68 and 79. 208 Kr. Nyrop, Grammaire historique de la langue française (Copenhague, 1914), Tome I, p. 460. 209 P. H. Ureña, "Mutaciones ...", op. cit., p. 377. 210 Ibid., p. 378. 211 Kr. Nyrop, op. cit., p. 461. 212 P. H. Ureña, "Mutaciones ...", op. cit., p. 379. 213 Ibid., p. 370. 204
204
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
(5) Reciprocal transposition of consecutive consonant and vowel. O. F .froment > forment.21* M. S. preferir > perferir.215 Presiliano > Persiliano. (6) Transposition of yod after the preceding vowel (so called epenthetic i). O. F. ostria > uistre,216 cofia > coife. M. S. agrio > aigro, nadie > naide(n). (7) Reciprocal transposition of two consecutive vowels. O. F. tiule > tuile, siuf > suif, meolle > moelle. M. S. ciudad > suida,217 ruibarbo > riubarbo, transeúnte > transuente. 30. Dissimilation, like metathesis, is not a regular type of change, it is an accidental type, with a rather limited extension. One of the most extensive dissimilations of Old French is that of [i] changing to [e] when the next syllable contains another [i] : Latin divisât, misisti, Old French devise, mesis,218 (This change had already been taking place in Vulgar Latin: vicïnus > vecînus.219) In Modern Spanish, we find a striking tendency to the same type of dissimilation. For instance, in Mexico : "La i > e por disimilación en palabras donde aparece en dos sílabas contiguas. El cambio ocurre tanto cuando la segunda / es acentuada como cuando es inacentuada: divine > [de(íino], medicina > [medesina], visitar > [besitar]." 220 In New Mexico: "Cambios de ¡ e n e : 1. Melisia, Begil, vesita, medesina, ofesina, escrebir, almetir, redículo,posetivo (milicia, Vigil, visita, medicina, oficina, escribir, admitir, ridículo, positivo), por disimilación con la i siguiente. 2. Emitar, deligensia, felesida, habelida (imitar, diligencia, felicidad, habilidad), por disimilación ante i átona." 221 E. C. Hills adds a few examples not listed by A. M. Espinosa: [menihtro] for ministro, [edeviduo] for individuo.222 31. The process called elision (le ami > l'ami), which became quite general with Old French monosyllables, 223 appears daily in neglected or dialectal forms of Modern Spanish. This tendency to elide has been recorded in many linguistic investigations. For instance by R. Lenz in Chile: "El artículo masculino el, ante palabras que empiezan por vocal ; se reduce a una simple l: e'tá /'ombre; lo mismo la seguida de vocal : 1'ocasión ; y el, femenino, seguido de vocal, aun cuando vaya precedido de consonante : en Vawa (en el agua)."iU By P. H. Ureña in Mexico: "La elisión es muy común: 214
Kr. Nyrop, op. cit., p. 462. P. H. Ureña, "Mutaciones ...", op. cit., p. 371. 218 F. B. Luquiens, op. cit., pp. 55-46. 217 P. H. Ureña, "Mutaciones ...", op. cit., p. 369. 218 "Remarque. L'i protonique passe par dissimilation à e, si la syllabe suivante contient un autre i; divisât devise; divinat devine-, divinum divin; critinum creni, crenu; finiré fenir; comp. encore vfr. desis pour disis (dixisti), etc. Parfois les deux formes existent l'une à côté de l'autre; ainsi à côté de pit it, espirit, pipié, on avait pitit, esperit, pepie" (Kr. Nyrop, op. cit., p. 173). 219 C. H. Grandgent, op. cit., p. 97. 220 C. C. Marden, op. cit., pp. 116-117. 221 A. M. Espinosa, op. cit., p. 96. 222 E. C. Hills, op. cit., p. 10. 223 "Quand il se produit une rencontre de deux voyelles entre deux mots intimement liés, la première peut disparaître. L'élision frappe surtout Ve féminin, rarement les autres voyelles: le ami > l'ami, ce est > c'est, la âme > l'âme, etc. Ce phénomène ... se trouve dès les plus anciens textes; il y en a des exemples dans les Serments de Strasbourg" (Kr. Nyrop, op. cit., p. 274). 224 R. Lenz, op. cit., p. 195. 315
OLD FRENCH PHONETIC CHANGES IN MODERN SPANISH
205
Vhora, rúnica ... Como consecuencia, /' tiende a convertirse en la única forma del artículo ante vocal y se dice Pagua, Vúnico, Vojo, Vespejo. " 225 By A. M. Espinosa for New Mexico: "La e final, tónica o átona, solo se elide ante e, i: se escapó, s'escapó, de irse d'irse, el se ira él s'ira, no le iguala no Viguala ... " 226 And E. C. Hills, in his Morphology of the Spanish of New Mexico notes a tendency to elide for all the definite articles, masculine, feminine, neuter, singular and plural: "El artículo definido es: el, 'l; la, /'; lah, Ph; loh, Ph-, lo, /'." 227 Stages in the loss of these proclitic vowels offer a wide field of study in relation to the Old French changes of the same types. CONCLUSION
Phonemic changes of ancient languages have not yet been explained satisfactorily. In the belief that they could be better understood in the light of phonetic stages of their evolution which are accessible in modern languages, we have presented and briefly discussed here thirty-one cases in which changes of an ancient language—Old French—may correspond to stages of a modern language which is not its daughter— Modern Spanish. Each of the thirty-one problems presented here needs to be studied with all the scientific means at our disposal. Then this type of investigation should be repeated with other languages in which stages of Old French changes can also be observed. It is more than likely that a synthetic study of such investigations would answer many of the impenetrable "pourquois."
825 226 227
P. H. Ureña, "Mutaciones ...", op. cit., p. 336. A. M. Espinosa, op. cit., p. 127. E. C. Hills, op. cit., p. 25.
A C O N T R I B U T I O N T O T H E H I S T O R Y O F "R
GRASSEYÉ"*
Repeated observation of the substituting of trilled apical r by a fricative apical r, in Mexico, suggests an explanation for the evolution of r, in France, from trilled apical r to a fricative uvular r. This fricative r is the one used most generally by the present French generation. It shows almost complete loss of uvular trills (except for emphasis, or in some provinces such as Vivarais). Its point of articulation is in the region of the uvula and the back or more precisely the root of the tongue. It has been called "dorsal" in recent descriptions 1 because, as the uvula does not vibrate, the part played by the back of the tongue is felt more. But the constriction which causes the friction noise when the breath goes through is still in the same region as when the uvula vibrated regularly, that is, toward the upper pharynx and the very root of the tongue. It is more correct to speak of the root of the tongue than of its back. The back implies that the point of articulation has been brought slightly forward from the uvular region, as in the case of Haitian French where the fricative r is almost similar to the Spanish fricative g of intervocal position (haga). This is not at all the case in Parisian French where the tendency is on the contrary for the point of articulation to draw farther back, producing friction and resonance by constriction of the very muscles of the pharynx. It is this pharyngeal resonance which gives it its character "gras", whence the expression "r grasseyé". In Mexico, we have often heard cultivated people as well as others use a fricative apical r. The intended sound was a trilled (multiple-vibration) r, but the vibration of the tip of the tongue, functioning as an elastic organ, failed to get a start, and the result was a mere constriction between the tongue tip and the alveolar ridge at a point between those of [z] and [3]. Naturally, the fricative sound resembles both [z] and [3], and would simply be an intermediary sound of these, were it not for the fact that the aperture is greater, the tongue tip more raised and much more tense, and the sound is held longer. (This change from trilled apical r to fricative apical r obviously recalls the French change from [r] to [z], as in chaise for chaire, besicle for bericle, Gesainville for Gerainville. However, the Mexican change is only phonetic, while the French change became phonemic.) Navarro Tomâs describes several defective r sounds of * 1
Originally published in Modern Language Notes, December, 1944, pp. 562-564. Maurice Grammont, Traité pratique de prononciation française, 9e éd. (Paris, Delagrave, 1938),
p. 67.
A CONTRIBUTION TO THE HISTORY OF " R GRASSEYÉ"
207
Spain and Spanish speaking countries. They come from both flapped r and trilled r; and are found in various positions: intervocal, initial, and postconsonantal. In naming them, he distinguishes the fricative r from the assibilated r? From his descriptions, all these defective r sounds seem to be related to the fricative r we heard in Mexico. But our Mexican fricative r came only from a trilled r and not from a flapped r. Therefore, we clearly noted it only in the following positions : initial (rico), after /, n, s (Enrique), intervocal (torre) ; and rarely final (vivir). The history of modern French r must have taken place in two phases. In the first phase, uvular trilled r coexisted with and gradually replaced apical trilled r. The two sounds can belong to the same phoneme. Their coexistence under one phoneme is a common phenomenon in many dialectal forms of both Germanic and Romanic languages today. The nearest example for us can be found in the Spanish of Puerto Rico, where trilled r is a strongly vibrated r from the uvula. Only a trained ear can distinguish it from an apical trilled r. In the second phase, the uvular trilled r became a fricative r without changing its point of articulation. The vibrating of the uvula failed to get a start, and the only sound produced was a voiced friction caused by the running of the breath through the constriction. This second phase is the one that was suggested to us by the existence of a fricative apical r in Mexico. The first phase needs to have occurred only if the second is correct. Those two phases were necessary to satisfy the French tendency to vocalic anticipation: during the French articulation of the consonant, the tongue always tries to take the position of the following vowel, thereby eliminating diphthongization. This vocalic anticipation requires as much freedom of the tongue as possible. With the apical r keeping the tip of the tongue occupied, the vowel position could not be anticipated and a transitory movement from r to the following vowel was inevitable. The change from apical to uvular r was a first step to liberate the tongue; then the change from trilled to fricative r completed the liberation of the tongue, allowing it to articulate the r while holding in advance the position of the following vowel. We might even go farther back in our investigation of the "pourquois" and notice that the French tendency to vocalic anticipation is in line with the characteristic of clarté which is manifested in all other branches of the French language as well as in its phonetics. A predilection for clearness may be the dominant psychological factor in the phonetic evolution of French to its present form.
2
Navarro Tomás, Manuel de pronunciación española, 4a ed. (Madrid, 1932), pp. 117-118, 120, 122, 123-124.
LA QUESTION DES DEUX "A" EN FRANÇAIS*
Les traités de phonétique française, comme les dictionnaires et les grammaires, admettent que la graphie A peut représenter soit [a], dit "antérieur" (maximum d'ouverture vocalique, léger bombement de la langue vers le milieu de la bouche), soit [a], dit "postérieur" (le bombement est plus retiré vers le fond de la bouche, les lèvres légèrement moins écartées que pour [a]), mais ils ne sont pas d'accord sur le choix des A qui se prononcent [a] plutôt que [a]. L'étranger qui note ces divergences cherche à y remédier en observant soigneusement la prononciation des A chez les Français cultivés qui sont dans son entourage. Il ne s'en trouve malheureusement que plus embarrassé : les A de l'un diffèrent étonnamment des A de l'autre et il ne trouve pas de troisième qui soit d'accord avec l'un ou l'autre. Il lui semble que les A de celui-ci sont tous graves (postérieurs), les A de celui-là tous aigus (antérieurs), et ceux de cet autre tantôt graves, tantôt aigus selon les mots. Et pourtant, pense-t-il fort justement, tous ces Français sont cultivés, tous parlent le français du Nord et le parlent bien. Sa difficulté est encore aggravée du fait que l'état phonétique évolue sans cesse et que la distinction des deux A diffère selon la génération: "... si la distinction entre A antérieur et A postérieur existe toujours dans les milieux cultivés, il faut reconnaître que l'usage est hésitant pour un certain nombre de mots. C'est l'A antérieur qui semble prévaloir alors", disait déjà M. Fouché en 1935, d'accord avec M. Dauzat (Où en sont les études de français, Paris, d'Artrey, p. 49), indiquant par là que, en ce qui concerne le nombre des A postérieurs, la génération la plus âgée est la plus conservatrice. Pour se rendre compte du chemin parcouru depuis un bon demi siècle, il suffit d'écouter le disque de Linguaphone "Les sons du français", enregistré par Paul Passy dans le premier quart du siècle. C'est un disque de grande valeur, comparable à ceux de Caruso en musique. Passy—né en 1858, élevé à Paris (la propriété de famille est à Bourg-la-Reine), fils de sénateur parisien (son père a été le premier à recevoir le Prix Nobel pour la paix), créateur de l'alphabet phonétique international, fondateur de l'Association Phonétique Internationale en 1885, et premier titulaire de la chaire de phonétique à la Sorbonne—nous offre un parfait exemple de la prononciation parisienne cultivée vers la fin du 19e siècle. Parmi les mots qu'il enregistre comme exem*
Déjà publié dans The French Review, XXXI, 2 (December, 1957), pp. 141-148.
LA QUESTION DES DEUX " A " EN FRANÇAIS
209
pies du timbre des voyelles, il se trouve quantités de A postérieurs et antérieurs. Ce sont les derniers surtout qui surprennent. Dans les mots pâle, pâte, fâché, âgé, et la dernière syllabe de ananas, les A sont nettement graves, sans cependant porter vers [o] comme dans le parler vulgaire des faubourgs parisiens d'aujourd'hui. Le symbole [a] leur sied parfaitement. Mais dans les mots campagne, signal, montagne, travail, page, papa, patte, barbe, lac, quoi, bague, cave, le timbre est beaucoup plus aigu que ce qu'on note aujourd'hui par [a]; le symbole [ae] s'en rapprocherait plus. D'ailleurs, dans d'autres mots en A, Passy atteint et même dépasse ce symbole. Dans quelquefois et quoi, l'acuité égale celle du [ae] américain et rappelle les "oi" les plus "parigots" de Maurice Chevalier. Enfin devant (r), dans rempart, part, parfum, l'acuité dépasse celle de [ae] pour incliner vers [e]. Au total, chez Passy, la différence de timbre entre [a] et [a] est plus marquée qu'aujourd'hui. Le rapprochement des timbres qui s'est produit depuis Passy pourrait être l'effet d'une réaction contre la divergence profonde qui existe dans l'accent faubourien, où [a] est presque [ae] et [a] presque [o]. Quoi qu'il en soit, plusieurs phonéticiens ont noté dernièrement que les deux A semblent s'acheminer vers un seul A, la différence de timbre qui les sépare étant parfois si réduite que ceux qui la font ont de la peine à l'entendre. Cette situation, d'ailleurs, n'est pas surprenante. D'après les statistiques que nous offrons plus loin, l'A postérieur est tellement désavantagé par le nombre qu'on se demande plutôt comment il a pu résister à la force de l'analogie. Depuis le 18 s i è c l e époque pendant laquelle quelque 35.000 formes verbales en -as, -ât, -asse, -asses, -assent, -âmes, -âtes, ont perdu leur [a] pour retourner à [a]—le nombre des [a] accentués n'a sans doute jamais dépassé 400. Aujourd'hui, dans le parler le plus conservateur, il ne reste de ces 400 qu'environ 150 [a] certains, et moins de 200 incertains, hésitant entre [a] et [a]. En face de cela, les [a] comptent quelque 10.000 mots, dont 2.700 dans les mêmes terminaisons consonantiques que les 150 [a] certains, et 2.600 dans les terminaisons des 200 [a] incertains. Et cela, sans compter au moins 60.000 formes verbales en -a, -as, -ât, -asse, asses, -assent, -âmes, -âtes. Ce qui donne au total quelque 70.000 [a] submergeant 150 [a]. En gros, 500 contre un. Mais au lieu de les vouer à l'extinction, voyons rapidement comment ces A postérieurs sont nés. Les cas nombreux de [a] analogiques mis à part, leur évolution s'est faite en deux temps: la postériorisation est la conséquence d'un allongement qui résulte lui-même de l'amuissement d'un son (voyelle ou consonne) contigu à l'A, vers la fin du moyen âge: animam > ànme > âme, aetaticum > eage > âge, rasculat > rascle > racle, rutabulum > roable > râble. Ainsi, premier temps : [past] > [pa:t], la chute de [s] laissant un vide de durée qui est absorbé par un allongement de l'A; deuxième temps : [a] étant maintenant long, la bouche a le temps de s'ouvrir davantage, portant la langue de sa position légèrement antérieure à la position centrale d'ouverture maximum, puis le mouvement vers l'arrière ainsi commencé se continue au delà de la position centrale (position instable) mais sans dépasser le degré d'ouverture du [a]: [pa:t] > [pa:t]. A partir de là, il s'établit une corrélation de durée: tout [a] suivi de consonne est plus long qu'un [a] suivi de la même consonne. (L'influence
210
LA QUESTION DES DEUX " A " EN FRANÇAIS
allongeante des consonnes agit naturellement sur les [a:] comme sur les [a]: si pave est plus long que patte, hâve est plus long que hâte). Il en résulte qu'à l'avenir lorsqu'un A postérieur redevient antérieur, il perd en même temps sa durée supplémentaire. C'est le cas des formes verbales en -âtes: [donast] > [dona:t] > [dona:t]; mais au 18e siècle, lorsque tous les -âtes des passés simples s'abrègent, [dona:t] > [donat] > [donat], le A postérieur bref reprenant aussitôt le timbre du A antérieur. (L'orthographe, elle, ne change pas. Oh! non. Elle est sacrée! Nos instituteurs trouvent tout naturel de faire réciter un A bref et antérieur et de faire écrire un A long et postérieur dans 10.000 formes verbales. Et cela fait encore moins sourciller nos académiciens!) Ce n'est pas là le seul exemple des dégâts causés par l'analogie. Nous verrons plus loin que non seulement elle abrégera et antériorisera des A qui avaient droit à être longs et postérieurs ([dona:t] > [donat]) mais elle allongera et postériorisera des A qui n'y avaient aucun droit: miracle, oracle, cadre, cadavre, diable, fable, sable, cabre, délabre, etc., ont un [a] par analogie avec râble, bâcle, âtre, etc., qui ont un accent circonflexe, et avec racle (de rascle), ladre (de lasdre), madré (de masdre), etc., qui devraient en avoir un. L'analogie mettra même des accents circonflexes où ils n'ont pas de raison d'être: âcre (acrem), bédâne (beccum + anatem), câpre (italien Cappero), crâne (cranium), grâce (gratia), hâble (espagnol Hablar), idolâtre (idolâtres), infâme (infamis), mânes (mânes), pâle (pallidus), théâtre (theatrum), etc. (Après ces exemples, qui oserait encore croire à la valeur "étymologique" de notre orthographe!) Nous avons déjà dit que la liste des A postérieurs à recommander était chose fluide, insaisissable, ni les Français entre eux, ni les grammaires, manuels et dictionnaires n'étant d'accord. C'est pour remédier à cette lacune que Pierre Fouché, Directeur de l'Institut de Phonétique de la Sorbonne, nous promet depuis dix ans une liste définitive des [a], résultat de ses longues observations dans les milieux cultivés de Paris, et plus spécialement dans la génération née vers la fin du 19e siècle ou un peu plus tard. Attendu impatiemment de tous—y compris des Parisiens, qui brûlent de savoir enfin ce qu'ils disent (puisque seul un phonéticien est en droit de le réléver)—ce Traité de Prononciation Française (Paris, Klincksieck, 1956), est connu des phonéticiens sous le nom de "livre d'octobre" parce que, chaque été, depuis la guerre, à ceux qui demandaient à M. Fouché quand son traité devait paraître, il répondait: "En octobre.—Oui, mais en quelle année, Maître?—Ah! ça, vous m'en demandez trop!" Il valait la peine d'attendre. Dans un gigantesque exposé (500 pages) de la complexité des rapports entre le timbre et la graphie, M. Fouché consacre 13 pages compactes aux [a]. Nous allons condenser ici l'essentiel de ce qui concerne l'[a] accentué (en syllabe finale), tout en complétant les listes partielles et en éclairant de statistiques et de commentaires. Nous séparerons les [a] donnés pour "certains" des [a] suivis de notions telles que "on peut prononcer", "à la rigueur", "il y a hésitation", etc. Et nous éliminerons de nos listes tous les noms propres et les mots rares.
LA QUESTION DES DEUX " A " EN FRANÇAIS
211
LES A POSTÉRIEURS "CERTAINS"
Il y en a 151, dont (I) 70 avec accent circonflexe, et (II) 81 sans, dans les listes de M. Fouché. Les 81 mots sans accent peuvent se diviser en trois: II-A, les [a] qui se rattachent à l'influence d'un [s]: terminaisons en a(s), asse, as, ase, aze, az; II-B les [a] suivis de groupes terminés en liquide : afle, avre, able, abre, acle, adre, (l'analogie est ici secondée par l'influence allongeante de ces groupes de consonnes—on sait que les groupes qui commencent par une liquide abrègent la voyelle qui précède, tandis que les groupes qui se terminent par une liquide l'allongent—cf. French Review, XVI, 3 [1941], 220-232); II-C, les [a] des terminaisons amne, a et oi. I Tous les " 3 _3 3 cr 0a u o £ ë. > -a ^c/l u « .!£ CO c 3 -» u 'ïb * "o E C ^ CO -S! a w j,3er EC u.Oi U M " S E a3> oir 3M o« " ,5 CT o cCO CN [r,-r Ü •g 8. C - u, fe 3 O CO o •a (U 3o c « >,.2 ^ — CO c« gc CO J g e E — 1 P Lu ^S= E as oj M £ c CT rt CÖ 13/ J ^
À'
*>
/
t
CO ^
•to 1
'
* M
3
^
S
•3
i»jt
i
r* «
U M IZ u.
U,
U,
fe
—
T3 U ' S 00 C C ' o S l=a' Iä os sI . CT
V)
r
LA NASALITÉ VOCALIQUE ET CONSONANTIQUE
245
groupes, les éléments acoustiques d'un spectrogramme peint à la main ou fait au spectrographe. Le meilleur moyen de déterminer le rôle des divers formants dans la perception de la nasalité était de les reproduire ainsi par synthèse séparément et en une infinité de combinaisons, et de juger de l'effet produit sur l'oreille. C'est à quoi nous avons passé l'hiver 49-50. (Pendant l'été 47 nous avions fait de nombreux spectrogrammes de nasales aux Laboratoires Bell Téléphoné, sans arriver, par leur seul examen, à déterminer avec certitude les attributs acoustiques de la nasalité.) En juin 1950, nous avons lu une communication à la réunion de la Société d'Acoustique d'Amérique, avec démonstration sonore et visuelle de la transformation, en synthèse, de voyelles orales en voyelles nasales. Ces résultats n'ont pas été publiés parce qu'ils n'étaient pas encore satisfaisants. Depuis lors, nous avons progressé, mais il reste encore des points à éclaircir, entre autres, justement, la relation entre nasalité de consonne et nasalité de voyelle. Ce n'est donc encore qu'à titre provisoire que nous formulons ci-dessous les faits essentiels. Les principaux attributs acoustiques de la nasalité se trouvent dans les fréquences basses du spectre! (Ceci contredit toutes les études précédentes parce que les fréquences basses sont très difficiles à analyser dans la décomposition harmonique. Seule la synthèse a permis de le faire.) Le premier facteur de la nasalité vocalique est sans contredit l'extrême faiblesse d'intensité du premier formant, comme on peut le voir sur Fig. 1. (Par premier formant, nous voulons dire celui qui correspond au premier formant, le formant le plus bas, des voyelles orales. Les voyelles nasales semblent en avoir un autre, encore plus bas, que nous nommons dans le paragraphe suivant "premier formant nasal".) Dans la synthèse, pour transformer une voyelle orale en une voyelle nasale, il faut commencer par fortement réduire l'intensité du premier formant. Après ce seul changement la voyelle est perçue comme nasale par une oreille française. Le deuxième facteur est un formant très bas, vers les 250 cycles pour une voix d'homme (bariton). L'addition de ce formant accentue la nasalité. Appelons-le "premier formant nasal". Le troisième facteur est un formant vers les 2000 cycles. Appelons-le "deuxième formant nasal". Il semble être d'autant plus faible que le son est plus ouvert. Ainsi dans la synthèse il contribue fort à nasaliser les consonnes, moins à nasaliser [ë], [dé] et [5], presque pas à nasaliser [à], (Sur Fig. 1, il n'est même pas visible, la voyelle étant ouverte). Le deuxième formant de la voyelle orale ne change guère d'intensité dans la nasalisation. Il ne change pas non plus de fréquence si les organes buccaux ne changent pas de place (cf. Fig. 1). (Le fait que les deux premiers formants des voyelles nasales n'ont pas la même fréquence que les deux premiers formants des voyelles orales qui sont supposées leur correspondre indique simplement que la position des organes buccaux n'est pas la même.) Au dessus du deuxième formant, de nombreux changements se voient sur le
246
LA NASALITÉ VOCALIQUE ET CONSONANTIQUE
spectre de la nasale, surtout dans les troisièmes et quatrièmes formants (le troisième monte toujours, le quatrième descend toujours). Mais, à la synthèse, aucun de ces changements ne produit d'impression de nasalité perceptible à t'oreillel Quant à la nasalité des consonnes nasales, l'analyse des spectrogrammes ne fournit presque pas d'indication, l'intensité étant trop faible ou les fréquences importantes trop basses. Dans la synthèse par contre, la nasalisation a été relativement facile à produire. Elle dépend en tout premier lieu d'un formant bas, vers les 250 cycles (qui pourrait être le même que le formant de 250 cycles des voyelles nasales—point qui sera très difficile à vérifier), en deuxième lieu, d'un formant de fréquence assez fixe, vers 2000 cycles (qui semble bien être le même que le formant de 2000 des voyelles nasales), en troisième lieu, d'un formant de fréquence variable, vers les 900 cycles. La fréquence de ce dernier formant varie un peu selon la voyelle qui précède ou qui suit. Elle varie aussi selon que la consonne nasale est labiale, dentale ou vélaire, mais on sait que le rôle primordial dans l'identification du lieu d'articulation est réservé aux transitions du deuxième et troisième formant (cf. Cooper, Delattre, Liberman, "Some Experiments on the Perception of Synthetic Speech Sounds", Journal of the Acoustical Society of America, 24, 6, p. 604, et Liberman, Delattre, Cooper, "The Role of Consonant-Vowel Transitions in the Perception of the Stop and Nasal Consonants", Psychological Monographs, 68, 8, pp. 1—12). On pourrait conclure ici que les voyelles nasales et les consonnes nasales ont en commun pour produire l'impression de nasalité deux formants à environ 250 cycles et 2000 cycles, et seulement ces deux formants. Mais les faits sont peut-être tout différents. Il se pourrait fort bien que la nasalité consonantique provienne principalement, comme la nasalité vocalique, de la faiblesse d'un premier formant relativement à un second. Dans ce cas le premier formant très faible devrait être bas puisque la bouche est fermée (cf. Delattre, "The Physiological Interpretation of Sound Spectrograms", Publication of the Modern Language Association of America, 66, 5, pp. 864-875) ; et le deuxième formant serait celui que nous avons décrit sous facteur trois dans le paragraphe précédent. Espérons que l'expérimentation par synthèse arrivera à éclaircir ce point. 7. Il faut savoir que les voix hautes (hauts ténors ou femmes), ayant leurs harmoniques trop espacées, ne permettent pas de voir le détail des formants. Dans l'article de Mlle Durand, les spectrogrammes des pages 36 et 49 sont des sprectrogrammes de voix hautes: les formants du bas n'y sont pas séparables. 8. Il nous faut maintenant répondre à une question qui s'impose ici. Pourquoi les phonéticiens ont-ils toujours perçu dans les voyelles nasales un ton haut, aigu, en même temps qu'un effet voilé, doux? La réponse nous est fournie par les pages qui précèdent. Le ton haut vient de la forte atténuation du premier formant, laquelle fait ressortir l'intensité du deuxième formant (dont la fréquence est haute et dans une région à grande perceptibilité). L'impression douce et voilée peut venir (a) du premier formant nasal à 250, fréquence très basse qui, isolément, s'identifie à la voyelle [u], jugée subjectivement la plus "douce" des voyelles; (b) de la presque absence d'un des
UN TRIANGLE ACOUSTIQUE DES VOYELLES ORALES
247
deux formants caractéristiques, ce qui enlève de la netteté au timbre; (c) du fait que l'intensité totale d'une voyelle nasale est beaucoup plus faible que celle d'une voyelle orale de la même émission de voix (ce à quoi il fallait s'attendre étant donnée la forte réduction d'intensité du premier formant.)
CONCLUSION
Pour compléter l'analyse acoustique de la nasalité présentée dans cette revue par Mlle Durand, nous avons résumé les résultats obtenus aux Laboratoires Haskins par la synthèse du son. Ces résultats diffèrent de ceux de Mlle Durand: ils ne permettent pas de conclure que la voyelle nasale possède un caractère acoustique qui ne se trouve pas dans la résonance nasale de la consonne.
LES INDICES ACOUSTIQUES DE LA PAROLE*
INTRODUCTION
Les dix dernières années compteront dans l'histoire de la phonétique expérimentale. Grâce à de toute nouvelles techniques de recherche, surtout à la technique combinant l'analyse et la synthèse électroniques qui permet de manipuler librement une parole artificielle, d'en isoler les éléments et de varier à volonté les dimensions de ces éléments pour juger à l'oreille les effets des changements, il a été possible de pénétrer avec sûreté dans le domaine des facteurs physiques de la parole, d'avancer à pas de géant dans la recherche des indices acoustiques (acoustic eues) qui sont au point de départ de la perception des sons de la parole et de leur identification linguistique. Une fois la notion du formant établie, la plus grande contribution de ces dix années concerne sans contredit le rôle des transitions de formant dans la perception des consonnes. (Nous verrons plus loin que ces transitions sont corrélatives au lieu d'articulation plus qu'au mode, c'est-à-dire qu'elles servent à distinguer entre les diverses consonnes d'une classe plus souvent qu'à distinguer les classes de consonnes entre elles.) Le kymographe, et même l'oscillographe, ne laissaient pas soupçonner, dans les consonnes occlusives, par exemple, autre chose qu'une interruption (tenue) suivie d'un bruit d'explosion. Le spectrographe a tout de suite mis en évidence les changements rapides de fréquence qui reflètent les mouvements articulatoires unissant le centre de la consonne au centre de la voyelle. L'affirmation du fait que ces marques, d'apparence transitoires, ne jouaient pas un rôle "de passage", mais formaient le cœur même de la perception des consonnes, est dû à la technique d'étude par la synthèse. Au cours de ces dernières années, les chercheurs ont passé plus de temps à l'étude de la fonction de ces transitions, et à la spécification de leurs dimensions, qu'à celle de tous les autres facteurs réunis—formants vocaliques en état stable, bruits d'explosion, de friction, d'affrication, accent, intonation, rythme, etc. La recherche des indices est loin d'être complétée, mais elle en est déjà au point où, en appliquant les règles acoustiques qui en sont ressorties soit par recherche définitive, soit par exploration, soit par extrapolation, il est possible de peindre les tons d'un spectrogramme artificiel à raison d'une syllabe à la minute. Un tel spectrogramme, *
Déjà publié dans Phonetica, Vol. II (1958), Nos. 1-2, pp. 108-118; Nos. 3-4, pp. 226-251.
LES INDICES ACOUSTIQUES DE LA PAROLE
249
passé sous les lecteurs électroniques d'un synthétiseur—à la manière, si l'on veut, du rouleau dans un piano mécanique—produit une parole artificielle fort intelligible. Cette avance est évidemment dûe aux progrès techniques que l'on a été forcés de faire pendant la guerre. Mais ils ne brisent en rien avec le passé. Un regard en arrière nous le fera comprendre. L'analyse des ondes de la parole humaine, faite par des moyens électroniques, comme l'ont fait Gemelli et Pastori, ou mécaniques, comme l'a fait l'abbé Rousselot, ou simplement auditifs, comme l'a fait Sir Richard Paget, avait permis de saisir, déjà bien avant la guerre, nombre de faits exacts sur les indices acoustiques de la parole. Les nombreuses études sur les notes caractéristiques des voyelles, leur fréquence et leur nombre, n'étaient pas loin d'aboutir. C'est Paget, à notre avis, qui était dans la meilleure voie. Il a été le premier à affirmer que toutes les voyelles—pas seulement les voyelles antérieures—possédaient au moins deux formants distinctifs. Et pour les consonnes, certaines fréquences de fricatives et de liquides, tant dans le domaine des ondes périodiques (tons de /I r n/) que dans celui des ondes non périodiques (frictions de /s J"/), avaient été fort bien entendues par Paget. Il avait mis le doigt sur l'un des indices les plus difficiles de la nasalité consonantique (Human Speech, p. 95), le formant d'environ 250 cps qui contribue si fort, dans la synthèse d'aujourd'hui, à changer les tenues de /b d g/ en tenues de /m n q/, et qui joue un rôle certain—bien que mineur—dans la nasalisation des voyelles. Il avait même entrevu, semble-t-il, le rôle des transitions dans la perception des consonnes: "... inasmuch as [consonants] are produced by movements of the vocal organs (like the diphthongs) their resonances are characterized, not only by pitch, but also by their change and rate of change in pitch" (Human Speech, p. 124). Et il donne comme exemple le /!/ de [il], caractérisé par une transition descendante de cinq demi-tons, et le /l/ de [ul], caractérisé par une transition montante de onze demi-tons, pressentant la théorie récente du "Locus" qui veut que le caractère acoustique commun de ces deux transitions (ce qui contribue à identifier deux transitions aussi différentes comme un même phonème) c'est qu'elles convergent toutes deux vers une même fréquence virtuelle, celle du Locus de /l/, avec des caractéristiques transitoires du même genre: "... if the terminal /I / be sounded by itself, as a continuing sound, it becomes quite unrecognizable. The resonant change is the real characteristic, in spite of its great difference with different associated vowels" (Human Speech, p. 124). Enfin Paget avait même prévu le rôle proprioceptif du geste articulatoire dans la perception—hypothèse qui se voit soutenue par divers résultats d'expériences de synthèse, que nous mentionnerons dans ce rapport: "In this case [of 1], the one constant characteristic is the movement made by the tongue ... in recognizing speech sounds, the human ear is not listening to music, but to indications, due to resonance, of the position and gestures of the organs of articulation" (Human Speech, p. 125). Plus tard, il revenait à Martin Joos de préciser l'importance possible des transitions : "Such identification of consonants by their effects upon contiguous résonants is apparently depended upon by listeners to a far greater extent than commonly sup-
250
LES INDICES ACOUSTIQUES DE LA PAROLE
posed." (Acoustic Phonetics, p. 122). Mais Joos n'avait pas autant de mérite que Paget à faire de telles hypothèses car, depuis plusieurs années déjà, il avait à sa disposition l'incomparable instrument d'analyse de la parole qu'est le spectrographe, inventé pendant la 2e guerre mondiale par les Laboratoires Bell Téléphoné. Sur les spectrogrammes, les divers formants se détachent pour serpenter indépendamment dans le sens de la durée, se rapprochant ou s'éloignant tour à tour les uns des autres, reflétant ainsi la continuité des divers mouvements articulatoires. Terminologie. Avant d'aborder les sujets techniques, entendons-nous sur la terminologie française que nous appliquerons ici. La fréquence, notion physique, acoustique, se mesure, objectivement en cps (cycles par seconde); elle est perçue subjectivement par la hauteur (ou hauteur musicale), notion psychologique. Uintensité, notion physique, se mesure objectivement en db (décibels); elle est perçue subjectivement par Vaudibilité, notion psychologique. La durée, notion physique se mesure en ms (millièmes de seconde); elle est perçue subjectivement par la longueur, notion psychologique. Sur un spectrogramme de parole, on appelle formants les régions de fréquence de plus grande intensité. En moyenne, les formants ont une largeur d'environ 200 cps. Chaque formant est reconnaissable, sur un spectrogramme à trois dimensions, soit par une condensation unie de foncé qui se déplace dans le sens de la durée en serpentant selon les variations de fréquences (sons non périodiques, ou présentation de sons périodiques avec filtrage large), soit par une concentration désunie de foncé (sons périodiques présentés par filtrage étroit qui montre les harmoniques individuels). Ce rapport étant strictement sur les indices acoustiques, nous éviterons, dans la mesure du possible, le sujet des corrélations entre les facteurs acoustiques et articulatoires, qui mérite un rapport séparé. Mentionnons seulement que les notes de résonance des diverses cavités phonatoires ne correspondent pas aux fréquences des divers formants de manière directe et indépendante. Aucune cavité n'est directement et indépendamment responsable de la fréquence d'un formant. Tout formant dépend plus ou moins de la somme des cavités, et cela d'autant plus que la cavité totale (somme) prend plus la forme d'un tube de section uniforme. Les formants 1, 2, 3, etc., sont les modes de vibration 1, 2, 3, etc., d'un tube fermé à un bout et ouvert à l'autre; donc la fréquence de FI (premier formant) correspond à une longueur d'onde de 1 / 4 , celle de F2 à une longueur d'onde de 3 / 4 , celle de F3 à une longueur d'onde de s / 4 , etc. La distance de la glotte aux lèvres étant de 17 à 18 centimètres et la vitesse du son dans l'air de 34400 cm à la seconde, les fréquences des formants 1, 2, 3, etc., pour une voyelle articulée avec une cavité de section presque uniforme, seraient respectivement 500 cps, 1500 cps, 2500 cps, etc. (Pour Fl, le calcul est: 34400 divisé par 17,2 divisé par V4; pour F2, 34400 divisé par 17,2 divisé par 3 / 4 , etc.). Si les fréquences de formants sont rarement dans la proportion 1, 3, 5, etc., c'est qu'elles montent ou descendent selon que les strictures de la cavité phonatoire correspondent respectivement à des nœuds ou à des ventres de leurs modes de vibration respectifs. Cependant on peut dire que plus les cavités avant et arrière se définissent (comme par exemple
LES INDICES ACOUSTIQUES DE LA PAROLE
251
pour [u]), plus une corrélation pratique entre les changements de fréquence de FI et F2 et les changements de volume des cavités arrière et avant est acceptable, et moins les formants en dessus de F2 jouent de rôle dans la perception, leur intensité étant trop faible. LES TECHNIQUES D E RECHERCHE ACTUELLES
Spectrographie. Le spectrographe présente une image visuelle de la parole décomposée en ses éléments acoustiques (spectrogramme). Avec le spectrographe de la maison Kay (Kay Electric Company, Pine Brook, New Jersey, USA), l'opération nécessaire pour obtenir un spectrogramme de 2,5 secondes de son, sur papier sensible à l'étincelle électrique, dure quelques minutes. Le spectre, comme une image de télévision, est composé de quelque 200 lignes qui sont d'autant plus foncées que l'intensité d'une certaine fréquence dépasse plus un certain niveau. L'image qui résulte est en trois dimensions: la fréquence (de bas en haut), la durée (de gauche à droite) et l'intensité (degré de foncé). Les spectrogrammes expérimentaux de Bell Téléphoné (avant 1948) couvraient une fréquence de 3500 cps seulement (à peu près la limite de basse fréquence des [s]). Visible Speech, le livre bien connu de Potter, Kopp and Green, (1) produit des Laboratoires Bell Téléphoné, est principalement illustré de tels spectrogrammes. Les spectrographes que fabrique la maison Kay depuis 1948 couvrent linéairement (pas logarithmiquement) une fréquence de 8000 cps—2000 cps par pouce de hauteur. L'image totale de 2,5 secondes de parole a 4 pouces de hauteur et 12 pouces de longueur. De plus, le spectrographe de Kay offre deux filtrages différents: a) un filtrage dit "large" (300 cps) qui détache les formants mais cache les harmoniques individuels qui les composent ; et b) un filtrage dit "étroit" qui met en évidence les harmoniques individuels mais rend la lecture des formants plus difficile, car l'œil doit alors faire une extrapolation pour réunir les traits isolés des harmoniques en bandes unies de formants. A ces deux représentations du son, il s'ajoute plusieurs perfectionnements, c) Pour tout point dans le temps, un profil de l'amplitude des partiels (section) peut se faire en filtrage large ou étroit. Ce profil précise mieux les intensités des partiels (directement mesurables en décibels) que le degré de foncé, d) L'intensité totale peut se représenter dans le sens du temps, au haut du spectre, par une ligne qui serpente (amplitude display), également mesurable en décibels à partir d'une ligne de zéro marquée dans le sens du temps, e) Pour mieux observer les variations de fréquence des formants, il est possible de faire le spectrogramme à l'échelle de 1200 cps par pouce (au lieu de 2000) ce qui correspond à l'échelle du spectrographe spécial des Laboratoires Haskins, New York. (Ceci n'est pas un hasard : ce sont les Laboratoires Haskins qui ont fait les diagrammes de ce perfectionnement pour la maison Kay!) f ) Pour mieux observer les variations de fréquence de la fondamentale, il est aussi possible de faire le spectrogramme à l'échelle de 200 cps par pouce, ce qui amplifie dix fois, de bas en haut, les variations de fréquence des harmoniques visibles.
252
LES INDICES ACOUSTIQUES DE LA PAROLE
Le spectrographe fabiqué par les Laboratoires Haskins pour leur propre usage est considérablement plus sensible et plus flexible que les spectrographes Kay. Il peut faire les spectrogrammes à une infinité d'échelles de fréquence, et en présentation linéaire aussi bien que logarithmique (cette dernière est moins commode pour l'œil). Ses spectrogrammes ont habituellement une échelle de 1200 cps par pouce de hauteur et une longueur de 79,2 pouces pour une durée de 11 secondes. Ce seront là aussi les dimensions des spectrogrammes artificiels employés dans la synthèse aux Laboratoires Haskins. Pour compenser le fait que dans la parole humaine les intensités diminuent d'environ 9 db par octave de hausse, les spectrographes augmentent généralement les intensités d'autant. De cette manière les formants hauts sont aussi bien visibles que les formants bas. L'analyse est normalement le point de départ des recherches. Elle permet de faire des hypothèses qui seront vérifiées dans des expériences par la synthèse. Ainsi on peut comparer les spectres de deux sons jugés diiïérents à l'oreille et observer quels formants ont disparu, apparu, changé de fréquence, d'intensité, de durée, de forme, de direction, etc. On peut aussi essayer de voir les différences spectrographiques qui résultent de changements articulatoires produits isolément. Mais cette méthode n'est jamais sûre. Jusqu'à quel point est-il possible de modifier la position d'un seul articulateur en tenant les autres immobiles? Comment bouger le dos de la langue sans changer la largeur du pharynx? Le contrôle par radiographie cinématographique est possible mais il n'est pas facilement accessible: pour cinématographier en rayons-X les mouvements articulatoires, il faut une telle intensité radiographique que la même personne ne peut pas en supporter plus de 15 secondes par an sans risquer la brûlure. Pour contrôler les différences articulatoires qui produisent telles différences spectrographiques, il faut une bouche artificielle. C'est à cet effet qu'il s'est construit aux Laboratoires Bell Telephone, d'abord (5), puis à MIT (Massachusetts Institute of Technology), des Analogues Electriques de la Cavité Buccale (25). L'analyse, donc, ne peut que mettre sur la voie des indices. Il faut ensuite vérifier par la synthèse. Les exemples de conclusions erronées faites sur la base de l'analyse seule abondent. En voici quelques uns qui concernent les indices acoustiques de la nasalité: Harvey Fletcher attribue la nasalité à l'addition de deux formants dont le plus bas est aux environs de 400 à 450 cps et le plus haut entre 2169 et 3906 cps (Speech and Hearing, New York, Van Nostrand, 1929, p. 63); Antti Sovijârvi à trois formants d'environ 2000, 25000 et 3000 cps (Die Vokale und Nasale der finnischen Sprache, Helsinki, 1938, p. 161) ; Thomas Tornoczy à un seul formant dans les environs de 2500 cps ("Resonance Data of Nasals, Laterals and Trills", Word, 4, 1948, 71-77); Svend Smith à deux formants de 1000 et 2000 cps (Folia phoniat., 3, 1951, 165-169); et Marguerite Durand à un seul formant aux environs de 7000 cps ("De la formation des voyelles nasales", Stud, ling., 7, 1953, 33-53). Il est exact que la nasalité peut se traduire sur le spectre par des formants additionnels, mais à la synthèse on découvre que rien de cela ne fait percevoir la nasalité. Comme on le verra plus loin, elle dépend essentiellement des intensités relatives des formants, voire, de la faiblesse d'intensité
LES INDICES ACOUSTIQUES DE LA PAROLE
253
du premier formant relativement au second. Ce fait avait échappé à toutes les analyses ; la synthèse seule l'a révélé. Même l'analogue électrique de la bouche a d'abord mené à de fausses hypothèses sur la nasalité. L'addition d'une troisième cavité (nasale) aux deux cavités buccales n'a voulu produire pendant longtemps que l'addition d'un formant vers 1100 cps, et les voyelles artificielles qui résultaient n'étaient pas nasales à la perception. Ce n'est qu'après que les chercheurs de l'analogue ont eu pris connaissance du fait que la nasalité dépendait, non d'une addition de formant, mais d'un changement d'intensité du premier formant, qu'ils ont réussi à faire produire ce changement—et la nasalité—à l'analogue. Ueffaçage magnétique. En effaçant, sur bande magnétique, des portions de son dans le temps (vérifiables, pour chaque eifaçage, par la spectrographie) et en soumettant les portions qui restent au jugement auditif, on a pu faire des hypothèses très importantes (Joos, Acoustic Phonetics, pp. 116-125). La faiblesse de cette méthode réside dans le fait que tout effaçage d'une portion de temps comprend la totalité des fréquences de ce temps. On perçoit l'utilité d'une machine qui permettrait d'effacer seulement les fréquences voulues d'une certaine portion de temps. C'est ce qui peut se faire sur les machines synthétiques. L'effaçage peut être simulé par une machine telle que "Electronic Switch" (Grayson-Stadler Co., Cambridge 39, Massachusetts, USA) qui permet de réentendre à volonté les spécimens originaux. Le filtrage. En filtrant successivement différentes bandes de fréquence parallèlement au temps, et en soumettant les portions qui restent au jugement auditif, on peut faire des observations utiles sur les indices contenus dans les bruits de friction et d'explosion. Mais, appliquée aux formants vocaliques, cette technique est dangereuse : tel filtrage ne correspond jamais à tel formant puisque les formants changent constamment de fréquence. Sur les machines à synthèse il est possible de filtrer les formants mêmes, malgré leurs changements de fréquence. Le recollage. On peut découper les bandes magnétiques en segments, et les recoller, a) après avoir éliminé une portion intérieure, b) après avoir interverti des portions de plusieurs spécimens différents (ou plusieurs versions d'un même type) entre elles. Par exemple, on peut échanger la tenue d'un /n/ contre celle d'un /m/, la friction de /f/ contre celle de /s/, etc., et juger auditivement les résultats. Comme il est très difficile de couper juste où l'on veut, il faut toujours vérifier le résultat des recollages par la spectrographie. Cette méthode est surtout très utile pour vérifier jusqu'à quel point les résultats obtenus par la synthèse s'appliquent à la parole naturelle. Le bruit blanc. L'emploi de bruit, en bandes très larges, ou en bandes étroites, de fréquence, surimposé à la parole pendant la perception, permet de comparer la résistance des traits acoustiques entre eux. La synthèse. Jusqu'ici les Laboratoires Haskins ont construit trois synthétiseurs de parole. Appelons-les SP, SV et SO. SP et SV sont faits pour convertir en son des spectrogrammes de 11 secondes (79,2 pouces)—spectrogrammes "naturels" de voix humaine aussi bien que spectrogrammes "artificiels" peints à la main. SO ne peut
254
LES INDICES ACOUSTIQUES DE LA PAROLE
articuler que des syllabes isolées. Les trois sont faits, non pour produire la parole la plus réaliste possible (le phonographe et le magnétophone se chargent de cela), mais pour fournir de bons instruments de recherche. Les qualités qu'on exige d'eux sont la flexibilité et la versatilité : ils doivent permettre d'isoler, puis de faire varier dans toutes leurs dimensions, les nombreux éléments acoustiques de la parole; et au fur et à mesure, de faire entendre les résultats de ces manipulations. On trouvera des descriptions de ces instruments de recherche dans (4, 6, 18, 34). Nous nous contenterons d'expliquer leur emploi pour le chercheur. Supposons une voix d'homme de registre moyen qui parlerait sur un ton monotone à la fréquence de 120 cps : tous les partiels des sons voisés du spectre seraient des harmoniques du ton fondamental, groupés en formants sélectionnés par les cavités buccales. Pour imiter cette voix d'homme, SP possède un jeu de 50 tons purs (ondes sinusoïdales) aux fréquences de 120 cps, 240 cps, 360 cps, etc. jusqu'à 6000 cps. Ce sont les 50 premières harmoniques d'une fondamentale à 120 cps. Ces tons purs sont actionnés par l'intermédiaire de 50 faisceaux de lumière d'une largeur individuelle de Vio de pouce. Les 50 faisceaux font une largeur de 5 pouces—celle du spectrogramme— et sont disposés pour correspondre aux fréquences des 50 harmoniques d'un spectrogramme naturel de même dimension. Lorsqu'un spectrogramme passe, à une vitesse constante donnée, sous les rayons de lumière, tous les tons purs qui correspondent aux formants se mettent à jouer. Chaque formant fait jouer, en moyenne, trois tons purs contigus, celui du centre étant typiquement plus intense que les deux autres. Sauf tout au bas de l'échelle des fréquences, où les intervalles sont grands, un formant de trois tons contigus, joué seul, forme pour l'oreille une violente dissonance. Mais deux formants, donc six tons en deux groupes de trois tons contigus, s'entendent comme une belle voyelle—et non plus comme une dissonance—à condition seulement que les fréquences des formants correspondent à celles de voyelles connues du sujet entendant. Pour faire un spectrogramme artificiel, on peint, pour chaque harmonique, une ligne dans le sens du temps. La fréquence est d'autant plus haute que la ligne est plus élevée, la durée d'autant plus grande que la ligne et plus longue (7,2 pouce par seconde), et l'intensité est d'autant plus forte que la ligne est plus large, ou plus reflétante (largeur maxima : 1/10 de pouce par harmonique). En pratique, on peint un formant d'un seul trait de pinceau qui couvre entièrement un canal et à moitié les deux canaux contigus au premier. Toute ligne unie produit un son périodique. Pour produire des sons non périodiques, on pointillé aussi irrégulièrement que possible. Les bruits de friction ainsi produits ([s], [f], etc.) sont moins naturels que les sons des voyelles, mais tout de même satisfaisants. Les bruits d'exploison ([p], [t], etc.) se peignent par des traits brefs, plus ou moins verticaux, d'une largeur de fréquence d'environ 600 cps (5 canaux contigus) et sont assez satisfaisants. Les variations de fréquence du ton laryngien sont impossibles à imiter sur SP, la fondamentale étant fixe à 120 cps. Mais il faut admettre que si la parole produite est intelligible sans intonation, SP en a d'autant plus de mérite. SV est beaucoup plus perfectionné que SP, mais, dans un sens, moins flexible, bien
LES INDICES ACOUSTIQUES DE LA PAROLE
255
qu'on y convertisse les mêmes spectrogrammes en sons, a) Sur SV, la peinture d'une seule ligne produit automatiquement un formant complet (d'intensité variable selon la largeur de la ligne)—ceci afin que les formants soient toujours d'un type plus proche de celui des formants de la parole naturelle, tant dans l'amortissement des ondes que dans la relation de phase des divers harmoniques qui entrent dans le formant. (La phase ne joue pas de rôle nettement distinctif du point de vue linguistique, mais elle contribue au naturel, et par là à l'intelligibilité, semble-t-il.) Les formants de SV apportent donc une amélioration du point de vue du "naturel". D'autre part, ils enlèvent un peu de flexibilité puisqu'on ne peut plus contrôler les harmoniques individuellement, comme sur SP. b) SV produit du vrai bruit. Le même trait uni de peinture peut se faire entendre comme formant de son périodique ou comme formant de son turbulent (non périodique). (Sur SP on obtenait un effet de son turbulent en hachant irrégulièrement les sons périodiques.) Les frictions de fricatives, de voyelles chuchotées, de [h], d'aspiration, sont donc mieux produites sur SV que sur SP. c) Sur SV, on peut varier la fréquence fondamentale. Il est donc possible d'y étudier l'intonation, ainsi que l'accent. (Il va sans dire que lorsque la fondamentale monte de fréquence, tous les harmoniques montent dans la même proportion sans que la fréquence des formants change.) SO est d'un type tout différent. On n'y transforme pas de spectrogramme en son; le contrôle est dans des boutons de réglage qui permettent de produire une syllabe à la fois avec l'intonation. SO a été construit pour faciliter l'étude des transitions. On peut y contrôler le point de départ et le point d'arrivée (fréquence et temps) de trois formants automatiques (comme sur SV mais encore plus naturels), qui peuvent être périodiques ou non. On peut encore y contrôler la vitesse de changement des courbes de transition (mais pas la forme) et les intensités de chaque formant, séparément, ainsi que la durée de chaque segment de son. SO peut produire au maximum huit segments de sons successifs. Quand tous les boutons de réglage sont au point désiré, on déclanche la production sonore de la syllabe entière. Un autre synthétiseur, du nom de PAT, construit en Angleterre, vient de se mettre au service de la recherche sur les indices (47). Il produit quatre formants (automatiques dans le même sens que chez SV et SO), les sons périodiques et les sons turbulents, et les changements de fréquence de la fondamentale avec ses harmoniques (pour donner l'intonation). Du point de vue de la recherche, PAT est du même type, mais moins flexible, que SP, SV et SO, en ce sens qu'on peut y manipuler isolément les variables acoustiques de la parole, soit par des boutons de contrôle soit par des dessins en profil sur plaque de projection, et non du type des Analogues, qui permettent de manipuler les variables "articulatoires" d'une bouche simplifiée pour observer les différences que cela produit sur le spectre. (En général, pour une seule modification articulatoire, on observe des changements dans tous les formants.) De plus PAT ressemble à SP et SV en ce qu'il suit les changements des formants dans le temps, et produit donc des phrases ; les Analogues ne produisent encore que des sons isolés soutenus.
256
LES INDICES ACOUSTIQUES DE LA PAROLE LES RÉSULTATS
Bibliographie : Nous citerons les travaux qui, sauf erreur ou omission de notre part, ont contribué à la connaissance des indices acoustiques de la parole (serait-ce même par le stimulant de conclusions erronées) au cours des dix années passées—environ 1947 à 1957. Les numéros suivent l'ordre chronologique. La première question qui se pose en regardant un spectrogramme est : "Quels sont, dans ces 8000 cps de formants, dans cette richesse de traits acoustiques, les traits pertinents, du point de vue linguistique?" Dès que le premier synthétiseur des laboratoires Haskins a été au point, que les tests de parole artificielle résultant de la reconversion de spectrogrammes "naturels" ont été satisfaisants, le travail de défrichement a visé à répondre à cette question. Les nombreux formants ont été successivement couverts (un à un, puis en groupes) et les résultats de ces omissions ont été soumis à l'identification linguistique par l'oreille (11, 12, 13, 18). Il est vite ressorti de cela qu'en dehors de quelques sons turbulents—surtout les frictions et explosions de dentales et alvéolaires—les trois formants les plus bas, souvent même les deux formants les plus bas, comprenaient tous les principaux traits pertinents. Partis de là, on a cherché jusqu'à quel point la peinture de spectrogrammes au pinceau permettait de simplifier l'aspect visuel, encore assez complexe, des deux ou trois premiers (plus bas) formants du spectre naturel, sans perdre l'intelligibilité du son issu de la machine. On a aussi poussé la simplification jusqu'à la perte partielle de l'intelligibilité. Ainsi, en remplaçant successivement les sinuosités de chacun des trois formants pertinents par des lignes droites, on a simulé, pour l'oreille, l'effet d'un raidissement de mâchoire (Fl), ou l'effet d'un raidissement de la langue (F2). En ralentissant la machine, ou inversement (ce qui ne change pas la fondamentale), on a fait partiellement changer les modes d'articulation: telle consonne sourde devenait sonore, telle explosive devenait fricative ou semi-voyelle, telle liquide ou semi-voyelle devenait voyelle ou diphtongue. En variant au pinceau la fréquence des ondes turbulentes et la direction des transitions de F2 et F3, on a surtout fait changer les lieux d'articulation. En général, en manipulant tous les aspects imaginables du spectrogramme, on a pu isoler des indices acoustiques et percevoir les limites dans lesquelles on peut faire varier leurs dimensions pour spécifier leurs rôles individuels dans la perception.
EXPLOSIVES, O U OCCLUSIVES ORALES
En tant que classe de consonnes, les occlusives se distinguent surtout par le degré d'interruption du son buccal (tenue), par la brièveté du son turbulent intense (explosion) qui suit, et par la rapidité des transitions qui mènent à la voyelle suivante ou qui viennent de la voyelle précédente. C'est la classe qui a été le plus étudiée, probablement parce qu'elle a paru la plus provocante. (Les fricatives ont paru si simples à synthétiser qu'on s'en est peu soucié au début.) Les explosions. La première expérience systématique, à l'aide de SP, a été organisée
LES INDICES ACOUSTIQUES DE LA PAROLE
257
pour étudier les effets des explosions d'occlusives initiales sourdes (16). Les syllabes à identifier sont composées d'une explosion synthétique suivie d'une voyelle synthétique à deux formants droits de trois harmoniques par formant. Les explosions prennent la forme visuelle d'ovales verticaux de 600 cps et 15 ms. On leur donne 12 fréquences différentes (de 360 à 4320 cps) qui se combinent tour à tour avec chacune des 7 voyelles cardinales [i e e a o o u] pour un total de 84 syllabes synthétiques. On a fait entendre ces syllabes, enregistrées sur ruban magnétique en ordre de hasard, à 30 sujets non phonéticiens en leur demandant de les identifier comme /p/, /t/ ou /k/. Les résultats sont clairs: Les explosions hautes, en dessus de 3000 cps environ, sont identifiées comme /t/, les autres, en dessous de 3000 cps, comme /k/ ou /p/ selon qu'elles sont situées juste au dessus du début de F2 (/k/) ou ailleurs (/p/). L'examen des résultats révèle aussi que l'effet de la fréquence de l'explosion n'est pas indépendant de la voyelle : dans un cas tout spécialement frappant, une même explosion, d'une fréquence de 1440 cps, est entendue comme /p/ quand elle est unie à [i] et comme /k/ quand elle est unie à [a]. D'autre part des explosions de fréquences extrêmement différentes se font entendre comme la même consonne. Donc, d'une part, un même son peut s'identifier de deux manières différentes; d'autre part, deux sons fort différents peuvent s'identifier de la même manière. Deux hypothèses se forment déjà, qui seront confirmées dans des expériences ultérieures, a) Dans la parole, la plus petite unité acoustique est la syllabe, b) S'il existe un "invariant" qui permette de distinguer un lieu d'articulation consonantique d'un autre, il est plutôt dans le geste articulatoire que dans le trait acoustique: la forme acoustique de la parole serait perçue, non directement, mais indirectement par référence au geste articulatoire qui est le même pour plusieurs valeurs acoustiques différentes. Les explosions ont été étudiées par la synthèse dans deux autres travaux (51, 52). Les explosions y sont jointes, non à des formants droits (voyelles à l'état stable), comme dans l'expérience précédente, mais à des formants commençant par des courbes de transition consonne-voyelle telles qu'on en voit sur les spectrogrammes. Dans (52), on a une vaste étude de toutes les combinaisons appropriées de trois variables: transitions de F2, transitions de F3, et explosions. Seule la voyelle américaine [as] est combinée à ces trois variables. En ce qui concerne les explosions, nous trouvons là 294 modèles différents (patterns) de syllabes synthétiques identifiées par 26 sujets comme /b/, /d/, ou /g/: 7 fréquences d'explosion jointes à 7 courbes de transition de F2 (7 X 7 = 49 syllabes), puis jointes aux 35 combinaisons de 5 transitions de F3 avec 7 transitions de F2 (35 x 7 = 245). (Une transition fixe de FI est toujours présente sous une forme qui rend les syllabes sonores.) Ces 294 modèles de syllabes avec explosion peuvent se comparer avec les modèles sans explosion. Les résultats sont entièrement d'accord avec l'expérience de (16) mais vont plus loin: les explosions de haute fréquence favorisent les jugements de /d/, celles de basse fréquence, sauf la plus basse des 7, les /g/, d'abord (en descendant) aux dépens des /d/, puis aux dépens des /b/. Les meilleurs /g/ ont l'explosion juste au dessus de la transition (cf. 16). Enfin la fréquence la plus basse, qui ne favorise ni les /d/ ni les /g/, ne
258
LES INDICES ACOUSTIQUES DE LA PAROLE
favorise que très peu les /b/. De cela il ne faut pas conclure que la perception du lieu d'articulation labial dépend seulement des transitions—nous savons qu'en l'absence des transitions, certaines fréquences d'explosion font fort bien percevoir le lieu d'articulation labial (16). On doit simplement conclure que, dans la perception du lieu d'articulation labial, le rôle des explosions est sans doute bien moins important que celui des transitions. Au total les effets des explosions sont faibles comparés à ceux des transitions, pour les trois consonnes, et cela malgré le fait que les explosions de ces expériences sont probablement plus concentrées en fréquence que dans la parole naturelle. Mais n'oublions pas que seule la voyelle [ae] a été employée. Avec une voyelle arrondie, le rôle des explosions dans la perception du lieu d'articulation serait probablement beaucoup plus fort. On trouve quelques données sur les explosions, du point de vue du mode d'articulation, dans une étude sur les affriquées (51). L'une des distinctions entre la classe des affriquées et la classe des explosives étant dans la durée du son turbulent, il semble que la consonne est identifiée comme explosive (et non plus affriquée) à partir d'une durée maxima de 30 ms. Cette étude est faite par recollage aussi bien que par synthèse. La première expérience importante par recollage (19) a voulu vérifier les résultats de (16) dans la parole naturelle. La vérification a été positive. Les bandes magnétiques des syllabes [ki], [ka], [ku], ont été coupées juste après l'explosion, puis les portions coupées ont été recollées à des voyelles [i], [a], [u], sans transitions. Entre autres résultats, l'explosion de [ka], jointe à [i], est identifiée comme /pi/ par 93 pour cent des sujets, et jointe à [u], comme /pu/ par 99 pour cent des sujets. Nous avons donc, de même que dans l'expérience synthétique (16), une même explosion entendue comme /k/ ou /p/ selon qu'elle est unie à [a] ou à [i]. On trouve d'autres recollages d'explosives (et autres consonnes) dans une étude qui met littéralement à l'épreuve le principe de commutation (36), et les résultats sont du même genre que dans (16). Chaque fois que la voyelle qui suit un élément consonantique fixe est changée, la perception de la consonne change aussi. D'ailleurs les résultats de toute commutation par recollage sont prévisibles d'après ce que l'on sait maintenant sur les transitions. Dans une analyse détaillée des explosives sourdes et sonores du danois (23), on trouve toute la complexité des données que fournit typiquement l'analyse au sujet des intensités, durées, et diverses concentrations d'énergie sur l'échelle des fréquences, pour les explosives /p t k b d g/ devant toutes les voyelles danoises. Combien de ces traits sont distinctifs? Seule l'épreuve de la reconversion synthétique en son pourrait le déterminer. (Ainsi le fait que l'explosion du /p/ n'est pas concentrée en fréquence mais s'étend sur presque toute l'étendue en fréquence du spectre ne veut pas nécessairement dire qu'elle n'a pas de rôle dans la distinction des lieux d'articulation. La synthèse pourrait montrer que certaines portions—différentes selon les voyelles—de cette haute étendue de bruit en fréquence jouent un tel rôle.) En général, les hypothèses,
LES INDICES ACOUSTIQUES DE LA PAROLE
259
présentées dans la conclusion de cette étude, sur le rôle des explosions et transitions dans la perception des occlusives, ne sont pas d'accord avec les résultats ultérieurs obtenus par la synthèse (21, 26, 52). Mais notons aussi que les "spéculations" de (11, 13), elles non plus, ne sont pas d'accord avec les résultats ultérieurs de (21, 26, 52). A cette époque, ni le principe du Locus de F2, ni le rôle des transitions de F3 n'étaient encore connus. Deux études, qui comparent les occlusives finales, quand elles sont privées de leur détente et quand elles ne le sont pas, arrivent à des résultats comparables. Dans l'une (37), l'omission de la détente est simulée par le sujet, qui enregistre sans rouvrir la bouche; dans l'autre (45), la syllabe est d'abord enregistrée avec détente, puis la détente est coupée. (Le lecteur se rend compte qu'en coupant la détente d'une consonne finale, on la prive de l'explosion, ainsi que des embryons de transition qui peuvent suivre l'explosion, et qu'il ne reste, pour percevoir le lieu d'articulation, que les transitions implosives qui précèdent la tenue.) Les résultats les plus intéressants sont ceux qui montrent, dans les deux études, que les consonnes qui souffrent le plus de l'absence d'explosion sont /k g/ devant [u] (devant les voyelles postérieures arrondies, en général). Ce résultat indique que la perception du lieu d'articulation de /k g/ devant voyelles postérieures arrondies dépend beaucoup de l'explosion et peu des transitions. D'ailleurs le fait était à prévoir: pour /k g/, la transition de F2 devant [o u] se dirige, non pas vers le Locus vélaire, mais vers le Locus labial; une fois [uk] privé de son explosion, c'est [up] ou [u] qui devrait s'entendre—et c'est ce qui arrive dans les tests perceptuels de (37, 45). Dans les tests de (37), c'est, en plus, après /l/ sombre et /r/ sombre que /k/, privé d'explosion^ est mal perçu; or les formants 1 et 2 de /l/ et /r/ sombres sont tout proches de ceux de [o]. L'étude (45) examine encore les explosions par l'analyse et le filtrage. On y établit (mais de façon incertaine) que les explosions isolées de leur contexte sont identifiables. Puis, sur la base des intensités-fréquences des explosions de /p t k b d g/ après et avant six voyelles représentatives des diverses positions articulatoires, on s'efforce de découvrir, par filtrage, deux paires de traits binaires qui permettraient leur identification à l'état isolé. Ces deux paires de traits distinctifs passeraient-ils l'épreuve de la synthèse? Quoi qu'il en soit, on trouve dans cet article des données spectrales précieuses sur les explosions, et en gros, ces données sont d'accord avec les résultats obtenus par la synthèse (16, 52): pour /t d/, les fréquences sont hautes; pour /p b/ elles sont basses ; et pour /k g/, elles sont intermédiaires mais dans une très grande marge de fréquences parce qu'elles suivent les transitions de F2, qui varient d'environ 3000 cps à 600 cps. Les transitions d'occlusives. Jusqu'ici, on n'a trouvé d'indices acoustiques que dans les trois premiers formants. Pour abréger, appelons leurs transitions Tl, T2, et T3. Les indices trouvés pour T2 et T3 se rapportent presque entièrement au lieu d'articulation (comme la fréquence des explosions). Les indices trouvés pour Tl, au contraire, se rapportent aux modes d'articulation: distinction entre classes de consonnes; distinction entre sourdes et sonores.
260
LES INDICES ACOUSTIQUES DE LA PAROLE
77 : Très tôt, il a été observé, par l'analyse des spectrogrammes, que FI est d'autant plus haut (fréquence) que les voies buccales sont plus ouvertes (2, 8). Appliqué aux consonnes, cela indiquerait que plus la consonne sonore est ouverte, plus T1 devrait commencer haut. Mais aucune investigation systématique de cette corrélation n'a été faite pour les consonnes, et il nous faudra réunir des idées éparses dans les diverses études. Dans les recherches sur T2 (21, 52) et T3 (52), pour obtenir des occlusives sonores, il a fallu que T l , assez rapide, commence aussi bas que possible (nous ne savons pas si cela correspond effectivement à zéro cps ou à 120 cps—la fondamentale de SP). Dans (21), pour obtenir des occlusives nasales, on a dû faire partir T l , semble-t-il, de la fréquence de FN1 (le plus bas formant de tenue nasale—vers 250 cps) et joindre verticalement le point de départ à la voyelle contiguë, ce qui fait paraître, visuellement, que T l est droit et part du niveau même de la voyelle contiguë. Dans l'étude du Locus de FI pour les explosives (26), les variations de fréquence de FI droit, combinées à F2 courbé, indiquent que le point de départ le plus bas, pour T l , est le meilleur pour les explosives, et que, à mesure que ce point monte en fréquence, on se rapproche de la perception des classes de consonnes plus ouvertes. L'examen des spectrogrammes de fricatives indique, en général, pour T l , un départ moins bas que chez les explosives. Quant aux liquides et semi-voyelles initiales, on trouve, dans (49), que leurs Tl doivent partir d'assez haut—près de 400 cps en moyenne—si l'on veut éviter toute perception d'occlusive. On voit qu'il reste beaucoup à faire pour préciser le rôle de T l dans la distinction des classes de consonnes. La vitesse de transition et la durée de Tl contribuent aussi à des distinctions de classe. Ces deux facteurs, variés à la fois pour Tl et T2 (33), ont permis de distinguer entre les trois classes suivantes: voyelles, semi-voyelles, explosives sonores. Par changement de durée-vitesse de T1-T2, /u/ est passé à /w/, puis à /b/ ; /i/ est passé à /j/, puis à /g/ ; et si l'on avait eu des sujets français pour faire les identifications on aurait sans doute trouvé que, par les variations des mêmes facteurs, /y/ peut passer à /ij/, puis à /d/. Le changement de semi-voyelle à consonne est plus net que celui de semi-voyelle à voyelle. Le changement de /b/ à /w/ se fait quand la transition a une durée d'environ 40 ms; celle de /g/ à /j/, 50 à 60 ms. La forme implosive de T1-T2, et leur forme explosive, sont présentées comme contribuant à la perception du point de coupe syllabique (respectivement après ou avant la consonne) dans (35). L'investigation est faite par synthèse. Enfin nous verrons plus loin que certaines dimensions de T l semblent contribuer à la distinction entre /p t k/ et /b d g/ communément appelée sourde-sonore (32). T2. Pour une durée assez courte (ou une vitesse assez rapide), les T2 sont sans doute les plus puissants indices de distinction entre les lieux d'articulation. Excepté chez /k/ devant voyelle arrondie, ils sont plus effectifs que les explosions, ce qui est compréhensible, car ils ont, comme les formants vocaliques, une beaucoup plus grande audibilité que les bruits sourds d'explosion. La durée de T2, chez les explosives, est en moyenne
LES INDICES ACOUSTIQUES DE LA PAROLE
261
de 50 ms, mais elle tend à être plus courte que cela chez les labiales et plus longue chez les dentales devant voyelles postérieures. Les dimensions de T2 qui contribuent à l'identification du lieu d'articulation sont a) sa direction, dite positive si elle atteint plus haut que F2 de la voyelle, et négative si elle atteint plus bas ; b) la différence de fréquence entre son début et le moment où elle rejoint F2 de la voyelle (cette dimension est généralement donnée, dans les travaux de Haskins, par un multiple de 120 cps—ainsi une transition de —3 atteint une fréquence de 360 cps en dessous du formant correspondant de la voyelle. Une vaste étude de T2 par la synthèse (21) a suivi de peu l'étude (16) des explosions. Elle comprenait 11 variations de T2, jointes chacune à 7 voyelles cardinales [i e £ a 3 o u], et ceci répété pour les occlusives sourdes, sonores, et nasales, pour un total de 231 modèles de spectrogrammes artificiels, reconvertis en son, et identifiés par 33 sujets. Aucune explosion n'était employée dans ces modèles. La sonorité était obtenue en faisant partir T1 de zéro (ou 120 cps), la surdité en supprimant le début de T l , et la nasalité en faisant partir T1 du niveau de FI et en ajoutant trois formants nasals dans la tenue. Les résultats, fort complexes, montrent un T2 différent, non seulement pour chaque lieu d'articulation, mais pour chaque voyelle combinée à chaque lieu d'articulation. Par ailleurs, les résultats pour nasales sont fort semblables à ceux des sonores et des sourdes. Locus. Dans la recherche d'un invariant par lieu d'articulation, on a remarqué que toutes les T2 perçues labiales convergeaient virtuellement vers une fréquence basse (quelle que soit la voyelle de la syllabe), toutes les T2 perçues dentales (ou alvéolaires) vers une fréquence intermédiaire, et toutes les T2 perçues vélaires (ou palato-vélaires) vers une fréquence haute. (Cela laissait une petite région d'ambiguïté car devant les voyelles postérieures arrondies [o o u], aucune T2 n'était perçue clairement vélaire— problème qui a été résolu depuis.) On a donné le nom de Locus à ce point de convergence virtuel des transitions qui ont perceptuellement un même lieu d'articulation. La spécification, en fréquence, du Locus a fait l'objet d'une longue recherche par la synthèse. Le Locus corrélatif à chaque lieu d'articulation a été déterminé, non par extrapolation de courbes de T2, mais par variation de formants droits, évitant ainsi l'erreur que pourraient occasionner les courbes : en faisant varier, du haut en bas de l'échelle des fréquences un F2 droit (T2 zéro) combiné à un Tl fixe, courbé à souhait pour produire une explosive sonore, on a obtenu un /g/ quand F2 droit était à 3000 cps; puis, en abaissant la fréquence de F2 droit, le /g/ s'est perdu et le /d/ a commencé à s'entendre pour arriver à son maximum de perceptibilité à 1800 cps; en continuant à abaisser la fréquence de F2 droit, le /d/ s'est perdu et le /b/ s'est fait entendre pour arriver à son maximum vers 700 cps. Ensuite il a fallu déterminer la durée qui sépare l'extrémité des T2 de leurs Locus respectifs. Cela s'est fait par des coupes successives de transitions partant du Locus même. On est arrivé à la durée moyenne de 50 ms. Le Locus, ainsi spécifié, fournit un invariant pratique par lieu d'articulation. Il permet de définir une transition d'occlusive sans référence à la voyelle de la syllabe. Toute T2
262
LES INDICES ACOUSTIQUES DE LA PAROLE
d'occlusive peut se décrire comme ayant une durée d'environ 50 ms et se dirigeant vers le Locus du lieu d'articulation qu'elle fait percevoir par une ligne virtuelle qui l'atteindrait en 50 ms. Les différences de fréquence entre les extrémités réelles des transitions qui sont perçues par un même lieu d'articulation sont évidemment dues à l'anticipation articulatoire de la voyelle contiguë à la consonne. (La corrélation articulatoire des trois Locus, ainsi que la non application du Locus vélaire aux voyelles arrondies, ont été clairement établies sur rayons-X cinématographiés, mais nous n'avons pas ici la place de traiter les corrélations physiologiques des indices acoustiques.) Des recherches en cours indiquent que les occlusives vélaires devant voyelles arrondies, dans la parole naturelle, ont leur principal indice acoustique de lieu d'articulation dans la fréquence de l'explosion. Si, dans la parole naturelle, T2 d'une syllabe comme [go] ne se dirige pas vers le haut Locus vélaire, c'est à cause de l'arrondissement qui maintient très basse la fréquence du début de la transition. Mais dans la parole artificielle, on peut obtenir un [go] sans peindre d'explosion, seulement par des T2 positives, dirigées vers le Locus vélaire de 3000 cps et assez longues pour dépasser le niveau du Locus dental de 1800 cps. Dans (22) on trouvera une présentation du concept du Locus tel qu'il a été compris personnellement par un visiteur aux laboratoires Haskins. Mais disons ici que l'hypothèse donnant au Locus la fréquence du résonateur buccal avant l'explosion de la consonne n'a plus cours. Un Analogue électrique des cavités buccales a essayé de vérifier le concept du Locus (42). Cet analogue simule trois variables articulatoires au moyen desquels il produit synthétiquement des sons soutenus (genre voyelles): le point de constriction linguale, le degré de constriction linguale, et le degré et la longueur de constriction labiale. Il ne produit donc pas de consonnes, mais on peut quand même l'utiliser pour l'étude des consonnes en observant sur les spectrogrammes successifs les effets de chaque ajustement de variable. Les résultats ainsi obtenus pour les transitions de /b d g/ sont à peu près d'accord avec les Locus respectifs, à condition de comprendre que, tout au cours de l'étude, le terme "Locus" a été confondu avec "début de transition". Rien d'extraordinaire à ce que les débuts de transition (et non les Locus) varient par anticipation de la voyelle—anticipation dont on a tenu compte mais qu'on a supposée (dans (42)) bien plus marquée qu'elle ne l'est, surtout pour /b/, d'après les radiogrammes cinématographiques de l'articulation de /b d g/. Notons, avant de quitter le sujet, que la notion de Locus ne s'appliquera pas seulement aux transitions d'occlusives, mais peut-être aux transitions de toutes les consonnes. Il semble bien que les /f/ ont le même Locus que les /p/, les /s/ que les /t/, etc., ou en tout cas à peu de chose près. Dans (52), nommé déjà pour les explosions, les variations de T2 sont étudiées très soigneusement, ainsi que leurs combinaisons avec des variations de T3, ou d'explosions, ou des deux. Devant la voyelle [se], et T1 fixe étant peint de façon à produire des occlusives sonores, 7 variations de T2 sont étudiées : —6, —4, —2,0, +2, +4, +6. Ce sont les mêmes dimensions que dans (21) mais avec omission des transitions im-
LES INDICES ACOUSTIQUES DE LA PAROLE
263
paires, pour simplifier. Les résultats confirment entièrement ceux de (21). Les seules transitions des deux premiers formants (ni explosions, ni T3) suffisent à distinguer /b d g/ entre eux. C'est /b/ qui dépend le plus de T2 et /d/ qui en dépend le moins—/d/ dépend de T3 bien plus que les deux autres. Les jugements de /b/ sont à peu près de 100 pour cent à —6, —4, et —2, puis diminuent brusquement. A zéro /d/ atteint presque 90 pc et à + 2 , presque 100 pc, puis /d/ diminue brusquement et fait place à /g/, qui atteint 95 pc à + 4 , et 100 pc à + 6 . Les résultats de l'étude de T2 par l'analyse concordent parfaitement avec ceux de la synthèse, mais naturellement ils sont plus vagues—c'est précisément parce que les spectrogrammes sont difficiles à lire, surtout dans les transitions, que la synthèse rend de tels services. Quatre études de T2 par l'analyse sont à noter. Les remarques sur T2 abondent dans (1), où la notion du "hub" peut être considérée comme un avant-poste de celle du Locus, bien qu'en réalité les deux notions diffèrent considérablement. Les analyses de T2 dans (3), déjà mentionnées dans l'introduction, prévoyaient avec perspicacité le rôle que la synthèse allait confirmer et préciser. On trouve dans (23) de bonnes analyses de T2 dans les explosives danoises, qui indiquerait que le Locus des labiales danoises est moins bas que celui des labiales anglo-américaines et latines. Enfin, les analyses de T2 dans (23) confirment entièrement les résultats de (21, 26, 52) obtenus par la synthèse. T3. Rien n'a encore été publié qui porte spécialement sur T3, mais nous pouvons dire que les résultats d'une étude détaillée, en cours de publication, sont d'accord avec ceux de (52) que nous résumons ci-dessous en notant pourtant qu'ils ne s'appliquent qu'à la voyelle [as]. Le problème de T3 est infiniment plus simple que celui de T2 puisque F3 a à peu près la même fréquence pour toutes les voyelles (il est un peu plus haut pour un [i] bien cardinal). En gros on peut dire que T3 est positive pour les dentales, et négative pour les labiales et les vélaires. Parmi les T3 négatives, toutes contribuent aux labiales plus qu'aux vélaires, et les moins basses contribuent plus aux vélaires que les plus basses. La perception du lieu d'articulation dental doit beaucoup à T3 (avec certaines voyelles, peut-être plus qu'à T2); celle du lieu d'articulation labial, moins; et celle du lieu d'articulation vélaire encore moins (pour les labiales, c'est T2 qui domine, et pour les vélaires c'est soit T2, soit l'explosion). Dans (52), où d'une part 5 variations de T3 (—4, —2, 0, + 2 , + 4 ) , d'autre part 7 fréquences d'explosions, sont combinées à chacune des 7 variations de T2, on a l'occasion de comparer les effets de T3 à ceux des explosions. En général, la contribution de T3 est nettement plus grande que celle des explosions pour /d/ et /b/ ; pour /g/, c'est l'inverse: la contribution des explosions est la plus grande. D'après les remarques analytiques de (23), les T3 d'occlusives danoises diffèrent quelque peu de ce qui précède. Quant aux analyses de (45), elles sont à peu près
264
LES INDICES ACOUSTIQUES DE LA PAROLE
d'accord avec ce qui précède. (Mais on sait les difficultés qu'il y a à distinguer les courbes de T3 sur les spectrogrammes.) LES FRICATIVES
Il a été établi dans (51) que les fricatives, en tant que classe de consonnes, se distinguent en partie des affriquées et des explosives par la durée du bruit (son turbulent) ainsi que par la rapidité avec laquelle l'intensité initiale de ce bruit croît. La durée du bruit est relativement longue, et la vitesse de croissance de l'intensité relativement lente, pour les fricatives (voir données aux Affriquées). Le rôle de la vitesse des transitions dans la distinction de classe n'a pas été étudié systématiquement. Il est certain, par exemple, qu'entre les transitions rapides de /b/ et les transitions lentes de /w/, il existe un régime de transitions qui correspond à /v/, et il faudra déterminer là les rôles respectifs de T1, T2, et T3. Dans cette même distinction des fricatives comme classe, le rôle de la fréquence du début de T1 mérite aussi d'être étudié. Quant aux indices qui permettent de distinguer entre les diverses fricatives, rien n'ayant paru, nous ne donnerons que de vagues indications, hypothétiques, en partie basées sur une communication dont l'abstrait est dans JAS, 26, 952. D'après la synthèse, ces indices se trouvent dans les transitions supérieures (T2, T3), et dans les bruits de friction. Les rôles de T2 et T3 dans la perception du lieu d'articulation sont sans doute comparables à ceux des occlusives, mais l'étude systématique n'en a pas été faite. T2 et T3 devraient donc pouvoir se décrire par les Locus corrélatifs aux lieux d'articulation, mais il faut s'attendre à ce qu'elles jouent un rôle moins important dans les fricatives que dans les occlusives car les bruits de friction sont plus audibles que les bruits d'explosion. Il faut peut-être diviser les fricatives en trois sous-classes qui se distingueraient entre elles par l'intensité de la friction, l'étendue en fréquence de la friction, et les transitions: /s J/ auraient une forte intensité et une étendue moyenne; /G f/ une faible intensité et une grande étendue (presque toute la fréquence du spectre sur les spectrogrammes Kay); /ç X/ une intensité moyenne et une étendue étroite. Le rôle des transitions ne doit pas être négligeable car, à la synthèse, une même friction (ambiguë vers 3500 cps) s'entend comme /s/ ou /ç/ selon qu'on la relie à la voyelle par une T3 (positive-dentale) ou par une T2 (positive—palato-vélaire). A l'intérieur de ces trois classes, les distinctions sont simples: /s/ se distingue de /J/ principalement par la fréquence de la friction (/s/ descend environ jusqu'à 3500 cps, /J7 jusqu'à 2000); /0/ se distingue de /f/ principalement par les transitions (ils ont à peu près, /0/ le Locus dental, /f/ le Locus labial); /ç/ se distingue de /X/ par les deux— fréquence de friction, et transitions. La fricative /h/ serait caractérisée par un bref son turbulent à la fréquence de F2 (et peut-être F3) de la voyelle contiguë—donc par l'absence de transitions et l'absence de F l . La glotte étant grande ouverte, la friction pertinente pour /h/ serait celle qui
LES INDICES ACOUSTIQUES DE LA PAROLE
265
résonne dans la cavité qui est antérieure au point de constriction vocalique. Ceci, contrairement aux voyelles chuchotées, qui résonneraient dans toutes les cavités supérieures à la glotte, le point de constriction qui produit le son turbulent étant aux cordes vocales mêmes—c'est pourquoi elles posséderaient un F l , bien que sourdes. Un travail par l'analyse et le filtrage est à citer (31). On y étudie les spectres de frictions isolées de /f s J/ et des sonores correspondantes, en toutes positions et prononcées par des sujets variés. Les résultats confirment ce qui a été dit plus haut sur la distinction entre /s/ et /j-/ par la différence de fréquence de la friction. Ils apportent un facteur nouveau: /f/ aurait fréquemment—mais pas toujours—une concentration d'énergie très élevée, aux environs de 8000 cps. Ceci est à vérifier par le premier synthétiseur qui atteindra cette fréquence. LES AFFR1QUÉES
Dans l'étude (51), déjà mentionnée, on examine les affriquées du point de vue du mode d'articulation: ce qui les distingue des fricatives et des explosives dans le son turbulent, en dehors du fait que les affriquées ont, comme les explosives, une interruption (occlusion buccale complète) que n'ont pas les fricatives. O n trouve deux indices acoustiques : la durée du bruit, et la rapidité de croissance de l'intensité du bruit (mesurée par la durée de la période pendant laquelle l'intensité croît, au début du bruit—appelons-la : durée de croissance). En gros, comparé au bruit des fricatives, le bruit des affriquées est (après interruption) plus court en durée totale et plus court en durée de croissance. Comparé aux explosives, le bruit des affriquées est plus long en durée totale. Pour des valeurs moyennes de durée de croissance, on perçoit des fricatives sourdes quand le bruit total dure au moins 110 ms, des affriquées sourdes quand le bruit total dure au moins 50 ms, et des explosives sourdes quand le bruit total dure au plus 30 ms. Les indices de lieu d'articulation des affriquées n'ont pas été étudiés systématiquement, mais il est clair qu'ils se trouveront, comme pour les fricatives et les explosives : d'abord dans les transitions (Locus) puis dans la fréquence des bruits de friction. Il est probable que l'intensité du bruit et l'étendue de sa fréquence entreront e n j e u . LES OCCLUSIVES NASALES
Nous classons les consonnes nasales /m n q/ parmi les occlusives parce qu'elles partagent avec les explosives (occlusives orales) la forme (vitesse) et la direction des T2 et T3. De plus, la fermeture nasale extérieure n'empêche pas leur production; l'ouverture extérieure des narines, d'ailleurs très petite, n'est donc pas pertinente—ce qui est pertinent ce sont les occlusions buccales, et la communication des cavités nasales avec les cavités buccales par l'abaissement du voile du palais. Les indices acoustiques de mode d'articulation, aussi bien que de lieu, ressortent assez bien de l'étude (21), faite par la synthèse.
266
LES INDICES ACOUSTIQUES DE LA PAROLE
Mode. Les occlusives nasales se distinguent des occlusives orales a) par la forme de Tl, qui semble partir du niveau de FN1 (environ 250 cps) et passer verticalement à celui de la voyelle contiguë, au lieu de partir de zéro ou 120, comme pour les occlusives orales sonores; et b) par les formants nasals de la tenue—qui remplacent le silence complet des occlusives orales sourdes, ou le ton très bas des occlusives orales sonores (qui correspond à la fondamentale et parfois un peu au deuxième harmonique entendus à travers les parois buccales et pharyngiennes). Dans les expériences de (21), les formants de la tenue nasale étaient les mêmes pour les trois consonnes /m n g/, des recherches exploratoires ayant indiqué qu'ils ne jouaient qu'un rôle très faible dans la distinction des lieux d'articulation. Ils étaient aux fréquences de 240 cps, 1020 cps et 2460 cps. Les deux plus hauts de ces trois formants nasals étaient d'intensité extrêmement faible (environ 15 db de moins que ceux d'une voyelle normale à la même fréquence) et contribuaient très peu à la nasalité de la consonne. Le premier formant nasal, à 240 cps, était seulement un peu plus faible que celui d'une voyelle normale (environ 6 db de moins) et avait un puissant effet perceptuel de nasalisation. Il apparaît donc que le mode nasal des consonnes dépend de la forme de Tl, d'un formant de tenue dans les 250 cps, et des formes de T2 et T3 semblables à celles des explosives de même lieu d'articulation. (L'importance du formant nasal d'environ 250 cps a été signalée pour la première fois dans (20).) Lieu d'articulation, a) Le rôle des transitions, défini par les Locus corrélatifs aux lieux d'articulation, est le même que pour les explosives. Il est très fort mais il n'est pas unique, b) La fréquence des formants de tenue nasale supérieurs à celui de 250 cps joue aussi un rôle dans la perception du lieu d'articulation—faible, mais certain. Des recherches par synthèse, ultérieures à (21), indiquent que la perception du lieu d'articulation labial est favorisé par la présence dans la tenue d'un F2 faible entre 1000 et 1500 cps, et par l'absence, ou la faiblesse de F3; la perception des lieux d'articulation dentals et vélaires, par la présence dans la tenue, d'un F3 aux environs de 2300 (en plus de F2). On n'a pas trouvé jusqu'ici d'indice clair de distinction entre dentale et vélaire dans les formants de tenue nasale. On a beaucoup étudié le rôle des formants de tenue nasale par la technique du recollage. Dans (39), on a inclus, non seulement des interversions de tenue nasale avec les transitions qui suivent pour les trois consonnes /m n g/, mais encore des interversions de tenue nasale avec les transitions qui suivent l'explosion des explosives sonores orales /b d g/. Les résultats confirment que l'indice du lieu d'articulation est presque entièrement dans les transitions; les tenues de nasales ont un rôle presque négligeable à l'initiale, et un peu plus apparent, mais encore très faible, à la finale. On s'est aussi servi de l'Analogue électrique de la bouche (50) pour produire synthétiquement les sons de tenue des trois consonnes nasales /m n q/. La distinction des lieux d'articulation a été perçue (81 pc, 61 pc, 62 pc respectivement pour /m n r)[)— mieux perçue que les segments de tenue des nasales humaines de (39) : (96 pc, 36 pc, 12 pc). Il faut dire que pour (50), les jugements avaient été faits par 9 sujets entraînés; pour (39) par 50 sujets non entraînés. L'analyse spectrale du son de tenue nasale
LES INDICES ACOUSTIQUES DE LA PAROLE
267
produit par l'Analogue confirme l'importance de F2 pour distinguer /m/ des deux autres, et indique une possibilité de distinguer /n/ de /g/ par un formant au dessus de 3000 cps. LES LIQUIDES ET SEMI-VOYELLES
Les /w j r 1/ américains ayant certaines similarités spectrales de résonance, qui reflètent leur degré d'aperture articulatoire (en moyenne plus grand que chez les occlusives, les affriquées et les fricatives), on les a étudiés ensemble en position initiale (49). Le /r/ dont il s'agit ici est une rétroflexe apicale et palatale continue (sans battements). Mode. Ces quatre consonnes semblent avoir acoustiquement en commun, pour se distinguer des autres consonnes : a) Pendant la tenue, un FI de fréquence relativement haute (près de 400 cps de moyenne), qui les distingue surtout des nasales dont le bas formant de tenue ne peut pas dépasser 250 cps. b) Pendant la tenue, des formants supérieurs à F l , d'intensité plus grande que ceux de la tenue nasale mais plus faibles que ceux des voyelles, c) Des transitions en continuité avec les formants de tenue (les transitions des nasales peuvent être en discontinuité avec les formants de tenue), d) Une lenteur relative des transitions (en moyenne environ 100 cps, tandis que les transitions d'occlusives ont en moyenne 50 cps). Lieu. Ces quatre consonnes se distinguent les unes des autres par la fréquence des formants de tenue supérieurs à F1, et les transitions allant de la tenue consonantique à la tenue de la voyelle contiguë. Les transitions peuvent se décrire par un Locus qui serait leur point virtuel de convergence corrélatif à un même lieu d'articulation, a) /w/ se distingue de /r 1/ et de /j/ par le Locus de T2, qui est bas pour /w/ (environ 700 cps), moyen pour /r 1/ (environ 1100 pour /r/ palatal, 1300 pour /l/ alvéolaire) et haut pour /j/ (environ 2700). b) /r/ et /I/ se distinguent entre eux par le Locus de T3, qui est relativement bas pour /r/ (environ 1500 cps) et haut pour /l/ (environ 2500 cps). T3 n'a pas d'effet notable pour /w/ et /j/. On peut ajouter trois divergences mineures qui contribuent sans doute aussi à la distinction entre ces quatre consonnes: c) Une durée de transition de 100 ms est acceptable pour les quatre, mais une durée un peu plus courte favorise /l/ contre /r/, et une durée un peu plus longue favorise /r/ contre /!/. d) Les formants de tenue sont moins indispensables chez les semi-voyelles que chez les liquides ; et leur durée moyenne est plus courte chez les semi-voyelles (30 ms) que chez les liquides (60 ms). e) /j/ est amélioré par de la friction à une fréquence appropriée, ce qui n'est pas le cas des trois autres consonnes. Cela rapproche /j/ de la classe des fricatives, classe à laquelle il appartient s'il n'est autre que la sonore de /ç/. LES CONSONNES SYLLABIQUES
Aucune étude systématique n'a encore paru. Des travaux en cours, par la synthèse, étudient la réduction d'intensité de F2, et la forme implosive des transitions qui précèdent, comme indices de modes d'articulation qui distingueront entre les con-
268
LES INDICES ACOUSTIQUES DE LA PAROLE
sonnes /I r m n rj/ en position syllabique et les voyelles qui ont leurs formants presque aux mêmes fréquences : ainsi, [med-1] se distingue de [medo] par ces deux indices. Les mêmes travaux étudient les fréquences de formants comme indices acoustiques de distinction entre les diverses consonnes syllabiques. SOURDES ET SONORES
A mesure qu'on découvre de nouveaux facteurs acoustiques du dit "voisement" ou de la dite "sonorité" des consonnes, la présence de la fondamentale (premier harmonique du spectre de la vibration des cordes vocales), qui est à l'origine de ces termes, prend une plus petite place et on arrive prudemment à remplacer les termes "distinction sourde-sonore" par "distinction du type p-b!". D'après (23), en effet, la distinction /p b/ ne peut pas dépendre de la présence ou absence de vibrations des cordes vocales puisqu'elles ne vibrent ni pour l'un ni pour l'autre. Nous conserverons cependant, ici, la terminologie "sourde-sonore"—arbitrairement, ou dans le sens perceptuel. a) La marque de sonorité qui est généralement présente sur les spectrogrammes pendant la tenue des occlusives sonores est appelée dans (1): "barre de voix" (voice bar). Avec filtrage large à 300 cps, c'est la représentation de la fondamentale, à laquelle il s'ajoute une plus ou moins forte intensité du second harmonique, selon les sujets. La contribution de cette barre de voix à la perception de la sonorité a été amplement confirmée par la synthèse : ainsi, dans (52), afin que les syllabes [ba da ga] soient bien perçues "sonores" on a fait précéder les transitions d'un trait au niveau du premier harmonique faisant entendre la fondamentale pendant 60 ms. Mais on peut, dans la synthèse, faire percevoir la sonorité par plusieurs autres facteurs, en l'absence de la fondamentale. On peut aussi le faire par recollage : dans (48), quand on remplace la tenue du /b/ de "Ruby" (qui contient la fondamentale) par un bout vierge de bande magnétique de même durée, on entend toujours "Ruby" plutôt que "Rupee" (oreilles anglo-saxonnes et latines). Pour perdre la sonorité perceptuelle, il ne suffit pas d'omettre la fondamentale, il faut, en plus, faire d'autres changements—par exemple, allonger le silence de la tenue (voir plus bas à /g/). b) Chez les fricatives—qui gardent une certaine ouverture buccale pendant la tenue —le voisement peut comprendre, en plus de la barre de voix, une voyelle neutre, de basse intensité, parallèlement à la friction. La contribution de ce facteur est confirmée par la synthèse. c) La simple présence de T1 semble contribuer très fort à la perception de la sonorité, et inversement. Dans (21), déjà, les occlusives sourdes étaient produites synthétiquement avec T1 très réduit. Des travaux en cours étudient la suppression de T1 comme facteur de surdité en positions initiale, implosive intervocalique ou de détente, explosive intervocalique ou de détente. d) L'aspiration, c'est-à-dire acoustiquement: l'omission de T1 et la présence de son turbulent (inharmonique) au lieu de son périodique (harmonique) dans les 50 ou 60
LES INDICES ACOUSTIQUES DE LA PAROLE
269
premiers ms de T2 et T3, contribue nettement à la perception de la surdité. Noter que si T1 aussi a du son turbulent, il n'y a plus guère d'effet de surdité: sans doute parce qu'on a alors dans les 60 premiers ms, non plus de l'aspiration, mais de la voyelle chuchotée. L'aspiration serait donc semblable à la consonne /h/, et, comme /h/, s'articulerait la glotte grande ouverte, seules les résonances des cavités antérieures à la constriction vocalique étant alors perceptuellement effectives ; au contraire, la voyelle chuchotée ayant tous les formants de la voyelle non chuchotée, y compris F l , sa constriction serait à la glotte, et toutes les cavités antérieures à la glotte seraient perceptuellement effectives. e) La vitesse de transition de T1 a été étudiée dans (32), où une durée de T1 de 20 ms, ou un peu moins fait percevoir les occlusives comme sourdes, et une durée de 50 ms ou un peu plus les fait percevoir comme sonores. f) La présence de T3 contribue légèrement à la surdité. Ainsi, c'est parce que les modèles spectrographiques artificiels de /b d g/, employés pour étudier les variations de T2 dans (21), n'avaient pas de T3 qu'il n'a pas été nécessaire d'ajouter une fondamentale; inversement, c'est parce que les modèles employés dans (52) avaient des T3 qu'il a fallu ajouter une fondamentale. g) La durée relative de la tenue des consonnes intervocaliques (ou finales avec détente vocalique) est un facteur très puissant. Dans (48), on a étudié par recollage de parole naturelle, les variations de durée de l'interruption buccale (tenue) des explosives: "Ruby" a passé à "Rupee" entre 60 et 100 ms de tenue, sans fondamentale, et entre 80 et 120 ms de tenue, avec fondamentale. Dans (27), on peut voir, entre autres choses, l'effet de la durée de la friction (tenue des fricatives). Ainsi, pour une durée fixe de la voyelle d'une syllabe VC, les jugements passent de 100 pc /juz/ à 70 pc /jus/ quand la durée de la friction passe de 50 à 250 ms. h) L'intensité relative du bruit est aussi un facteur de la surdité. Dans (16), les syllabes synthétiques faites de la combinaison d'une explosion et d'une voyelle sans transitions étaient entendues sourdes. Dans (52), la présence d'explosions dans des syllabes qu'on voulait rendre sonores pour des oreilles américaines a obligé à compenser par l'addition d'une fondamentale, suivie d'une lenteur relative de T l . Dans (27), les variations d'intensité du bruit de friction avaient une influence sur la perception de la sonorité, mais elle était très faible. i) L'influence de la durée de la voyelle relativement à la durée de la friction consonantique suivante est le sujet principal de (27). La technique par synthèse permet de combiner plusieurs durées de voyelles avec plusieurs durées de frictions, tout en gardant fixes les facteurs de transitions. Les résultats sont clairs (mais ils ne s'appliquent qu'aux fricatives) : plus la durée relative de la voyelle est longue, plus la consonne est perçue sonore. Ainsi, pour une certaine durée fixe de la friction, les jugements passent de 100 pc /jus/ à 65 pc /juz/ quand la voyelle passe de 50 à 200 ms. j) Notons enfin que dans une étude où les consonnes sont identifiées après distortion par filtrage et par addition de bruit (24), les distinctions "sourde-sonore" et "oralenasale" résistent beaucoup mieux que les distinctions de lieux d'articulation.
270
LES INDICES ACOUSTIQUES DE LA PAROLE LES VOYELLES ORALES
L'étude systématique des voyelles orales par la synthèse a fait l'objet de deux articles : (7, 15). Dans (7), on trouve les fréquences de formant nécessaires pour synthétiser les 16 principales voyelles cardinales au moyen de deux formants seulement. Ces 16 voyelles ont été choisies à l'oreille parmi 235 combinaisons appropriées de variations de F2 pour FI fixe et de FI pour F2 fixe. Sur le diagramme des voyelles qui se forme en portant les fréquences de FI et F2 en abscisse et en ordonnée, il est curieux de remarquer que [se] est en ligne avec [i e e], tandis que [a] est en ligne avec [y 0 œ]. Dans (15), on établit les faits fondamentaux suivants: a) Dans la synthèse, deux formants suffisent à bien caractériser le timbre des voyelles, même des voyelles nasales. b) Mais les voyelles humaines sont souvent identifiées par trois formants. Autrement dit, dans la parole humaine, F3 joue un rôle dans l'identification de certaines voyelles, voire toutes les voyelles qui ont un F2 de fréquence assez haute, c'est-à-dire qui ont F2 et F3 assez rapprochés. Ce sont en général les voyelles antérieures. c) Dans la perception, il y a équivalence relative entre deux formants rapprochés et un seul formant à une fréquence moyenne entre les deux. Ainsi les voyelles postérieures sont identifiables au moyen d'un seul formant dont la fréquence est intermédiaire entre FI et F2 (F3 est très faible pour les voyelles postérieures, et ne contribue guère qu'à leur "naturel", étant aussi très loin de F2, en fréquence). De même lorsque F2 et F3 sont rapprochés, comme dans les voyelles antérieures, la perception de leur somme équivaut à peu près à la perception d'un seul formant dont la fréquence serait intermédiaire entre F2 et F3. d) Dans les voyelles synthétiques "antérieures" à deux formants, la fréquence de F2 est intermédiaire entre les fréquences de F2 et F3 des voyelles naturelles de même timbre. Ainsi, le timbre du [i] naturel dont les formants sont à 250, 2500 et 3000 cps se synthétise bien avec deux formants à 250 et 2750 cps environ. (Mais il va sans dire qu'il se synthétise encore mieux avec trois formants aux mêmes fréquences que la voyelle naturelle!) e) Les formants en dessus de 3000 cps pour [i] et en dessus de 2500 cps pour les autres voyelles n'ont guère de rôle dans la caractérisation linguistique des voyelles. Ils contribuent surtout à la caractérisation du timbre de la voix individuelle. f) Les variations individuelles d'intensité des formants ont deux effets différents selon que les formants sont rapprochés ou éloignés (en fréquence). Si les deux formants dont on varie les intensités relatives sont éloignés l'un de l'autre, à mesure que la différence d'intensité s'accentue le timbre vocalique devient plus vague, puis il perd son identité linguistique pour prendre une identité musicale (généralement une dissonance de sons contigus); si les deux formants sont proches l'un de l'autre (en fréquence), la voyelle change de timbre comme si l'effet perceptuel de la somme des deux formants devenait de plus en plus semblable à l'effet perceptuel du formant qui avait gardé son intensité originelle.
LES INDICES ACOUSTIQUES DE LA PAROLE
271
g) Quand FI seul diminue d'intensité, le changement de timbre est perçu comme allant vers la nasalité. (La première indication du fait que l'indice acoustique de la nasalité vocalique est dans la faible intensité de FI se trouve donc dans (15). L'étude (38) des voyelles américaines par filtrage des fréquences qui sont supérieures à 670 cps (dans le but d'omettre tous les formants en dessus de Fl) conclut que les indices acoustiques sont Fl, F2, et la durée (deux degrés de durée). (Le rôle de la durée semble en effet indispensable pour distinguer deux voyelles comme /e/ et /i/ qui ont presque les mêmes fréquences de formants. Notons pourtant que le rôle de F3 n'a pas été inclus dans cette étude.) Les fréquences des formants vocaliques ont été étudiés par l'analyse pour nombre de langues. Par exemple, pour les voyelles américaines, dans (1, 3, 14) et surtout (10); pour les voyelles françaises, dans (2) et (8); pour les voyelles danoises, dans (23); pour les voyelles suédoises, dans (35); pour les voyelles polonaises, dans (43); pour les voyelles japonaises, dans (44). Les analogues électriques décrits dans (5, 25, 29) ont produit de bonnes voyelles synthétiques, et ont ainsi contribué, non seulement à spécifier les corrélations articulatoires et acoustiques, mais à vérifier la valeur linguistique des résultats obtenus par la synthèse. Enfin, une théorie proposée dans (3) vient d'être confirmée dans (47) par la synthèse. L'identification linguistique des voyelles ne dépendrait pas entièrement de la fréquence absolue des formants, mais de leur fréquence relativement à la structure totale des formants du sujet parlant, structure qui peut légèrement varier d'une personne à l'autre, comme l'indiquent les divergences entre hommes, femmes, et enfants (fréquences légèrement plus hautes, dans cet ordre) établies dans (10).
LES VOYELLES NASALES
Les indices de la nasalité vocalique ont été découverts grâce à la technique de synthèse (15) et surtout (20), et confirmés plus tard par un analogue électrique de la bouche (40), et par une analyse des voyelles nasales japonaises (41). Le premier indice, le seul qui soit capable de transformer une voyelle orale en une voyelle nasale, indépendamment des autres indices, c'est la réduction d'intensité de Fl. Pour les voyelles nasales françaises, par synthèse, il faut une réduction de 12 à 15 db relativement à l'intensité normale de Fl dans les voyelles orales. Le second indice (second en importance) est un formant à environ 250 cps, que nous appellerons FN1 (premier formant nasal). C'est vraisemblablement le formant qui tient la première place dans la tenue des consonnes nasales. On sait qu'il contribue considérablement à la nasalité vocalique parce que lorsque FN1 est présent, il faut moins de réduction d'intensité de Fl pour que la voyelle soit identifiée comme nasale. Mais par lui-même il ne nasalise que très légèrement les voyelles. Les autres indices, pas toujours visibles sur les spectrogrammes, sont très faibles et
272
LES INDICES ACOUSTIQUES DE LA PAROLE
leurs effets perceptuels presque négligeables : ce sont principalement un formant vers 1000 cps et un autre vers 2000 cps. On attribue hypothétiquement la réduction d'intensité de Fl, soit au grand amortissement des cavités fibreuses du nez, qui agirait seulement sur les ondes de fréquence basse au niveau de Fl (40); soit à des antirésonances qui supprimeraient une portion des tons de Fl (41). Les cavités nasales ayant un volume assez fixe, pour que ces antirésonances coïncident avec les fréquences de F1, il faudrait que les cavités buccales, surtout la cavité pharyngienne, fassent une accomodation de volume qui accorde les fréquences de Fl à celles des antirésonances. L'hypothèse de l'amortissement est soutenue par le fait que les efforts de l'analogue pour produire des voyelles nasales ont d'abord échoué. La simple addition d'une troisième cavité, ne faisait que produire un formant additionnel vers 1000 cps, et les voyelles n'en étaient pas perceptuellement nasalisées. Pour arriver à produire des voyelles entendues comme nasales et ayant sur le spectre un F1 de très basse intensité, il a fallu donner un grand amortissement à la cavité nasale. D'autre part, l'hypothèse des antirésonances, qui demanderait une accomodation des cavités, est soutenue par le fait que le Fl faible tend, pour toutes les voyelles nasales, vers une même fréquence d'environ 500 cps (41). Cela expliquerait l'évolution de toutes les voyelles nasales vers un même degré d'ouverture (mi-ouvertes) : au cours de l'histoire du français, [ïn yn un] deviennent [è œ 5] (approximativement) et [S] devient une voyelle qui se rapproche plus de [o] que de [â], PROSODIE
Les éléments prosodiques de la parole, tels que l'accent, le rythme, et l'intonation, commencent à être étudiés par la synthèse. On en attend des résultats importants car les facteurs objectifs de durée, d'intensité, et de fréquence peuvent être variés de façon indépendante, et les résultats des variations isolées et combinées peuvent se juger subjectivement à l'oreille. Une première étude a voulu comparer les effets des variations de durée et d'intensité (sans inclure, à ce point, la fréquence) dans la perception de la place de l'accent anglais. On a employé des mots tels que "object" qui sont compris comme substantif quand l'accent est sur la première syllabe et comme verbe quand il est sur la seconde. Quand les sujets identifiaient le mot comme substantif, on pouvait admettre qu'ils avaient perçu l'accent sur la première syllabe, et inversement. Résultats: les deux facteurs contribuent à la perception de la place de l'accent, mais la durée plus que l'intensité (28). Des études comprenant, de plus, le facteur de la fréquence sont en cours.
LES INDICES ACOUSTIQUES DE LA PAROLE
273
BIBLIOGRAPHIE GÉNÉRALE
Notons, pour terminer, les travaux généraux qui ont récapitulé et fait des hypothèses se rapportant aux indices acoustiques de la parole, entre 1947 et 1957. Dans l'ordre chronologique, c'est d'abord (1), avec une richesse de spectrogrammes de grande valeur, bien qu'ils correspondent en général à de la parole ralentie. Ensuite (3), dont la perspicacité a mis sur la voie des recherches actuelles. Puis (9), qui a proposé des traits distinctifs à caractère binaire en se basant en grande partie sur les indices acoustiques qui leur correspondent. Ce travail "préliminaire" s'étant fié à une analyse trop hâtive des spectres, sera entièrement à refaire quand les chercheurs acoustiques et physiologiques auront déterminé les vrais indices. Dans (11, 12, et 13), on peut suivre le développement rapide des recherches par la synthèse, mais les hypothèses, basées sur des résultats partiels, sont en partie fautives, car elles précèdent la découverte du concept du Locus de F2 et des transitions de F3. Enfin, dans (46) les spéculations prennent une forme plus avancée. On y trouve surtout les vues auxquelles ont mené ces dix années de travaux sur les rôles respectifs du niveau acoustique et du niveau articulatoire dans la perception de la parole: en particulier, l'onde acoustique ne serait pas perçue directement, mais indirectement par référence au geste articulatoire.
CONCLUSION
Bien que les progrès des dix années passées soient impressionnants, on est loin de pouvoir encore faire un tableau sûr et complet des indices acoustiques de la parole. Il reste non seulement à étudier à fond nombre de facteurs à peine explorés, mais à compléter le travail pour ceux qui sont les mieux connus en les étudiant maintenant en toutes positions et devant toutes les voyelles appropriées. La recherche portera sur plusieurs indices à la fois dans chacun des divers laboratoires mais elle sera quand même lente: dans l'étude complète d'un seul indice, il se passe généralement plusieurs années entre le moment où il est isolé et celui où les tests définitifs sont analysés. Nous ferons un autre rapport dès qu'une avance significative aura été réalisée. BIBLIOGRAPHIE 1. Potter, R. K., Kopp, G. A., and Green, H. C., Visible Speech (New York, Van Nostrand, 1947). 2. Delattre, P., "Un triangle acoustique des voyelles orales du français", French Rev., 21 (1948), pp. 477-484. 3. Joos, M., Acoustic Phonetics (Baltimore, Waverly Press, 1948). 4. Cooper, F., "Spectrum Analysis", J. Acoustic Soc. Amer., 22 (1950), pp. 761-762. 5. Dunn, H., "Calculation of Vowel Resonances, and an Electrical Vocal Tract", JAS, 22 (1950), 740-753. 6. Cooper, F. S., Liberman, A. M., and Borst, J. M., "The Interconversion of Audible and Visible Patterns as a Basis for Research in the Perception of Speech", Proc. nat. Acad. Sci. Wash., 37 (1951), pp. 318-325.
274
LES INDICES ACOUSTIQUES DE LA PAROLE
7. Delattre, P., Liberman, A. M., and Cooper, F. S., "Voyelles synthétiques à deux formants et voyelles cardinales", Maître Phonét., 96 (1951), pp. 30-37. 8. Delattre, P., "The Physiological Interpretation of Sound Spectrograms". Publ. Mod. Lang. Assoc. Amer., 66 (1951), pp. 864-876. 9. Jakobson, R., Fant, C., and Halle, M., Preliminaries to Speech Analysis, the Distinctive Features and their Correlates" (Cambridge, Mass., Acoustics Laboratories of MIT, 1952). 10. Peterson, G. and Barney, H., "Control Methods Used in a Study of the Vowels", JAS, 24 (1952), pp. 175-185. 11. Delattre, P., Liberman, A. M., Cooper, F. S. and Gerstman, L., "Speech Synthesis as a Research Technique", Proc. 7th Int. Congr. Ling. London 1952 (1952), pp. 555-561. 12. Delattre, P., Cooper, F. S., and Liberman, A. M„ "Some Suggestions for Language Teaching Methods Arising from Research on the Acoustic Analysis and Synthesis of Speech". Rep. 3rd. ann. Round Table Meet. Linguist. Lang. Teach., 2 (1952), pp. 31-47. 13. Cooper, F. S., Delattre, P., Liberman, A. M., Borst, J. M., and Gerstman, L., "Some Experiments on the Perception of Synthetic Speech Sounds", JAS, 24 (1952), pp. 597-606. 14. Peterson, G., "Information-Bearing Elements of Speech", JAS, 24 (1952), pp. 629-636. 15. Delattre, P., Liberman, A. M., Cooper, F. S., and Gerstman, L., "An Experimental Study of the Acoustic Determinants of Vowel Color; Observations of One- and Two Formant Vowels Synthesized from Spectrographic Patterns", Word, 8 (1952), pp. 195-211. 16. Liberman, A. M., Delattre, P., and Cooper, F. S., "The Role of Selected Stimulus-Variables in the Perception of the Unvoiced Stop Consonants", Amer. J. Psychol., 65 (1952), pp. 497-517. 17. Durand, M., "De la formation des voyelles nasales", Studia Linguist., 7 (1953), pp. 33-53. 18. Cooper, F. S., "Some Instrumental Aids to Research on Speech", Report of the Fourth Annual Round Table MLLT, 3 (1953), pp. 46-54. 19. Schatz, C., "The Role of Context in the Perception of Stops", Language, 30 (1954), pp. 47-57. 20. Delattre, P., "Les attributs acoustiques de la nasalité vocalique et consonantique", Studia Linguist., 8 (1954), pp. 103-109. 21. Liberman, A. M., Delattre, P., Cooper, F. S., and Gerstman, L., "The Role of Consonant Vowel Transitions in the Perception of the Stop and Nasal Consonants", Psychol. Monogr., 379 (1954), pp. 1-14. 22. Durand, M., "La Perception des consonnes occlusives: problèmes de palatalisation et de changements consonantiques", Studia Linguist., 8 (1954), pp. 110-123. 23. Fischer-Jorgensen, E., "Acoustic Analysis of Stop Consonants", Misc. Phonet., 2 (1954), pp. 42-59. 24. Miller, G., and Nicely, P., "Analysis of Perceptual Confusions among some English Consonants", JAS, 27 (1955), pp. 338-353. 25. Stevens, K., and House, A., "Development of a Quantitative Description of Vowel Articulation", JAS, 27 (1955), pp. 484-494. 26. Delattre, P., Liberman, A. M., and Cooper, F. S., "Acoustic Loci and Transitional Cues for Consonants", JAS, 27 (1955), pp. 769-774. 27. Denes, P., "Effect of Duration on the Perception of Voicing", JAS, 27 (1955), pp. 761-764. 28. Fry, D., "Duration and Intensity as Physical Correlates of Linguistic Stress", JAS, 27 (1955), pp. 765-768. 29. House, A., and Stevens, K., "Auditory Testing of a Simplified Description of Vowel Articulation", JAS, 27 (1955), pp. 882-887. 30. Malmberg, B., "The Phonetic Basis for Syllable Division", Studia Linguist., 9 (1955), pp. 80-87. 31. Hughes, G., and Halle, M., "Spectral Properties of Fricative Consonants", JAS, 28 (1956), pp. 303-310. 32. Durand, M., "De la perception des consonnes occlusives, questions de sonorité", Word, 12 (1956), pp. 15-34. 33. Liberman, A. M., Delattre, P., Gerstman, L., and Cooper, F. S., "Tempo of Frequency Change as a Cue for Distinguishing Classes of Speech Sounds", J. Exp. Psychol., 52 (1956), pp. 127-138. 34. Borst, J., "The Use of Spectrograms for Speech Analysis and Synthesis", J. Audio Engng. Soc., 4 (1956), pp. 14-23. 35. Malmberg, B., "Distinctive Features of Swedish Vowels; Some Instrumental and Structural Data", For Roman Jakobson (1956), pp. 316-321.
LES INDICES ACOUSTIQUES DE LA PAROLE
275
36. Fischer-Jorgensen, E., "The Commutation Test and its Application to Phonemic Analysis" For Roman Jakobson (1956), pp. 140-151. 37. Householder, F., "Unreleased ptk in American English", For Roman Jakobson (1956), pp. 235-244. 38. Miller, G., "The Perception of Speech", For Roman Jakobson (1956), pp. 353-360. 39. Malecot, A., "Acoustic Cues for Nasal Consonants: an Experimental Study Involving a TapeSplicing Technique", Language, 32 (1956), pp. 274-284. 40. House, A., and Stevens, K., "Analog Studies of the Nasalization of Vowels", J. Speech Dis. (1956), pp. 218-232. 41. Hattori, S., Yamamoto, K., and Fujimura, O., "Nasalization of Vowels and Nasals", Rep. Kobayashi Sci. Inst., 6 (1956), pp. 226-235. 42. Stevens, K., and House, A., "Studies of Formant Transitions Using a Vocal-Tract Analog", J AS, 28 (1956), pp. 578-585. 43. Jassem, W., "The Formants of Sustained Polish Vowels; A Preliminary Study", Study of Sounds (Tokyo, Chiyoda, 1957), pp. 335-349. 44. Hattori, S., Yamamoto, K., Kohasi, Y., and Fujimura, O., "Vowels of Japanese", Rep. Kobayashi Sci. Inst., 7 (1957), pp. 69-79. 45. Halle, M., Hughes, G., and Radley, J. P., "Acoustic Properties of Stop Consonants", JAS, 29 (1957), pp. 107-116. 46. Liberman, A. M., "Some Results of Research on Speech Perception", JAS, 29 (1957), pp. 117-123. 47. Ladefoged, P., and Broadbent, D., "Information Conveyed by Vowels", JAS, 29 (1957), pp. 98-104. 48. Lisker, L., "Closure Duration and the Intervocalic Voiced-Voiceless Distinction in English", Language, 33 (1957), pp. 42-49. 49. O'Connor, J. D., Gerstman, L., Liberman, Delattre, P., and Cooper, F. S., "Acoustic Cues for the Perception of Initial /wjrl/ in English", Word, 13 (1957), pp. 24-44. 50. House, H., "Analog Studies of Nasal Consonants", J. Speech Dis., 22 (1957), pp. 190-204. 51. Gerstman, L., Cues for Distinguishing among Fricatives, Affricate, and Stop Consonants. Diss. New York University, 1957. (Research done at Haskins Laboratories, New York). 52. Hoffmann, H., A study of some Cues in the Perception of the Voiced Stop Consonants. Diss. University of Connecticut, 1957. (Research done at Haskins Laboratories, New York).
LE JEU DES TRANSITIONS DE FORMANTS ET LA PERCEPTION DES CONSONNES*
INTRODUCTION
Entre la tenue d'une consonne et la tenue de la voyelle suivante, c'est-à-dire entre la phase fermée et la phase ouverte d'une syllabe du type [ba], il se produit un mouvement articulatoire ouvrant combiné à un déplacement complexe des organes. Ce mouvement physiologique est reflété sur les spectrogrammes acoustiques par des changements de fréquence généralement rapides et continus dans les formants, c'est-àdire dans les concentrations d'énergie acoustique qui correspondent aux fréquences des cavités du pavillon. Tout comme les notes de résonance du système des cavités changent continuement pendant le déplacement des organes, de même les formants acoustiques changent continuement de fréquence. C'est à ces changements de fréquence des formants que la terminologie acoustique a donné le nom de transitions. Deux faits fondamentaux ressortent des recherches acoustiques des quelque douze dernières années. (1) Ce sont les trois premiers formants, les trois formants les plus bas, qui contiennent l'essentiel des traits linguistiques. Les formants supérieurs contribuent surtout à caractériser la voix individuelle et ont un rôle linguistique très limité dans l'intelligibilité totale. (2) Les transitions de formants jouent, dans la perception de la parole, un rôle autrement plus important que ne le laisserait entendre le choix peu heureux du terme "transition". Au lieu d'être une phase secondaire, ou négligeable, comme on l'a longtemps cru, les transitions sont à la clef même de la perception de la consonne. L'analyse spectrographique a fait soupçonner leur importance. La synthèse spectrographique de la parole l'a confirmée, et elle a permis d'établir avec rigueur leurs dimensions acoustiques de durée, de fréquence et d'intensité pendant la continuité dynamique du changement complexe causé par le mouvement des organes. Il est bon de mentionner pourtant que la part que prennent les transitions dans la perception des consonnes varie d'une consonne à l'autre. Ainsi elle est plus grande pour les sonores que pour les sourdes, pour les occlusives labiales que pour les palatales, pour les fricatives à turbulence effacée, comme [f], [9], que pour celles à turbulence stridente comme [s], [J]. * Déjà publié dans Proceedings of the Fourth International Congress of Phonetic Sciences, Helsinki 1961 (The Hague, Mouton & Co„ 1962), pp. 407-417.
TRANSITIONS DE FORMANTS ET PERCEPTION DES CONSONNES
277
Fig. 1. Schémas spectrographiques indiquant l'effet auditif qui résulte de changements dans les transitions du deuxième et du troisième formant pour la perception du lieu d'articulation des consonnes occlusives. Les schémas sont faits pour être transformés en son par Playback, un des synthétiseurs de parole artificielle des Laboratoires Haskins, New York. Le premier formant a partout une forme appropriée à la synthèse spectrographique de plosives sonores. A. Les transitions du deuxième formant varient. Celles du troisième sont fixes dans une position neutre. B. Les transitions du troisième formant varient. Celles du deuxième sont fixes dans une position intermédiaire entre [b] et [d]. C. Les transitions du troisième formant varient. Celles du deuxième sont fixes dans une position intermédiaire entre [g] et [d]. D. Les transitions des deuxième et troisième formants varient sans cesser de viser leurs Locus dentals respectifs.
Nous nous limiterons ici à la question des transitions acoustiques. Nous négligerons donc les traits acoustiques qui sont reliés à la phase fermée des consonnes, et nous ne mentionnerons qu'en passant les corrélations entre le domaine acoustique et le domaine articulatoire. Il sera utile de distinguer entre les caractères des transitions qui contribuent à la perception du lieu d'articulation d'une consonne (lieu labial, dental, alvéolaire, palatal, vélaire, pharyngal, etc.) et ceux qui contribuent à son mode d'articulation (mode occlusif, constrictif, fermé, ouvert, oral, nasal, sourd, sonore, dur, palatalisé, pur, aifriqué, simple, complexe, etc.). Nous considérerons ensemble les transitions des deuxième et troisième formants d'une part, et les transitions du premier formant d'autre part, celui-ci ayant une fonction assez différente des deux autres.
278
TRANSITIONS DE FORMANTS ET PERCEPTION DES CONSONNES LES TRANSITIONS DES DEUXIÈME ET TROISIÈME FORMANTS
Dans ce tableau d'ensemble du jeu des transitions dans la perception des consonnes, commençons par les faits les plus simples. La figure 1-A démontre le rôle du 2e formant dans la perception du lieu d'articulation des occlusives sonores. Comme vous le savez, la parole artificielle permet d'isoler à tour de rôle chacun des divers facteurs de la perception d'un phonème. Ici c'est la transition du 2e formant qui est isolée. Les trois formants de la voyelle [s] restent fixes. La transition du premier formant est fixe dans la position qui convient à toutes les occlusives sonores orales. La transition du 3e formant est fixe en une position neutre intermédiaire entre celles de [b], [d] et [g]. Seule la transition du 2e formant change. Elle varie de —5 à + 4 en 10 degrés de 120 cycles. Lorsque cette série de 10 schémas spectrographiques passe sous les faisceaux de lumière de la machine à synthétiser la parole, le son change légèrement à chaque nouveau schéma, commençant à [be], passant par [de], et aboutissant à [ge]. Pour l'oreille, seul le lieu d'articulation change; il est donc relié à la direction de la transition du 2e formant. (son) La figure 1-B démontre le rôle du 3e formant dans la perception du lieu d'articulation. La voyelle est toujours [e], La transition du premier formant est fixe dans la position des occlusives orales sonores; celle du 2e formant est fixe dans une position neutre intermédiaire entre [b] et [d]. La position du 3e formant, en variant de —4 à + 4 , fait graduellement passer le son de [b] à [d], (son) La figure 1-C montre de la même manière le passage de [g] à [d] sous l'effet des mêmes variations du 3e formant. Cette fois la position fixe du 2e formant est intermédiaire entre [d] et [g]. (son) Ainsi la perception du lieu d'articulation dépend de la direction du 3e formant aussi bien que de celle du 2e formant. Si maintenant la voyelle change, on ne peut conserver la perception du même lieu d'articulation qu'en changeant tout au moins la direction du 2e formant. On a donc pour chaque lieu d'articulation autant de formants différents que de voyelles. Mais on s'aperçoit bientôt que toutes les transitions qui font entendre un même lieu d'articulation visent un même point. Dans la figure 1-D toutes les transitions font entendre un [d] et toutes visent un point dont la fréquence est à quelque 1800 cycles et l'éloignement quelque 5 es. Bien que très différentes les unes des autres, ces 8 transitions ont donc un invariant en commun, ce point qu'elles visent et auquel on a donné le nom de Locus dental. La figure 2 résume la fonction des transitions de 2e formant pour les occlusives orales-sonores dans la perception du lieu d'articulation. Les 2e formants des labiales visent un point de fréquence assez basse, et ceux des dento-alvéolaires un point de fréquence moyenne. Quant aux palato-vélaires, elles fonctionnent différemment
TRANSITIONS DE FORMANTS ET PERCEPTION DES CONSONNES
279
Fig. 2. Les Locus de deuxième formant pour la synthèse des occlusives. On voit, de gauche à droite, la direction des transitions du deuxième formant par rapport au Locus labial, au Locus dental, et au Locus vélaire devant voyelles écartées; devant voyelles arrondies les transitions des vélaires ne visent pas leur Locus. A l'extrême droite, la série des transitions zéro (formants droits) par lesquelles les Locus ont pu être tout d'abord déterminés.
selon qu'elles sont suivies de voyelles écartées ou de voyelles arrondies. Devant les voyelles écartées, les 2e transitions des vélaires visent un point de fréquence élevée qui est leur Locus. Mais devant les voyelles arrondies les 2e transitions ne visent plus ce point—elles sont à peu près droites (transition zéro). La perception du lieu d'articulation dépend alors, non plus de la transition de 2e formant mais du bruit d'explosion qui précède cette transition. Les transitions de 3e formant sont beaucoup plus simples parce que les 3e formants eux-mêmes changent assez peu pour qu'on puisse les considérer comme fixes pour toutes les voyelles sauf [i]. Pour les labiales, les 3e transitions sont fortement négatives, parallèlement aux 2e transitions. Pour les vélaires elles sont négatives inversement aux 2e transitions. Pour les dentales, elles visent un point d'une fréquence d'environ 2700 cycles, autrement dit, elles sont positives devant toutes les voyelles sauf [i] et négatives devant [i] parallèlement à la 2e transition. Il est bon de rappeler ici que dans l'investigation des Locus de 2e transitions, on n'a pas seulement procédé par formants courbés, mais aussi par formants droits (transition zéro) comme indiqué à droite de la figure 3 combinant un premier formant d'occlusive orale avec un 2e formant droit. Une fois déterminée la fréquence du formant droit faisant entendre le plus clairement tel lieu d'articulation, on a dessiné les courbes complètes qui joignaient le Locus ainsi trouvé aux 2e formants de toutes les voyelles possibles et on a procédé par coupes successives pour trouver que le
280
TRANSITIONS DE FORMANTS ET PERCEPTION DES CONSONNES
O
TIME IN MSEC. Fig. 3.
Schémas typiques pour la synthèse spectrographique des fricatives sonores.
temps qui sépare le plus favorablement le Locus du début de la transition est en moyenne de 5 es. En résumé, c'est donc de la direction des transitions par rapport à un Locus que dépend la perception du lieu d'articulation consonantique. Les profiles articulatoires de la figure 2, pris dans des cinéradiogrammes des syllabes [ba], [da], [ga] permettent d'observer la corrélation entre les variations de fréquence des transitions et les variations de volume et d'ouverture des cavités du pavillon. Pour les 2e et 3e formants, les transitions des occlusives dites sonores [b], [d], [g], sont à peu de chose près celles des occlusives dites sourdes [p], [t], [k], ou aspirées [ph], [th], [kh], et celles des occlusives nasales [m], [n], [rj], sauf que pour les aspirées la première portion de la transition est composée d'ondes turbulentes (bruit) au lieu d'ondes périodiques (son harmonique). Ce qui a facilité l'étude des transitions pour les occlusives sonores, c'est le fait que, à l'exception des vélaires devant voyelles arrondies, leurs lieux d'articulation peuvent se reconnaître, à la synthèse, sans aucun appui du bruit d'explosion. La vitesse des transitions, surtout dans le premier formant, suffit à donner l'impression d'occlusion. Dans le cas des liquides et des semi-voyelles, la difficulté était encore moindre puisque aucun bruit distinctif n'entre en jeu dans leur production.
TRANSITIONS DE FORMANTS ET PERCEPTION DES CONSONNES
281
Fig. 4. A. Tableau des Locus de deuxième et troisième formants, pour les principales occlusives et fricatives anglaises, sous la forme de voyelles dont les transitions zéro visent leurs Locus respectifs B, C, D. Schémas typiques pour la synthèse d'occlusives, de fricatives, de semi-voyelles, de liquides, d'affriquées, de palatalisées et de complexes, composés par extension du concept du Locus.
Mais pour les fricatives, une grosse difficulté se présentait du fait que les bandes de friction, leur fréquence, leur largeur, leur intensité, interviennent nettement dans la perception du lieu d'articulation, comme l'a fort bien montré l'étude de Catherine Harris. Cette difficulté a pu être surmontée, tout dernièrement, grâce à l'observation qui suit. En étudiant les facteurs du voisement dans les fricatives, on a discerné l'importance insoupçonnée des formants vocaliques qui traversent la tenue, c'està-dire la friction—formants à peine visibles sur les spectrogrammes. On peut les observer sur la figure 3 dans les schémas de synthèse des quatre fricatives sonores anglaises [v], [ô], [z], [3]. Grâce au léger renforcement du lieu d'articulation que permettent ces formants vocaliques de voisement, il a été possible de "neutraliser" le facteur friction de ces quatre fricatives et de faire varier seules les transitions des 2e et 3e formants. Dans les tests, on a pu opposer /v/ à /ô/ sans aucune friction, et /z/ à /3/ avec une friction neutre intermédiaire entre celles des deux fricatives. Dans cette recherche, on a combiné la technique de variations de formants droits (transition zéro) à celle de variations de degrés de transition pour une voyelle fixe. Les résultats ainsi obtenus pour les 2e et 3e transitions de fricatives sonores semblent
282
TRANSITIONS DE FORMANTS ET PERCEPTION DES CONSONNES
bien s'appliquer aussi aux mêmes transitions des fricatives sourdes correspondantes [f], [9], [s], U l Les Locus des 2e et 3e formants pour les 6 occlusives [b d g m n g] et pour les 4 fricatives [v 6 z 3] sont présentés dans la figure 4-A sous la forme des voyelles dont les formants les viseraient. Les premiers formants sont choisis arbitrairement pour s'accorder vocaliquement avec les 2e. Ainsi les voyelles des syllabes [bum den giq vu ôœ za 3e] peuvent servir d'aide-mémoire approximatif aux Locus des 2e formants de ces 10 consonnes—20 consonnes si nous comptons les sourdes et aspirées correspondantes. En écoutant le son que produisent ces schémas en passant sous les faisceaux de lumière de la machine à synthèse, rappelons-nous qu'ils ne peuvent que vaguement suggérer le son des consonnes correspondantes, car dans la parole humaine quand l'un des formants est droit, les autres sont normalement courbés. (son) Si nous appliquons à la voyelle [e] le principe des Locus de 4-A, nous obtenons les transitions de 4-B qui produisent des syllabes plus intelligibles que les précédentes: [bem den gei) veô z£3], (son) Enfin si nous appliquons des principes semblables aux semi-voyelles, aux liquides, aux affriquées, aux palatalisées et aux complexes consonantiques, nous obtenons les formes schématiques 5-C et 5-D et les sons qui correspondent [wsr jeR lea d3edz de jie Ae ble die gle]. (son) Les semi-voyelles ont naturellement leurs Locus près des formants des voyelles fermées qui leur correspondent. Les liquides ont des Locus bas pour le 2e formant. Les plus bas sont ceux de r pharyngal et / sombre, les moins bas ceux de r apico-alvéolaire et l clair. La transition du 3e formant n'est caractéristique que dans l'r palatal, rétroflexe ou dorsal, pour lequel elle descend très bas. Il va sans dire que les transitions du [x] et du [ç] sont les mêmes que celles du [R] et du [j]. Les affriquées ont les transitions du second élément, l'élément fricatif. Les palatalisées ont les 2e et 3e transitions du [j] mais se distinguent entre elles par le mode d'articulation qui est dans le premier formant. Cela confirme la définition classique qui veut que les palatalisées gardent leur mode d'articulation original et convertissent leur lieu d'articulation en celui du jod. Quant aux complexes muta plus liquida on peut les synthétiser en traitant la tenue liquide comme une voyelle et en appliquant à cette voyelle le concept du Locus. Tout ce qui précède se rapporte à la perception des lieux d'articulation. Les 2e et 3e formants ont en effet pour fonction essentielle de distinguer le lieu d'articulation au moyen de la direction des transitions. Ces formants jouent pourtant un certain rôle dans la perception des modes d'articulation, et cela par le régime des transitions,
TRANSITIONS DE FORMANTS ET PERCEPTION DES CONSONNES
283
c'est-à-dire le degré de vitesse avec lequel elles changent de fréquence. (Ce facteur joue d'ailleurs pour toutes les transitions, la première aussi bien que les 2e et 3e.) D'une manière générale, le régime est relié à la vocalisation de la consonne. Ainsi les consonnes sonores ont en moyenne des transitions plus lentes que les sourdes; les fricatives ont en moyenne des transitions plus lentes que les occlusives; et les semivoyelles et les liquides ont en moyenne des transitions plus lentes que les fricatives. Dans la série vocalisante : [pe be ve we ue], par exemple, les transitions sont de moins en moins rapides. D'ailleurs le régime des transitions a aussi quelque rapport avec le lieu d'articulation. Ainsi parmi les occlusives, les labiales ont des transitions plus rapides que les dentales devant voyelles antérieures, ces dernières que les vélaires, et ces dernières que les dentales devant voyelles postérieures. LES TRANSITIONS D U PREMIER FORMANT
La fonction des transitions du premier formant est partagée: le premier formant permet de distinguer le lieu aussi bien que le mode d'articulation. La distinction de lieu est la plus claire mais la distinction de mode est la plus importante du point de vue statistique. Examinons d'abord la relation du premier formant avec le lieu d'articulation. Lorsque la constriction consonantique est dans la moitié antérieure du pavillon (des lèvres au palais mou) la transition du premier formant est négative par rapport à la voyelle neutre (autrement dit elle commence initialement plus bas que 500 cycles environ), et lorsque la constriction consonantique est dans la moitié postérieure du pavillon (dans le pharynx) la transition du premier formant est positive par rapport à la voyelle neutre (autrement dit elle commence plus haut que 500 cycles environ). La figure 5-A, B, C, démontre cela d'une manière dramatique grâce à la coïncidence qui veut que les labiales, ou / sombre, aient à peu près le même Locus de 2e formant (Locus très bas) que les pharyngales. Pour ces trois classes de consonnes en effet la cavité buccale est grande au départ. La distinction buccale/pharyngale est donc entièrement produite ici par la transition du premier formant. (son) Pour comprendre ce que nous venons d'observer, rappelons que la voyelle neutre est celle pour laquelle le pavillon n'a pas de constriction bien marquée : le pavillon prend alors théoriquement l'aspect d'un tube, uniforme de diamètre, fermé à un bout (la glotte) et ouvert à l'autre (les lèvres), et qui résonne au quart d'onde, aux trois-quarts d'onde, aux cinq-quarts d'onde, etc., indépendemment de son diamètre. Quand la longueur du tractus vocal en tube uniforme est de quelque 17.5 cm, ses trois premiers modes de résonance, c'est-à-dire ses trois premiers formants sont à environ 500 cycles, 1500 cycles et 2500 cycles, dans un rapport proche de 1-3-5. Le timbre de la voyelle produite par ce tube uniforme est assimilable à un [a]; elle est donc doublement qualifiée pour le titre de "voyelle neutre."
284
TRANSITIONS DE FORMANTS ET PERCEPTION DES CONSONNES
m
£ a
TraÊ
6*1 e
el-Re
e R s
e
e R e
Fig. 5. A, B, C. Effet des transitions de premier formant pour la perception du lieu d'articulation. Dans chacune des trois séries respectives A, B, C, les deuxième et troisième formants sont fixes; seules les transitions des premiers formants varient. Devant [s], les transitions de premier formant qui sont négatives font entendre une consonne buccale, celles qui sont positives une consonne pharyngale. D. Effet des transitions de premier formant pour la perception du mode d'articulation. Plus le Locus du premier formant est haut, plus la consonne est vocalique.
Chiba et Kajiyama ont démontré théoriquement qu'on pouvait considérer toutes les autres voyelles comme des modifications de cette voyelle neutre par application du concept du lieu d'articulation qui veut que si la constriction est près d'un ventre la fréquence du formant baisse par rapport à la voyelle neutre, et inversement si la constriction est près d'un nœud la fréquence du formant monte par rapport à la voyelle neutre. Cette hypothèse des Japonais a d'ailleurs été clairement confirmée par Gunnar Fant et Kenneth Stevens pour les voyelles. Ce que nous venons d'exposer pour I'R pharyngal indiquerait que le concept des Japonais peut s'appliquer non seulement aux voyelles mais aussi aux consonnes. En effet, si le Locus du premier formant de R pharyngal est plus haut que le premier formant de la voyelle neutre, c'est que la constriction du R pharyngal est plus près d'un nœud que d'un ventre, le ventre du quart d'onde étant aux lèvres et le nœud à la glotte. Si par contre la plupart des consonnes ont un Locus de premier formant plus bas que 500 cycles, c'est que la plupart des consonnes ont leur constriction dans la portion antérieure du pavillon, c'est-à-dire plus près d'un ventre que d'un nœud. Ainsi en ce qui concerne la perception du lieu d'articulation, les transitions du premier formant servent à distinguer les consonnes pharyngales des consonnes buccales. En ce qui concerne la perception du mode d'articulation des consonnes buccales, la
TRANSITIONS DE FORMANTS ET PERCEPTION DES CONSONNES
sooo-i
285
\
t«00'
iaoo itoo
\ •
•00-
\
0
5000-1
Fig. 6. A , B, C. Effet de l'intensité dans la transition du premier formant sur la perception du voisement. Dans chaque série, le troisième schéma doit son dévoisement à la faible intensité de la transition du premier formant, tant dans l'implosion que dans la détente.
vocalisation consonantique est reliée à deux indices acoustiques. L'un, le régime de transition, fonctionne, comme nous l'avons déjà dit, pour les trois formants : plus les transitions sont lentes, plus la consonne est vocalisée. L'autre indice ne fonctionne que pour le premier formant: en général, et jusqu'à une limite d'environ 500 cycles, plus le Locus du premier formant est élevé, plus la consonne est vocalisée. Les schémas de la Figure 5-D démontrent à la fois la fonction du premier formant comme indice de mode et comme indice de lieu. L e schéma de base combine des indices d'occlusive et de fricative. Ainsi le plus bas des Locus de premier formant produit un son intermédiaire entre [ b ] et [v], le 2e, à 240 cycles, un son intermédiaire entre [ v ] et [m], le 3e, à 360 cycles, un son intermédiaire entre [ w ] et [1], le 4e, à 480 cycles, un son intermédiaire entre [1] et [R]. A partir d'ici on est au-dessus de 500 cycles, le lieu d'articulation change donc de buccal à pharyngal, et les sons qui suivent sont de plus en plus pharyngaux à mesure que le Locus du premier formant s'élève. (son)
286
TRANSITIONS DE FORMANTS ET PERCEPTION DES CONSONNES
Tout ce qui a été dit jusqu'ici pourrait faire croire que les indices des transitions ne sont fonction que de la fréquence et de la durée. Il existe au moins un cas où la troisième dimension, l'intensité, semble jouer un rôle dans les transitions. C'est dans le dévoisement : plus la transition du premier formant est faible, plus la consonne est sourde. La Figure 6 en donne un bon exemple. La presque absence de première transition, tant dans les implosions que dans les détentes, se traduit par un dévoisement bien marqué. (son) Cette Figure montre aussi l'importance du facteur durée : pour que les transitions des détentes fonctionnent comme telles, il leur faut une durée d'au moins 3 es. En dessous de cela, elles fonctionnent non comme des transitions mais comme des bruits d'explosion, ce qui indique que la direction des transitions ne joue plus dans la perception. Pour terminer nous allons entendre un poème de Guillaume Apollinaire intitulé L'anémone et Vancolie, synthétisé d'après les notions qui précèdent. L'anémone et l'ancolie Ont poussé dans le jardin Où dort la mélancolie Entre l'amour et le dédain (son)
JANUA LINGUARUM STUDIA MEMORIAE NICOLAI VAN WIJK DEDICATA Edited by Cornells H. van
Schooneveld
SERIES MAIOR 2.
DEAN
s.
Kamchadal Texts collected by W. Jochelson. 1961. 284 pp. Cloth. Gld. 58.—
3.
PETER HARTMANN:
4.
GUSTAV HERDAN:
6.
TATIANA SLAMA-CAZACU
7.
ALF SOMMERFELT:
8.
THOMAS A. SEBEOK
9.
GUSTAV HERDAN:
WORTH:
Theorie der Grammatik. 1963. 552 pp. Cloth.
Gld. 82.—
Type-Token Mathematics: A Textbook of Mathematical Linguistics. 1960. 448 pp., 17 figs. Cloth. Gld. 54.—
: Langage et Contexte : Le problème du langage dans la conception de l'expression et de l'interprétation par des organisations contextuelles. 1961. 251 pp., 5 figs. Cloth. Gld. 48.— Diachronic and Synchronic Aspects of Language: Selected Articles. 1962. 421 pp., 23 figs. Cloth. Gld. 54.—
and VALDIS J. Language. 1961. 259 pp. Cloth.
ZEPS:
Concordance and Thesaurus of Cheremis Poetic Gld. 58.—
The Calculus of Linguistic Observations. 1962. 271 pp., 6 figs. Cloth. Gld. 42.—
10. Proceedings of the Fourth International Congress of Phonetic Sciences, held at the University of Helsinki, 4-9 September 1961. Edited by ANTTI SOVIJARVI and PENTTI AALTO. 1962, 855 pp., numerous figs, and plates. Cloth. Gld. 125.— 11.
WERNER WINTER
(ed.): Evidence for Laryngeals. 1965. 271 pp. Cloth.
Gld. 45.—
12. Proceedings of the Ninth International Congress of Linguists, Cambridge, Mass., August 27-31, 1962. Edited by HORACE G. LUNT. 1964. 1196 pp., plate. Cloth. Gld. 125.— 14.
RUTH HIRSCH WEIR:
Language in the Crib. 1962. 216 pp. Cloth.
Gld. 32.—
15. Approaches to Semiotics: Cultural Anthropology, Education, Linguistics, Psychiatry, Psychology. Transactions of the Indiana University Conference on Paralinguistics and Kinesics. Edited by THOMAS A. SEBEOK, ALFRED S. HAYES, MARY CATHERINE BATESON. 1964. 294 pp. Cloth. Gld. 40.— 16.
A. ROSETTI :
Linguistica. 1965. 268 pp., 19 figs. Cloth.
Gld. 58.—
M O U T O N & CO. • P U B L I S H E R S • T H E H A G U E