Accueil > La Médiathèque > Collections > Séances publiques > Voeux > Le numérique et la musique : l’ordinateur partenaire du musicien simulacres, (...)

Enregistrer au format PDF

Cérémonie des voeux de l’IHEST

Le numérique et la musique : l’ordinateur partenaire du musicien simulacres, illusions, duo pour un pianiste

Jean-Claude Risset, compositeur et chercheur de renommée internationale, actuellement directeur de recherche émérite au Laboratoire de Mécanique et d’Acoustique du CNRS, n’a cessé de tenter de rendre perméable la frontière entre arts et sciences. Ses recherches scientifiques ont alimenté son travail de musicien et réciproquement. Parmi de nombreuses récompenses, il a reçu les plus hautes distinctions françaises dans le domaine de la musique (Grand Prix national de la musique 1990) et des sciences (médaille d’or du CNRS). Depuis un an il a présenté ses travaux et ses œuvres musicales à Londres, Porto, Pékin et Boston.

Jean-Claude Risset : Je remercie Madame Le Guyader pour son invitation et pour ses propos très aimables. Je suis très heureux d’être parmi vous aujourd’hui et de pouvoir essayer de vous convaincre qu’il existe quelque chose dans la musique qui peut être utile à la science. On pense souvent que la science et la technique bénéficient à la musique, mais la musique peut aussi influencer et inspirer la science et la technologie, et en tout cas l’inciter à progresser.

On considère traditionnellement que Pythagore est à l’origine de la numérologie, puisqu’il a dit : « les nombres gouvernent le monde ». Il a été extrêmement frappé quand il s’est aperçu que les harmonies musicales correspondaient à des longueurs de corde qui semblaient être des rapports simples, d’où une véritable mystique du nombre. De nombreuses personnes, comme le regretté Jean-Marie Souriau, pensent que cette découverte a joué un rôle déterminant dans le développement de la science occidentale en particulier. Cette vieille histoire remonte donc à Pythagore, à Aristoxène et bien d’autres. Leibniz avait écrit : « la musique est un calcul secret que l’âme fait à son insu ».

Nous sommes aujourd’hui dans une ère numérique :

Les ordinateurs ont récemment transformé toute une série de problématiques. Quand j’ai commencé à travailler dans ce domaine, en France, on ne parlait pas de « numérique », mais de « digital ». La numération à base dix est effectivement basée sur les doigts de la main. De nos jours, le clavier reste un outil décisif comme support d’information : or le premier clavier a été un clavier d’instrument de musique. Inutile de rappeler le quadrivium du Moyen-Âge qui, à la suite des Grecs, associait l’arithmétique, la géométrie, l’astronomie et la musique. Galilée, Descartes, Huygens, Newton, Leibniz et bien d’autres ont écrit des traités de musique. Cependant, il ne s’agit pas de pratique musicale, mais d’une théorie de la musique fondée sur Pythagore, Aristoxène, Boèce, etc.

Les coordonnées cartésiennes, d’après l’historien Geoffrey Hindley, auraient été inspirées par la notation musicale occidentale. Nous connaissons leur importance dans le développement de la science en Occident par rapport à la Chine, par exemple. L’explosion scientifique avec les équations de Newton, la prédiction des trajectoires et le déterminisme, a été nourrie par l’existence des coordonnées cartésiennes.

Le son est un véhicule extraordinairement important dans la communication, qu’il passe par la parole ou par l’entremise des ondes électriques du téléphone ou de la radio. Entre parenthèses, il n’y a pas d’atmosphère sur la lune, et donc il n’y a pas de son qui s’y propage. Sur terre, le son ne nous sert pas qu’à communiquer avec quelqu’un de proche : il nous avertit sur ce qui se passe au loin. L’audition est une espèce de toucher à distance extraordinairement sensible : nous sommes sensibles aux vibrations d’une membrane qui sont plus petites en amplitude que les dimensions d’un atome d’hydrogène. Je ne dis pas que le son existe à l’échelle atomique : il s’agit d’un phénomène statistique, avec – par exemple - toute une plaque qui bouge. Nous pouvons donc entendre des sons d’une finesse extraordinaire.

JPEG - 96 ko

Qui dit musique électronique dit musique obtenue par d’autres moyens que les vibrations acoustiques.

En 1875, se sont produits deux événements extrêmement importants. Edison a enregistré des sons, c’est-à-dire qu’il est devenu possible de restituer des sons en l’absence de leur cause mécanique initiale. Graham Bell, le fondateur des Bell Laboratories, a transmis la parole par l’intermédiaire de vibrations électriques grâce au téléphone. C’était une véritable révolution, qui a permis de tirer profit des technologies électriques et d’échapper aux contraintes mécaniques pour développer un nouvel art sonore « virtuel ». Nous avons l’habitude de penser qu’un son est « réel » quand il est la trace audible des vibrations acoustiques d’un objet. Les sons produits par un haut-parleur ne sont pas déterminés par sa nature vibratoire : le haut-parleur doit se prêter à la restitution de sons produits par des objets très divers. La maîtrise accrue du son - de sa production et de ses transformations – va permettre d’étendre le contrôle compositionnel de la grammaire au vocabulaire musical. Je parle ici de grammaire : quand on étudie l’harmonie ou le contrepoint, on apprend à disposer des notes ensemble. Dans la musique instrumentale, le matériau musical est produit par les vibrations des instruments. Tout d’un coup, on a pu se libérer de cette contrainte, et on a pu composer le son lui-même, c’est-à-dire disposer pour la musique d’un nouveau vocabulaire sonore.

Les technologies électriques ont connu plusieurs étapes.

Il y a eu d’abord l’âge électrotechnique. Ainsi, avant le XX° siècle, Cahill a inventé le « dynamophone », une « dynamo à sons » qui s’appelait aussi « telharmonium », puisqu’on pouvait transmettre les sons électriques par téléphone.

Ensuite est arrivé l’âge électronique. Déjà, Lee de Forest voulait produire des oscillations électriques pour engendrer des instruments et Theremin l’a fait à sa suite. L’âge électronique s’est développé lorsque la radio a permis de créer des studios présentant diverses possibilités pratiques. Pierre Schaeffer a détourné en quelque sorte l’usage de ces studios pour composer en mixant et juxtaposant des sons enregistrés. A peu près en même temps, en Allemagne, est apparue une école visant à utiliser des sons électroniques, mieux contrôlables, qui pouvaient être agencés suivant une grammaire très précise. C’était un moment où la musique sérielle dominait en Allemagne. Ces deux écoles, dites « concrète » et « électronique », étaient initialement rivales : elles se sont progressivement hybridées. La musique concrète assemblait des sons à la forte personnalité, d’où une tendance à une esthétique de collage. Les sons de la musique électronique entraient plus facilement dans un projet compositionnel, mais ils étaient moins variés et plus pauvres.

L’âge numérique n’est pas seulement celui des ordinateurs : c’est la conjonction des ordinateurs numériques et du codage numérique des fonctions continues. Par exemple, la déviation du haut-parleur par rapport à sa position centrale est une fonction continue qui est gravée sur le disque par une spirale continue. Il est possible d’en donner une représentation « discrète » par des nombres en découpant en tranches la fonction continue. Selon certains théorèmes qui remontent à Whittaker au début du XXe siècle et peut-être à Cauchy au XIXe, il est possible d’interpoler entre ces nombres pour restituer la fonction initiale continue, à condition qu’elle soit limitée en fréquence. Ainsi fonctionnent l’enregistrement numérique et la synthèse des sons par ordinateur.

L’ordinateur est un outil nouveau, ou plutôt un atelier, car il permet de concevoir et d’utiliser de multiples outils qui sont intellectuels (on peut coder sous forme de nombres des concepts logiques) mais aussi matériels, puisque l’on peut transcrire des sons, des images, de la parole. J’ajouterai « garbage in, garbage out » pour souligner que l’ordinateur n’est pas une panacée universelle. Quand j’ai commencé ma carrière, je disais : « l’ordinateur est la seule machine capable de faire un million d’erreurs par seconde ». Aujourd’hui, je dirais plutôt « un milliard d’erreurs par seconde ». Nous connaissons bien les problèmes de compatibilité de transmission, par exemple lorsqu’il faut transposer des programmes anciens sur de nouveaux ordinateurs. L’âge numérique a permis aussi la profusion des réseaux et leur sécurisation, et nous pouvons penser qu’il s’agit d’un nouvel âge.

Première synthèse de sons par ordinateur et le premier enregistrement numérique aux Bell Laboratories par Max Mathews

Max Mathews a réalisé la première synthèse de sons par ordinateur et le premier enregistrement numérique aux Bell Laboratories dès 1957, avant que le laser ne soit inventé.

Les Bell Laboratories ont été un laboratoire extraordinaire, où ont eu lieu des expériences interdisciplinaires sans précédent. Max Mathews est le père de la synthèse par ordinateur et il a nourri cette discipline toute sa vie. John Pierce, le directeur de la recherche fondamentale aux Bell Laboratories, qui a inventé les satellites de télécommunications et a forgé le mot transistor, a protégé ces recherches dont l’utillité économique a longtemps paru douteuse. Il a fallu attendre 1987, avec l’ordinateur NeXT « The Cube » proposé par Steve Jobs, pour trouver dans le commerce un ordinateur équipé d’une sortie sonore de qualité. Aujourd’hui Apple obtient des revenus considérables en vendant des téléchargements de musique.

Dans les années 1960, ce qui attirait les musiciens d’avant-garde vers la synthèse par ordinateur, ce ne sont pas les débouchés économiques, mais la perspective d’un monde sonore nouveau pour la musique. La synthèse par ordinateur permet d’envisager la création de n’importe quel son à partir de la spécification de sa structure physique. Mais il a fallu conquérir ce nouveau monde sonore « virtuel » et comprendre les caractéristiques désirables des sons musicaux, dont on n’avait qu’une notion sommaire et simpliste. L’épreuve de la synthèse a montré que les descriptions des traités d’acoustique étaient insuffisantes pour obtenir des sons synthétiques de qualité musicale.

John Chowning a inventé un procédé pour utiliser la modulation de fréquence afin de produire le son d’une nouvelle manière. Il a établi un brevet qui a été à la source d’un important synthétiseur de Yamaha. György Ligeti s’est énormément intéressé à ses recherches. Au début des années 1970, John Chowning a fondé à Stanford un très important laboratoire, le CCRMA (Computer Center for Research in Music and Acoustics). La modulation de fréquence est un moyen de réaliser des synthèses très économiques et très significatives pour l’oreille. Le brevet obtenu par John Chowning est celui qui a rapporté le plus à l’université de Stanford, à l’exception d’un seul brevet de biologie.

Les sonagrammes sont des représentations temps/fréquence du son, fort utiles car elles font apparaître nombre de caractéristiques audibles.

La synthèse permet de produire des sons variés ayant des sonagrammes très différents, manifestant des porphologies variées. Par exemple, ici, les harmoniques, au lieu d’être synchrones, sont décalées dans le temps, un peu comme un prisme disperse la lumière. Là, c’est une courbe très souple, en fait réalisée mathématiquement. Si l’on écoute les sons correspondants, on s’aperçoit que que l’image ne donne pas nécessairement une idée véridique du son. Ainsi, dans cet exemple, à l’œil il semble qu’il y ait plusieurs sons. Mais en fait, les composantes visibles sur le sonagramme fusionnent parce que la relation entre ces sons est une relation d’octave. D’autre part, le son semble descendre la gamme, mais en fait il n’arrive jamais dans le grave et la descente peut durer indéfiniment, ce qui prouve bien que la hauteur des sons ne correspond pas exactement à la fréquence.

La synthèse permet de construire le son sur plan, comme un architecte, à partir de la spécification de sa structure physique. Mais c’est l’écoute du son qui permet de faire l’expérience de son effet sensible. Comme le disait Pierre Schaeffer, « la musique est faite pour être entendue ». Ce qui compte, c’est ce que nous entendons. En anglais, on dit « the proof of the cake is in the eating, not in the cooking » : la vérité de la cuisine n’est pas dans la recette, mais dans la dégustation. Par exemple, ces sons ont des allures différentes mais sonnent identiquement.

La perception du son et les illusions

La perception a des caractéristiques très particulières mais qui ne sont pas arbitraires. Nos sens sont nos seules fenêtres sur le monde physique mais ce sont, des fenêtres déformantes : les illusions en témoignent. Ainsi, dans la fameuse illusion de Müller-Lyer, nous croyons voir des lignes tordues alors qu’elles sont droites.

Par exemple, je vous fais entendre neuf sinusoïdes simultanées qui ont pour fréquences 125, 128, 131, 134 Hz... donc une différence de fréquence de 3 Hz, avec une amplitude constante. La superposition de ces sons n’a pas une amplitude constante : elle est hachée trois fois par seconde. C’est le battement entre fréquences voisines qui produit ce phénomène. Une identité trigonométrique traduit ce phénomène de battement : la somme de deux sinusoïdes peut s’exprimer comme le produit de la sinusoïde de la demi-somme des fréquences par la sinusoïde de la demi-différence. Il ne s’agit pas seulement d’un phénomène mathématique : c’est l’oreille qui décide si elle va entendre la combinaison comme deux sons qui forment un accord (le premier membre de l’identité), ou bien comme un seul son de fréquence audio à l’amplitude lentement variable.

Autre exemple, quel est pour vous le plus haut de ces deux sons ? En général, les personnes trouvent que le premier son est un peu plus haut, d’environ un demi-ton. En réalité, j’ai fabriqué le second son, jugé plus bas que le premier, en doublant toutes les fréquences du premier son.

Je vais vous montrer au piano à quoi cela correspond. Je joue l’accord suivant : do, do# une octave et un demi-ton plus haut, ré une octave et un demi-ton plus haut, ré# une octave et un demi-ton plus haut, puis je joue le même accord une octave plus haut. Vous entendez une descente chromatique, parce que l’oreille compare les composantes localement et non globalement : le ré du premier son est comparé au do# du second. La perception auditive fonctionne ainsi. Un son composé de fréquences en relation d’octaves agrandies paraît baisser si l’on double ses fréquences. Des phénomènes semblables de proximité sont bien connus des psychologues.

Un paradoxe semblable existe pour la vitesse. Le rythme est-il plus rapide au début de l’exemple que vous allez entendre, ou à la fin ? La plupart des personnes trouvent qu’il est plus rapide au début. J’ai pourtant obtenu la deuxième partie de l’exemple à partir de la première en doublant la vitesse du magnétophone sur lequel je joue, ou si vous préférez en doublant le taux d’échantillonnage du son numérique, ce qui double les fréquences mais aussi les cadences. Conclusion, le rythme perçu ne se réduit pas à la cadence chronométrique.

Là encore, l’audition effectue des comparaisons locales pour analyser ce qu’Albert Bregman a appelé la scène sonore. Quand vous entendez des bruits en tous sens, par exemple dans une rue ou une gare, notre audition procède à une analyse extrêmement complexe pour essayer de rassembler les composantes qui appartiennent au même son.

Les illusions auditives témoignent des mécanismes de l’audition. Voici par exemple des illusions de mouvement de John Chowning. Evidemment, il y a l’illusion connue de la latéralisation, utilisée en stéréophonie, mais vous avez aussi l’impression que le son s’éloigne ou s’approche, alors que si vous baissez le son de la radio, il devient plus doux mais il ne s’éloigne pas vraiment. Il y a donc des indices plus subtils qui créent cette impression. Chowning utilise aussi des variations de fréquence simulant l’effet Doppler pour donner l’illusion d’un mouvement rapide de la source qui s’approche ou s’éloigne.

L’environnement sonore virtuel

On peut aussi par ordinateur créer un environnement sonore virtuel. Voici la voix d’Irène Jarsky enregistrée dans un studio de taille modérée, et ensuite plongée « virtuellement » dans une salle plus vaste. C’est en retardant les premiers échos que j’obtiens cet effet. Dans la salle de l’Ircam à géométrie variable, munie de panneaux rotatifs permettant de varier l’absorption sonore, vous ne pouvez pas créer l’effet d’une grande salle par des moyens purement acoustiques. Vous pouvez donner l’impression d’une salle très réverbérante, mais non d’une très grande salle puisque les murs sont là et leurs échos nous renseignent tout de suite sur leur distance.

Je vous ai fait entendre tout à l’heure une descente qui n’en finissait pas. C’est encore une illusion liée à la dénomination des notes do, ré, mi, fa, sol, la, si, puis do, ré, mi, fa, sol, la, si, qui manifeste une circularité. Voici une image de Penrose qui a été reprise par Escher : un escalier refermé sur lui-même qui paraît monter ou descendre indéfiniment suivant le sens de parcours. Voici une figure trompeuse : on croit voir des spirales – les « spirales de Fraser », mais on s’aperçoit en suivant une spire qu’il s’agit de cercles concentriques. On peut représenter la hauteur non pas par une droite, mais par une spirale et celle-ci peut s’effondrer en un cercle, ou bien devenir une spirale gauche, comme ce dessin d’Escher, analogue à mon son « paradoxal » qui descend la gamme pour aboutir à un point plus haut. J’ai évoqué les paradoxes précédents à l’orchestre dans mes œuvres Phases et Escalas.

Réaliser des synthèses imitatives des instruments s’est révélé moins facile que nous ne le croyions. Nous pensions qu’avec les manuels d’acoustique, nous avions la caractérisation du timbre par un spectre typique assorti d’un transitoire d’attaque. En réalité, ces éléments ne suffisaient pas à caractériser l’instrument. Le son dépourvu d’une identité claire que vous entendez est censé être celui d’une trompette d’après les manuels d’acoustique : donc ceux-ci n’offrent pas une description pertinente permettant une reproduction évoquant le son décrit. En fait, il existe une propriété qui permet de caractériser simplement le son cuivré : plus le son est fort, plus il est brillant, c’est-à-dire qu’il s’enrichit en harmoniques aiguës en proportion. J’ai donc pu le reproduire en simplifiant la description. La synthèse de modulation de fréquence de John Chowning permet de le faire de manière très impressionnante.

J’ai parlé tout à l’heure de la possibilité de transmettre des partitions comme descriptions de sons. Il ne s’agit pas de partitions musicales habituelles, c’est-à-dire de suites de notes, mais de descriptions intégrales du son. Cela a permis une économie d’échanges : on pouvait s’échanger les descriptions. De même que les apprentis compositeurs étudient les partitions, ceux qui sont intéressés par la composition du son lui-même peuvent étudier des partitions sonores, permettant des resynthèses.

Les incidents caractéristiques des instruments sont importants. Par exemple, on peut simuler des imperfections. Voici une des premières synthèses de violon par Max Mathews, mais le troisième et le quatrième son imitent un raclement causé par un violoniste débutant. On pourrait se demander, puisque l’ordinateur peut créer des sons parfaits, quel est l’intérêt de cette imperfection. Mais la « perfection » n’est pas ce que l’on recherche : il y manque le grain, il y manque des éléments qui nous sont essentiels pour identifier le son. Il se peut très bien que les idiosyncrasies de chaque son manquent lorsque l’on a un son qui est trop lisse. L’oreille ne peut alors se raccrocher à rien. Plutôt que d’imperfections, on pourrait parler de caractéristiques « génétiques ». Où est le « gène » lorsqu’il n’y a pas d’instrument à l’origine du son ? C’est une question qui pourrait faire l’objet d’un débat.

Les modèles physiques sont très importants. Pouvez-vous identifier cette séquence de sons ? Il paraît évident que c’est une balle qui rebondit. Cadoz a produit à l’ACROE de Grenoble il y a plus de trente ans cette séquence qui est un peu à l’origine des modèles physiques et des réalités sonores virtuelles : pour cela a mis en équation les lois de Newton plus certaines caractéristiques d’élasticité, et le modèle physique a calculé le comportement mécanique de la balle et les instants et les intensités de contact avec le sol. A partir de ce comportement mécanique, le son a été engendré. On obtient des sons très « physiques ». Divers compositeurs ont illustré la synthèse par modélisation physique
Notre audition a parfois des difficultés à distinguer des sons électroniques qui n’ont pas de caractéristiques saillantes. En revanche, il est beaucoup plus facile de les identifier quand nous pouvons leur attribuer un modèle de production mécanique : percussion, frottement, son vocal, grattement, craquement, etc. Certaines personnes objecteront : « pourquoi simuler le monde physique alors que vous pouvez produire des sons impossibles à réaliser physiquement ? » La réponse est que notre audition, l’audition des vertébrés – et peut-être des invertébrés –, a évolué dans un monde physique : nous ne pouvons pas faire litière de cette évolution qui a mis en place, dès la naissance, un certain nombre de mécanismes qui sont évidemment ajustés à un environnement physique.

Les traitements sur le son

Nous pouvons aussi réaliser des traitements sur le son, et pas seulement de la synthèse ex nihilo. Nous pouvons choisir des sons quelconques – peu importe comment ils ont été produits –, par exemple des sons réalisés acoustiquement, enregistrés puis numérisés, et les transformer par ordinateur. La transformation le plus simple est le mixage. Il existe maintenant des logiciels de mixage numérique, mais le mixage a été réalisé dès le début de la synthèse par ordinateur.

Voici quelques exemples de dialogue entre sons instrumentaux et sons de synthèse, extraits d’une pièce mixte intitulée Dialogues. Au début, les sons de synthèse sont prolongés par des sons instrumentaux qui s’introduisent insidieusement, comme en filigrane. C’est ce que l’on pourrait appeler une « rencontre du troisième type », c’est-à-dire un contact physique entre ces deux types de sons. Ici une flûte, sur scène, répond à une percussion de synthèse en l’imitant. L’exemple suivant provient d’un flûtiste qui se met à chanter dans son instrument, qui n’est donc plus tout à fait une flûte, et l’accompagnement de synthèse va devenir de plus en plus vocal. Cette espèce de tremblement qui est appliqué à un son au départ assez anonyme donne tout d’un coup l’allure d’une voix chantée et nous avons tendance à l’attribuer à une personne.

Duo pour un pianiste

Dans la composition Duo pour un pianiste de Jean-Claude Risset ", la seconde partie est jouée, sur le même piano - un piano acoustique, avec touches, feutres et marteaux – par un ordinateur qui suit le jeu du pianiste. Il faut pour cela un piano spécial – ici un Yamaha Disklavier – équipé d’entrées et de sorties Midi. Sur ce piano, chaque note peut être jouée du clavier, mais aussi déclenchée par des signaux électriques qui commandent des moteurs pouvant abaisser ou relâcher les touches. Chaque fois qu’une touche est jouée, elle envoie un signal indiquant quand et à quelle intensité. Les signaux suivent la norme Midi utilisée pour les synthétiseurs. Un ordinateur Macintosh reçoit cette information et renvoie les signaux appropriés pour faire jouer le piano. Le programme établi sur l’ordinateur détermine de quelle façon la partie de l’ordinateur dépend de ce que joue le pianiste." Explications de Jean-Claude Risset lors de la cérémonie des vœux de l’IHEST le 10 janvier 2014 (Source B.R.AH.M.S. Ircam,)

Echanges avec le public

Question : Est-il possible d’aller vers une improvisation à deux, ordinateur et musicien ? Est-ce que l’ordinateur peut jouer des éléments non prévus qui vont stimuler le musicien ?

Jean-Claude Risset  : Tout à fait. Par exemple, le musicien de jazz George Lewis s’est presque entièrement consacré à cette interaction. Il existe des programmes plus ou moins intelligents qui essaient de comprendre ce que fait le musicien, ce qu’il essaie de faire, quel est son style. C’est le cas par exemple de François Pachet qui travaille maintenant avec Sony. Gérard Assayag développe OMax, un excellent programme qui permet précisément l’improvisation. L’improvisateur joue et l’ordinateur essaie de comprendre son style, de comprendre ce qu’il fait, mais il peut aussi lui rejouer des variantes de segments du jeu antérieur de l’improvisateur auparavant – un apport précieux de Georges Bloch, souvent préféré à un accompagnement par des instruments MIDI.
L’improvisation en public n’est pas mon forte. Mais il me semble qie l’improvisation à deux se prête très bien au jazz, une musique assez structurée harmoniquement autant que rythmiquement (sauf dans certaines tendances free). Le jazz a vraiment un rythme bien défini dans lequel il est généralement facile de s’insérer (sauf quand Charlie Mingus, par exemple, décide d’accélérer ou de ralentir). Le pianiste Laurent de Wilde pratique un tout autre type d’interaction puisqu’il travaille avec le musicien numérique Otisto 23, lequel improvise à partir d’éléments qu’il a enregistrés au vol - soit des fragments d’improvisation au piano, soit des éléments sonores plus ou moins bruiteux obtenus en excitant directement l’instrument et pas seulement en frappant les cordes avec les marteaux.
La démarche interactive se prête donc très bien à l’improvisation. J’ai moi-même préparé une ou deux pièces selon ce principe, mais je ne m’implique guère dans cette direction.

Question : Vous avez dit que l’oreille avait évolué dans un environnement où l’individu connaît la cause physique de production des sons. Avez-vous constaté maintenant une évolution au niveau de votre oreille ? Celle-ci reconnaît-elle d’autres sons ?

Jean-Claude Risset : Evidemment, l’éducation et la pratique modifient la perception. Ainsi, on peut apprendre des intonations particulières. La musique occidentale nous conditionne à des échelles de hauteur diatoniques ou chromatique et nous avons tendance à « naturaliser » les intervalles diffèrent certaines difficultés, mais nous pouvons toutefois arriver à apprendre d’autres intonations. Malgré tout, une grande partie des mécanismes nous sont donnés à la naissance, ce qui fait que nous avons des difficultés à faire certaines différenciations, même par l’apprentissage, lorsque ces différenciations ne sont pas parlantes, soit dans le domaine du son, soit même dans le domaine de la structuration mélodique comme le prescrivent les règles de la musique sérielle, par exemple.

Il ne s’agit pas d’une condamnation de la musique sérielle : je ne pense pas que toute structuration doit nécessairement être visible. Après tout, ce qui nous structure, c’est le squelette ! Je me rappelle un mot de John Pierce : « Dire qu’une musique est belle parce qu’elle a une belle structure profonde, c’est comme assurer qu’une femme est belle parce qu’elle a un beau squelette ». Pour l’apprécier, nous n’avons pas nécessairement à identifier tout ce qui donne sa forme à une apparition.
Je n’ai pas vraiment répondu à votre question. En fait, nous avons été un peu déçus par la difficulté d’apprendre. On ne peut pas imposer à quelqu’un d’apprendre un nouveau langage. Par exemple, aux débuts de l’Ircam vers 1975, nous avions quelques illusions sur la possibilité de réfléchir ensemble à un nouveau langage. Finalement, nous avons peut-être rencontré les mêmes problèmes que l’esperanto ou le volapuk, langages artificiels ne se sont pas imposés malgré leur conception en principe rationnelle, s’étant heurtés à la résistance de la pratique sociale.

Effectivement, nous ne parvenons pas à différencier n’importe quoi. En revanche, en articulant les choses, nous arrivons à faire des structurations et des différenciations extrêmement fines. Dans le cadre de la musique tonale, nous sommes habitués à un grand nombre de figures traditionnelles qui constituent un fonds commun. On ne peut pas décider souverainement de ce que devrait être le fonds commun : il y a là un problème social de maîtrise de l’environnement éducatif. Nous n’avons pas l’expérience de ce que pourrait donner l’apprentissage d’un nouveau langage musical qui serait créé sur des bases rationnelles ou innovantes.

Question : Je voudrais vous demander vers quoi mènent ces recherches, sur le plan artistique. Avez-vous une vision de ce qui pourrait être transformé dans le domaine de la création artistique, à moyen terme ? Ces recherches ont-elles des conséquences sur d’autres domaines que celui de la musique ? Pourraient-elles trouver des applications dans d’autres domaines tout à fait différents, puisque l’on découvre des interactions, des structures qui pourraient être répliquées ou utilisées dans d’autres domaines ?

Jean-Claude Risset : Je vais d’abord répondre à la dernière partie de la question. Par exemple, je pense que cette technologie a complètement changé notre vision de la perception auditive. Prenons un exemple. Vous prenez un transparent, vous y inscrivez de nombreux points au hasard pour former une espèce de nuage un peu chaotique. Sur un autre transparent, vous dessinez avec un petit nombre de points une figure qui soit reconnaissable (un chat, un homme, etc.). Vous superposez les deux transparents. La figure sous-jacente n’est plus visible, mais si vous faites bouger l’un ou l’autre transparent, elle surgit tout d’un coup de manière frappante, et elle disparaît dès que vous arrêtez le mouvement. John Chowning a montré qu’il existe exactement le même phénomène dans l’audition : c’est la façon dont nous pouvons distinguer deux sons à l’unisson, tels qu’un son de flûte et un son de hautbois par exemple. L’oreille est capable de détecter, de suivre et de regrouper ensemble des microvariations. Dans le domaine de la perception, ces recherches ont donc beaucoup apporté à cette compréhension de l’audition. Elles ont également facilité l’émergence de nouvelles notions, comme celle des ondelettes introduites par le regretté Jean Morlet et par Alex Grossmann, qui est aujourd’hui parmi nous.

Ces recherches ont déjà eu des conséquences importantes, de même que la musique électroacoustique a suscité des œuvres orchestrales qui n’auraient pas existé autrement, comme les grandes textures, nappes et trames dans les musiques de Xenakis, de Ligeti, de Penderecki ou Ivo Malec. Cela a suscité un courant comme la musique spectrale. Hugues Dufourt, qui a créé le terme de « musique spectrale », dit lui-même que cette musique a été largement inspirée par les recherches informatiques, et pas seulement par le compositeur italien Giacinto Scelsi. Ligeti était extrêmement intéressé par toutes ces recherches.
Je ne sais pas du tout vers quoi va évoluer la musique. Actuellement, nous observons un retour à une forme de simplicité, en réaction à la complexité évidemment. Parallèlement, certains musiciens comme Brian Ferneyhough persistent dans une exigence très particulière sans se soucier d’une compréhension générale. Je ne pourrais pas dire où va le monde en général et la musique non plus…

Question : Je vais amener un peu de controverse… Si les progrès de la musique numérique continuent, nous pouvons imaginer que l’on crée en numérique et que l’on remplace les virtuoses. N’existe-t-il pas un danger pour la musique elle-même ?

Jean-Claude Risset : Je dirais que le danger, ou même la catastrophe, est déjà survenu à l’apparition de l’enregistrement de qualité et du cinéma parlant. De très nombreux musiciens interprètes ont été mis au chômage du jour au lendemain lorsque le cinéma est devenu sonore. A l ‘époque du cinéma muet, il y avait un pianiste dans chaque salle de cinéma. J’habite Marseille : des chansons à grand succès telles que la Canebière ou une partie de pétanque ont été écrites par un pianiste de cinéma qui s’est retrouvé au chômage et qui s’est alors mis à composer des chansons.
Il est extrêmement difficile d’imiter par ordinateur un instrumentiste de qualité dans tous les détails de son interprétation. Vous avez peut-être entendu parler d’une grande supercherie concernant les enregistrements publiés sous le nom de la pianiste anglaise Joyce Hatto : en réalité, ces enregistrements étaient recomposés d’après des enregistrements piratés d’autres pianistes, ce qui est bien plus facile que de synthétiser des imitations.
Je crois donc que le danger ne provient pas réellement de la perfection qu’on prête aux ordinateurs. Ainsi l’imitation par synthèse de la voix humaine a fait l’objet de travaux de la part des chercheurs depuis le début, mais nous en connaissons si bien les particularités que les éventuels défauts de synthèse nous apparaissent immédiatement. Les réussites d’imitation de la voix chantée sont rares – on peut citer les synthèses de John Sundberg ou Xavier Rodet et l’œuvre Phone de John Chowning. Les Bell Laboratories ont travaillé pour créer une parole synthétique, mais c’est si difficile que ce n’est pas là sans doute qu’est le point fort de l’ordinateur, en tout cas avec les méthodes actuelles. Jean-Marie Souriau disait cependant : « nous n’en sommes qu’au tout début de nos tractations avec l’informatique. » Peut-être mettra-t-on en œuvre des méthodes innovantes. On peut imaginer des logiciels ou des méthodes d’apprentissage qui ne soient pas seulement des apprentissages statistiques souvent utilisés dans la reconnaissance des formes, mais plutôt de véritables ontogénèses de programmes, de même qu’un enfant met des années à apprendre à parler... Il existe des recherches en ce sens. Ainsi les algorithmes génétiques sont devenus une méthode de calcul courante. David Wessel a mené des expériences d’utilisation d’algorithmes génétiques en composition musicale qui sont très intéressantes, mais pas encore très abouties.

vendredi 20 décembre 2013, par HUCHERY Mélissa