Lorsque l'intelligence artificielle compose des mélodies authentiques

© 2017 EPFL / Alain Herzog

© 2017 EPFL / Alain Herzog

Un nouvel algorithme développé par des scientifiques de l’EPFL, appelé « Deep Artificial Composer », est capable de générer des mélodies d’un style de musique choisi. À l’avenir, ce compositeur artificiel pourrait créer de la musique pour instruments multiples, de manière convaincante et à la volée, avec des applications possibles aux jeux vidéo ou comme outil d’aide à la création pour les compositeurs.


Le Deep Artificial Composer, dit « DAC », génère des mélodies inédites dans le style des musiques folkloriques traditionnelles irlandaise ou klezmer (d’Europe de l’Est), et ce sans plagiat puisque les mélodies générées sont aussi authentiques que celles d’un compositeur humain. Les résultats du projet ont été présentés en avril cette année lors de la conférence Evostar.

Le DAC produit en fait des partitions musicales, et ne génère pas de fichier audio. « Le DAC est capable de produire des mélodies complètes et inédites, dotées d’un début et d’une fin, et avec des caractéristiques particulières du genre musical choisi », nous explique Florian Colombo, scientifique à l’EPFL qui a développé l’outil d’intelligence artificielle sous la direction de Wulfram Gerstner, qui est à la tête du Laboratoire de Neurosciences Informatiques.

« A ma connaissance, » poursuit Florian Colombo, « c’est la première fois qu’un réseau de neurones artificiels produit des mélodies à la fois entières et convaincantes. Nous fournissons aussi un outil qui évalue l’authenticité du nouveau morceau de musique. »

La notion de création musicale informatisée apparait pour la première fois dans la littérature au XIXème siècle, lorsque la mathématicienne anglaise Ada Lovelace décrit une « Machine Analytique » qui pourrait être programmée afin de résoudre les problèmes les plus complexes, comme par exemple composer de la musique. La puissance de calcul des machines modernes, ainsi que la quantité prodigieuse de partitions numérisées, rendent aujourd’hui bien réelle la composition musicale automatisée.

En règle générale, l’intelligence artificielle (IA) est déjà capable de composer des partitions musicales, en faisant souvent appel à la théorie musicale. Ce que le DAC a d’innovant, c’est que l’IA apprend à composer des mélodies complètes, du début à la fin, sans notion de théorie musicale, mais en utilisant une grande base de données de musiques existantes. Pas besoin non plus d’intervention humaine en post-production.

Extraire des styles de musique en faisant appel aux probabilités

Chaque style de musique possède ses propres règles, et les techniques actuelles de composition musicale informatisée se basent souvent sur le langage musical occidental d’harmonie et de contrepoint. Or l’algorithme du DAC de l’EPFL évite entièrement l’usage de la théorie musicale, déterminant plutôt ses propres règles de composition à partir de distributions de probabilités qui sont extraites de mélodies existantes par des réseaux de neurones artificiels. Il suffit pour cela de faire appel aux cartes graphiques, et à leur pouvoir de calcul décuplé, pour une vitesse près de dix fois supérieure à celle des ordinateurs standards.

Afin d’extraire un style de musique donné, le compositeur virtuel apprend comment un morceau passe d’une note à l’autre, devinant la probabilité de la hauteur de la prochaine note et sa durée. L’algorithme s’entraîne ensuite sur plusieurs partitions du style choisi, afin d’améliorer sa capacité à prédire correctement la hauteur et la durée de la note suivante.

L’entraînement se termine lorsque le DAC atteint des valeurs cibles de performance de prédiction, c’est-à-dire lorsque 50% de hauteur de notes et 80% des longueurs de notes sont prédites correctement. À ce niveau, le compositeur artificiel est prêt à générer de nouvelles mélodies, une note à la fois. Le DAC construit une suite de notes qui ressemble du début à la fin, de la première note à la longueur du morceau, au groupe de mélodies utilisées en phase d’entraînement. On peut écouter ici une mélodie du DAC basée sur des mélodies irlandaises et klezmer, et interprétée au violoncelle par Florian Colombo.

Certes, le DAC est capable de composer des mélodies avant de passer par une phase d’entraînement, mais crée alors des mélodies peu convaincantes, même pour une mauvaise oreille musicale. Lorsqu’il dépasse les valeurs cibles, les mélodies se rapprochent de mélodies existantes. Le DAC est également capable de déterminer lui-même si la composition est assez authentique, en comparant des phrases de notes avec des formes enregistrées dans la base de données. De même, l’algorithme peut définir le style de la composition qu’il a créée, soit irlandais ou klezmer dans le cas présent.

La génération musicale ne se limite pas qu’aux musiques folkloriques traditionnelles irlandaises et klezmer, et n’importe quel style peut être utilisé. C’est simplement que beaucoup de mélodies de ces deux genres sont déjà numérisées et faciles d’accès.

Un aperçu du cerveau humain

Le pouvoir de calcul de l’intelligence artificielle est dû à un type de réseaux de neurones artificiels dénommé longue mémoire à court-terme (ou LSTM pour l’anglais « long short-term memory »), inventé il y a 20 ans à l’IDISA à Lugano. Ce type de réseaux a déjà fait ses preuves dans le domaine de la reconnaissance du langage, et est largement utilisé dans les logiciels des géants Google, Apple et Microsoft.

Comme nous explique Wulfram Gerstner : « Le succès du DAC nous permet d’entrevoir comment fonctionne le cerveau humain. Pour pouvoir créer de la musique il faut des réseaux de neurones avec une mémoire sur plusieurs échelles de temps. Ceci implique que la capacité du cerveau humain à conserver de l’information, même après une longue période de temps, est un aspect clé du processus de composition musicale. »

D’après Florian Colombo et Wulfram Gerstner, le projet est encore à un stade préliminaire, puisque le DAC se limite par exemple aux compositions à une seule voix. Florian Colombo travaille déjà au développement d’un compositeur virtuel polyphonique, et espère un jour pouvoir générer une partition pour un orchestre entier.


Auteur: Hillary Sanctuary

Source: EPFL