New AI Film Scoring Technique Uses MusicGen, GPT-4 and a DAW
La nouvelle technique de musique de film IA utilise MusicGen, GPT-4 et un DAW
Cette année, les débats sur l’IA dans le domaine de la musique se sont largement concentrés sur la rémunération des artistes et l’utilisation non autorisée des voix de célébrités. Des chansons comme Heart On My Sleeve ont poussé les grands labels à se démener pour créer des cadres juridiques qui protègent leurs résultats.
Mais dans un avenir proche, les compositeurs de films pourraient se retrouver dans une situation similaire. À mesure que les modèles d’IA générative permettent d’obtenir une production musicale de longue durée et de haute fidélité, les compétences autrefois convoitées en matière de musique de film pourraient être dévalorisées.
Contrairement aux artistes de musique pop traditionnels, les compositeurs pourraient avoir du mal à obtenir le même type de représentation juridique. Pour rester compétitives, elles devront peut-être explorer des outils génératifs et les adopter dans leurs flux de travail, le cas échéant.
Les travaux de recherche universitaires sur la musique de film générative ont tendance à se concentrer sur la théorie et les systèmes privés plutôt que sur les produits et techniques accessibles au public.
En avril 2024, le DAW Audio Design Desk « son pour vidéo » a annoncé qu'il intégrerait son outil de génération de musique AI SoundGen directement dans l'éditeur. L'application Web incluait déjà une fonctionnalité d'intégration vidéo, mais c'est le premier signe clair de l'entrée de l'audio IA dans le créneau des logiciels de production cinématographique.
Dans cet article, nous fournirons un didacticiel étape par étape que toute personne utilisera pour commencer à composer des films avec l'intelligence artificielle. Il s'agit d'un pipeline complet allant de la détection de signaux et de la génération de musique au nettoyage de l'audio basse fidélité dans une DAW et à l'organisation de votre partition sur la chronologie d'un éditeur vidéo.
Avant d'entrer dans le didacticiel, examinons les grèves d'Hollywood et leur impact sur les licences de synchronisation musicale, le retrait par Discovery des redevances américaines pour les compositeurs de films et une prédiction sur l'impact des générateurs vidéo commerciaux d'IA sur la musique de film de base. Plus loin dans l'article, j'aborderai les défis persistants dans la composition de l'IA que notre technique proposée n'a pas réussi à résoudre.
Table des matières
L'acteur et écrivain hollywoodien fait grève auprès des musiciens
Les écrivains et acteurs d'Hollywood sont en grève depuis des mois, exigeant de meilleurs salaires et s'opposant à l'utilisation abusive de l'intelligence artificielle dans leur industrie. Malheureusement, ces grèves pourraient ne pas se terminer favorablement .
En juillet 2023, Netflix a suscité une vague de critiques pour avoir proposé un poste de chef de produit IA avec un salaire compris entre 300 000 et 900 000 dollars. De nombreux acteurs de la guilde gagneraient moins de 26 000 dollars par an. L’écart salarial est insultant, mais si les studios de cinéma peuvent générer du contenu d’IA de qualité à grande échelle, ils estiment que le retour sur investissement sera important.
Comme l'a rapporté Pitchfork Media en août, les superviseurs musicaux qui fournissent l'audio pour les films ressentent l'impact de ces grèves. En tant que pigistes, leurs tentatives de se syndiquer ont été refusées. La plupart des musiciens professionnels dépendent des licences de synchronisation pour payer leurs factures, mais les opportunités de placement à la télévision et au cinéma ralentissent en raison du déclin du contenu.
"Ce n'est qu'au cours des dernières semaines que nous avons commencé à nous dire : OK, ils sont à court de produits pour lesquels acheter de la musique sous licence", déclare Jen Pearce, fondatrice et PDG de Low Profile.
Les chansons sous licence entrent dans la catégorie « bande originale » de la musique de film. La même chanson peut être utilisée sur plusieurs placements, multipliant ainsi le potentiel de gains de l'artiste. Malheureusement, on ne peut pas en dire autant des compositeurs qui écrivent des musiques originales pour un film. Ils ont moins de possibilités de tirer un revenu significatif de leur travail, même s’ils sont hautement qualifiés dans leur métier.
Warner Discovery retire des redevances aux compositeurs
Les compositeurs de films sont non seulement aux prises avec le déclin du contenu, mais se battent également pour le paiement des redevances musicales depuis que Discovery a annoncé son passage aux licences de source directe fin 2019. Les musiciens du réseau de Discovery ne perçoivent plus de redevances américaines pour le futur et le passé. travail – ils ne collectent que des frais initiaux et des redevances étrangères.
Lorsque la génération de musique IA au format long s’imposera, il deviendra plus facile que jamais de générer des musiques de films. Cette compétence autrefois convoitée pourrait être adoptée par une cohorte plus jeune, non liée aux flux de travail existants, libre de dettes universitaires et dépourvue du chagrin émotionnel du déplacement. En d’autres termes, les compositeurs existants devront rester flexibles et s’adapter au nouveau climat créatif pour conserver leur emploi.
Les cinéastes indépendants IA auront besoin de musiques de films abordables
Pendant ce temps, sur Internet, des sociétés de logiciels vidéo génératifs comme Gen-2's Runway et Pika Labs ont commencé à proposer un service permettant de créer de courts clips vidéo basés sur la saisie de texte. À mesure que la durée du clip évolue vers un contenu plus long, je peux imaginer des cinéastes expérimentaux publier et monétiser du contenu original via des plateformes comme YouTube.
En tant que mouvement populaire, les cinéastes indépendants en IA ne seront pas intéressés à payer des frais exorbitants pour une licence de synchronisation. Il y aura une demande croissante de musiques de films engageantes et de haute qualité générées par l’intelligence artificielle.
La législation réprimera les modèles commerciaux d’IA musicale qui ont été formés sur de la musique sous licence, en imposant des rémunérations et des parts de bénéfices. En réponse, nous assisterons à une augmentation correspondante du nombre de modèles formés illégalement et disponibles sur le dark web. Pensez à Pirate Bay et BitTorrent, mais pour la création plutôt que pour la consommation.
Pendant que tout cela se déroule, les stations de travail audio génératives légales et les VST IA deviendront également plus courants. Ils rationaliseront les flux de travail DAW traditionnels et aideront les compositeurs de tous niveaux à accélérer leur flux de travail. Les producteurs de musique seront en mesure de générer et de construire des musiques de films à un rythme et à un coût plus raisonnables.
Écrire des musiques de films avec GPT-4, MusicGen et un DAW
Passons à une démonstration. Dans cette section, je partagerai un flux de travail possible pour la composition de films avec l'IA qui pourrait être mis en pratique aujourd'hui. Cela ne nécessite aucune connaissance particulière en programmation et peut être réalisé avec un logiciel gratuit d’entrée de gamme.
Notre vidéo de démonstration ci-dessus met en évidence les premières étapes de ce processus. Le reste du flux de travail sera intuitif pour les producteurs de musique habitués à travailler dans une DAW.
Ouvrez ChatGPT ou d'autres hôtes LLM comme Perplexity
Collez l'invite initiale que nous fournirons plus loin dans cet article. L'invite expliquera au LLM que vous recherchez une invite texte-musique pour capturer l'ambiance d'une scène.
Collez un script ou une description écrite de la scène . S'il s'agit d'un film connu et que vous n'avez pas accès au scénario, le LLM pourra peut-être vous résumer la scène. Vous pouvez également taper un paragraphe de texte décrivant la scène, au lieu d'un script.
Copiez l'invite texte-musique de votre LLM et collez-la dans MusicGen . Si vous avez déjà une idée de mélodie ou d'arrangement, vous pouvez la télécharger comme condition audio pour guider la sortie musicale.
Enregistrez la musique générative sur votre appareil local.
Importez la vidéo et la musique dans un éditeur vidéo doté de capacités de conception sonore. Je recommande personnellement Audio Design Desk , mais dans notre démo, j'ai utilisé iMovie pour souligner la facilité et l'accessibilité de la méthode.
Synchronisez votre musique avec la scène. Vous pouvez utiliser une bibliothèque de bruitage pour ajouter des couches d'effets sonores à la scène.
Si la musique ne vous convient pas, revenez à MusicGen et réessayez. Une fois que vous avez trouvé la musique que vous aimez, importez la musique générée dans votre DAW.
Utilisez un outil audio vers midi comme Samplab 2 . Appliquez une séparation des tiges et importez chaque instrument sur des pistes MIDI distinctes. Utilisez des instruments virtuels qui reflètent l'audio original et améliorent la qualité du son.
Nettoyez le MIDI transcrit pour chaque piste de votre piano roll si nécessaire.
Certains DAW, comme Logic Pro X, incluent une vue partition qui convertira le MIDI en partitions . Pour l'instrumentation en direct, vous avez la possibilité d'imprimer la partition et de la confier à un ensemble live pour des enregistrements en studio.
Exportez le fichier audio final dans l’éditeur vidéo. Échangez-le contre la piste de scratch originale générée par MusicGen.
Pour mettre cette technique en pratique, nous avons besoin d’une compréhension générale du fonctionnement de la musique de film. Alors avant de détailler chaque étape du didacticiel, faisons un petit détour pour revoir les bases de la composition de scènes de film.
Séances de repérage et création de feuilles de repère
À la base, le « repérage » de la musique de film est le processus de collaboration entre le réalisateur du film, le compositeur et parfois le monteur musical, au cours duquel des décisions sont prises sur l'endroit où la musique sera placée dans le film, quel impact émotionnel elle devrait avoir et d'autres considérations. . Il s'agit d'une étape essentielle de la post-production qui garantit que la musique complète et améliore de manière appropriée les arcs narratifs, rythmés et émotionnels de l'histoire.
Une séance de repérage typique consiste à regarder le film et à déterminer les points d'entrée et de sortie pour chaque signal musical. Le point « d'entrée » fait référence au moment où un morceau de musique commence, tandis que le point « de sortie » indique le moment où il se termine.
Au cours de la séance, le réalisateur et le compositeur discutent du ton émotionnel souhaité pour chaque scène, si elle doit être soulignée par de la musique ou laissée silencieuse, ainsi que de tout autre motif ou thème musical spécifique qui peut être pertinent. La durée, le style et le type de musique requis sont déterminés et le compositeur prend des notes pour guider le processus de composition.
Après repérage, le compositeur dispose d'une feuille de route des besoins musicaux du film. Ils se retireront pour composer la musique, fournissant des maquettes ou des démos au réalisateur pour obtenir ses commentaires avant de finaliser la partition.
Les lignes directrices de base pour créer de la musique de film
Selon le compositeur de films classiques Aaron Copland, la musique de film doit remplir au moins l'une des cinq fonctions suivantes :
Créer une atmosphère.
Mettre en valeur les états psychologiques des personnages.
Fournir un remplissage de fond neutre.
Construire un sentiment de continuité.
Entretenir la tension puis la terminer par un sentiment de clôture.
Lorsque nous entreprenons de créer de la musique IA pour des scènes d’un film ou d’une émission de télévision, ces objectifs doivent rester une priorité. De nombreux livres ont été écrits sur la musique de film, mais mon préféré est Hollywood Harmony de Frank Lehman.
Nous reviendrons sur les travaux de Lehman à la fin de cet article, lorsque nous parlerons de leitmotivs et de transformation thématique.
Pratiquer la technique complète de composition de musique de film IA en 12 étapes
Félicitations, vous êtes arrivé au didacticiel principal. Examinons cette technique en détail afin que vous sachiez exactement quoi faire.
Étape 1 : Choisissez un LLM (ChatGPT / Perplexity)
Le moyen le plus simple de commencer est d'utiliser un outil gratuit comme ChatGPT ou le Llama LLM hébergé sur Perplexity . Une fois que vous les avez ouverts dans votre navigateur, démarrez une nouvelle discussion.
Étape 2 : Préparez votre LLM pour la tâche de repérage musical
Le LLM a besoin d’une introduction simple pour comprendre la tâche à accomplir. Je vais vous fournir un exemple ici et vous pourrez l'affiner ou écrire le vôtre :
Lisez le scénario du film suivant. Pour chaque scène, analysez l'émotion, le rythme, le décor et les événements significatifs. Sur la base de votre analyse, fournissez une invite de conversion texte-musique qui résume l'ambiance et l'essence de la scène. Cette invite doit être suffisamment descriptive pour guider un générateur de texte en musique dans la production d'une musique qui correspond à l'atmosphère de la scène.
Étape 3 : Coller un script ou une description d'une scène
Pour rendre cette procédure plus concrète, nous ferons référence à une scène du film Departed de Martin Scorsese de 2006 . J'ai choisi ce clip ci-dessous car il n'y a pas de musique et des effets sonores minimes. C'est un tournant tendu et important dans le film. Dans une étape suivante, vous l'entendrez à nouveau avec de la musique.
Au lieu de rechercher le script original de Departed , j'ai demandé à GPT-4 de résumer les événements de la scène. Nous pouvons copier ce texte et l'insérer dans notre LLM amorcé afin de récupérer les signaux musicaux que nous avons demandés.
Voici le résultat de la combinaison de l'amorce avec le résumé du script ci-dessus. Si cela semble bon, continuez et copiez votre invite de conversion texte-musique dans le presse-papiers :
Étapes 4 et 5 : Collez l'invite de conversion texte-musique dans MusicGen
Accédez à MusicGen et collez l'invite musicale de votre scène. Prolongez la durée de la musique générée à 30 secondes, appuyez sur le bouton Soumettre et attendez quelques minutes. Une fois la piste générée, appuyez sur les points de suspension du widget de lecture et téléchargez la piste. Vous pouvez cliquer sur Soumettre à plusieurs reprises pour générer autant de contenu musical que nécessaire.
Étape 6-8 : Importez la vidéo et la musique dans un éditeur vidéo
Importez votre vidéo dans un éditeur vidéo et commencez à créer les pistes MusicGen, en les découpant pour qu'elles s'emboîtent les unes dans les autres et correspondent à l'ambiance de la scène.
Pour illustrer la simplicité de ce processus, nous avons utilisé l'outil de montage vidéo le plus basique, iMovie. Si vous envisagez d'ajouter des couches de bruitage à votre film, nous vous recommandons d'utiliser une DAW de conception sonore comme Audio Design Desk .
Étape 9 : Convertir l'audio en MIDI dans une DAW avec Samplab 2
Pour améliorer la qualité audio, faites glisser votre fichier audio dans une DAW et utilisez un logiciel de transcription audio vers MIDI comme Samplab 2 pour la séparation des tiges. Vous serez en mesure de séparer les mélodies de basse et de lead, accélérant ainsi considérablement le processus de transcription. C’est bien plus simple que d’essayer de le retranscrire à l’oreille. Faites glisser le fichier MIDI sur une piste MIDI de votre DAW comme indiqué ci-dessus.
Étape 10 : Nettoyer le MIDI et appliquer des instruments logiciels
Une fois que vous avez séparé chaque section d'instrument, ouvrez votre piano roll et modifiez les notes selon vos besoins. Il peut être utile d'attribuer vos instruments virtuels à l'avance. Samplab inclura la vélocité dans sa transcription, en commençant par l'instrument préféré, il sera plus facile de tester les articulations et de trouver vos niveaux de volume idéaux au niveau des notes.
Étape 11 : Nettoyer le MIDI et appliquer des instruments logiciels
Si vous utilisez une DAW avec une vue partition, comme Logic Pro, vous pouvez imprimer la partition et la transmettre à des musiciens en direct. Un enregistrement en studio de musique orchestrale sonne toujours mieux qu’un enregistrement virtuel.
Étape 12 : Échangez de la musique haute fidélité dans l'éditeur vidéo
Revenez à votre éditeur vidéo et échangez le nouvel enregistrement musical. Comme je l'ai mentionné précédemment, je recommande d'utiliser Audio Design Desk si vous envisagez d'ajouter des couches de bruitage et de conception sonore. Ils fournissent plus de 70 000 effets de niveau studio, notamment des élévateurs, des drones, des impacts, etc. Avec l'échange à chaud, vous pourrez itérer rapidement.
C'est tout ce qu'on peut en dire. Ce flux de travail n'est pas entièrement automatisé, mais il met en évidence un cas d'utilisation pratique que tout producteur de musique peut commencer à expérimenter dès aujourd'hui.
Imminence de la vision par ordinateur et du deep learning
Le processus en 12 étapes ci-dessus pourrait être rendu encore plus efficace grâce à la vision par ordinateur et au deep learning. L'analyse du contenu vidéo existe depuis des années. La reconnaissance de base des objets et des actions est une fonctionnalité courante, mais il leur manque les riches capacités descriptives requises pour décrire des scènes de film.
L'outil de sous-titrage d'images Azure AI de Microsoft , illustré ci-dessus, peut reconnaître des objets et des interactions comme un homme sautant sur une planche à roulettes. Il manque des nuances émotionnelles et un contexte plus profonds, nous ne pouvons donc pas encore passer dans des scènes de film et générer des invites de synthèse texte-musique à grande échelle.
4 défis dans la musique de film générative par IA
Il reste plusieurs défis que notre tutoriel actuel ne résout pas. Nous ne prétendons pas avoir résolu la musique de film basée sur l’IA et je ne pense pas que ces problèmes disparaîtront du jour au lendemain. Cependant, en identifiant chacun de ces éléments, nous pourrons peut-être commencer à trouver des solutions qui aideront les compositeurs à travailler plus efficacement.
Problème 1 : Limites au niveau de la couche d'attention
Les modèles publics les plus avancés d'aujourd'hui, comme MusicLM et MusicGen , peuvent générer jusqu'à trente secondes de musique de basse à moyenne fidélité avant de perdre la concentration. Les limitations au niveau de la couche d'attention ont posé des problèmes, même pour la musique de courte durée, comme une chanson de trois minutes.
La bibliothèque Python AudioCraft sous-jacente de Meta possède une méthode generate_continuation qui s'étend au-delà du clip initial de 30 secondes. Il n'est pas actuellement en mesure de conserver une compréhension cohérente des thèmes qu'il a générés ou de les répéter comme le ferait un compositeur expérimenté.
Problème 2 : transcription d'arrangements à partir d'audio brut
La synthèse audio générative est encore loin de la qualité studio. La musique de l'IA doit être transcrite et recréée dans une DAW afin que les ingénieurs du son puissent lui donner leur touche professionnelle.
Comme nous l'avons souligné dans le didacticiel, les logiciels audio vers MIDI comme Samplab peuvent appliquer la séparation des tiges et transcrire la musique brute en MIDI. Sans un service comme celui-ci, nous devrions nous fier à l’entraînement de l’oreille et reconstruire chaque couche d’instruments à la main.
Même avec Samplab, les utilisateurs ont toujours besoin d'un certain degré de compétences pour utiliser une DAW, éditer efficacement le MIDI, appliquer la conception sonore, améliorer le mixage, etc.
Problème 3 : Leitmotivs et variations dans les musiques de films
L’art d’écrire des thèmes mémorables est de plus en plus rare, même chez les compositeurs de films. Avec des salaires en baisse et des délais fous, il ne reste que peu de temps aux compositeurs pour rêver et imaginer de nouveaux thèmes.
Les logiciels d'IA peuvent cracher une grande quantité de musique, mais ils n'ont pas encore démontré une réelle capacité à écrire des leitmotivs convaincants pour les personnages et les environnements. Les types de développement thématique entendus dans des films classiques comme Le Seigneur des Anneaux, Harry Potter et Star Wars nécessitent une préparation harmonique minutieuse avec des progressions d'accords qui font ressortir les états émotionnels souhaités en fonction de la scène où ils se reproduisent.
Le modèle MusicGen de Meta prend en charge la possibilité de télécharger une condition audio et d'utiliser des invites textuelles pour la réimaginer dans de nouveaux styles. Nous avons décrit cette technique en détail dans notre article sur la chanson de rêve .
L'ensemble de formation de MusicGen comprend des métadonnées sur l'ambiance et l'instrumentation, ce qui signifie que les invites peuvent inclure des notes sur le ressenti et l'arrangement. Ces éléments contribueront à orienter la réharmonisation, ce qui constitue un pas dans la bonne direction.
Néanmoins, les compositeurs de films devront toujours écouter et évaluer ces arrangements pour s’assurer qu’ils produisent l’effet escompté. L’humain et l’IA entrent ainsi dans une relation de collaboration.
Problème 4 : Harmonie hollywoodienne, théorie néo-riemannienne et boîtes noires
Comme le souligne l'auteur Frank Lehman dans son livre Hollywood Harmony , les musiques de films ne se limitent pas aux mélodies et aux progressions d'accords. Certains des meilleurs compositeurs de films utilisent une technique de modulation chromatique, mieux comprise à travers le prisme de la théorie néo-riemannienne , pour évoquer un ordre supérieur de signification musicale sémiotique que le public ressent et reconnaît inconsciemment.
Ces méta-motifs ne sont pas liés à une armure, une gamme ou un centre tonal particulier, mais plutôt à une série de transformations par étapes qui sont délibérément omises. Ils produisent des sauts chromatiques entre les accords qui sont compris par l'oreille en raison de relations mathématiques sous-jacentes.
Les compositeurs utilisent ces progressions d'accords spéciales depuis des décennies et elles font désormais partie du lexique de la musique de film, mais les modèles d'IA peuvent-ils être entraînés sur elles ?
La chercheuse doctorante et compositrice Sara Cardinale a beaucoup écrit sur cette intersection dans un article intitulé Théorie néo-riemannienne et musique générative de films et de jeux vidéo . Son approche fait appel à une musique générée de manière procédurale avec un système qu'elle appelle GENRT .
Ces techniques basées sur des règles diffèrent des modèles d’IA comme MusicGen, mais n’en sont pas moins intéressantes. J'ai contacté Cardinale pour avoir son avis et elle a gentiment répondu ce qui suit :
"Incorporer explicitement des connaissances de domaine telles que NRT dans les modèles d'IA est une question importante mais ouverte. En fin de compte, cela revient à imposer un modèle antérieur plus fort , mais la meilleure façon de mettre en œuvre cela n'est pas encore tout à fait claire."
L'idée de Cardinale d'imposer des priorités plus fortes au modèle d'IA s'aligne sur les recherches du professeur Lav Varshney de l'Université de l'Illinois, qui a publié cet article en novembre 2022 démontrant que les modèles d'IA pourraient être formés sur les principes fondamentaux de la théorie musicale en introduisant des ordres partiels sur les éléments d'information pour former un ensemble d'informations. treillis.
Ressources pour en savoir plus sur la musique de film
Pour les lecteurs qui ont apprécié le didacticiel et souhaitent en savoir plus sur l'art de la musique de film, je recommande vivement le podcast Art of the Score . C'est un regard décontracté et conversationnel sur les films classiques et la musique qui les a réalisés. Vous pouvez également consulter ce documentaire primé, Score , pour mieux vous familiariser avec l'industrie.
La plupart des compositeurs de films étudient ce métier à l’université, mais Internet propose de nombreuses ressources pour une étude indépendante. Cet article sur Premium Beat fournit un excellent aperçu des musiques de films, de ce qui est impliqué dans leur création et nomme certains des principaux acteurs de l'industrie.
Cette page Web IMDB répertorie leurs 100 meilleurs compositeurs de films , avec des photos et de courtes biographies pour chaque personne. Pour une liste complète des compositeurs de films, cette page Wikipédia sera votre meilleure ressource.
Pour des idées sur la façon de commencer à décrocher un emploi en tant que compositeur de films, consultez cet article de MIDI Film Scoring .
Il vous sera conseillé de commencer par créer une bobine puis de construire votre réseau. C'est une période difficile pour se lancer dans ce domaine, pour les raisons évoquées plus haut dans cet article. Donc, si vous envisagez d’utiliser l’IA, ces voies conventionnelles ne sont peut-être pas pour vous. Essayez d'explorer les serveurs Discord et de rencontrer d'autres créatifs via ces communautés.
Nous vous souhaitons bonne chance !
Commentaires
Enregistrer un commentaire
🖐 Hello,
N'hésitez pas à commenter ou vous exprimer si vous avez des trucs à dire . . .👉