Musikzimmer Blog Post: Artificial Intelligence (update)

Willkommen im Musikzimmer! Dies sind die empfohlenen Inhalte, Neuerscheinungen und Veranstaltungsankündigungen.

Artificial Intelligence

AI ist das Teilgebiet der Informatik, das sich mit der Automatisierung kognitiver Funktionen (Wahrnehmung, Kognition) unter Einbezug von maschinellem Lernen befasst. Meist werden kognitive oder Entscheidungsstrukturen aufgebaut und kontextsensibel umgebaut.
Darüber, was «intelligent» ist, ist man sich uneinig. Somit ist AI eher ein Paradigma, eine Idee, als ein wohldefinierter Forschungszweig. Diese Offenheit des Forschungsfeldes verspricht aber auch interessante neue Algorithmen, die auf Musik oder Film angewendet werden können.
Im Folgenden werden einige Paradigmen solcher Algorithmen dargestellt. Unter dem Stichwort «Artificial Intelligence» sind Dokumente und Archivalien versammelt, die entweder AI-Technologie als solche demonstrieren oder mittels ihr bearbeitet wurden.
AI im Rahmen von Distributionsplattformen: automatsiche Erkennung von Genres
Seit mindestens den frühen 2000er Jahren (vermutlich schon vorher) begann man mit AI für die Klassifikation von Genres zu forschen. Die Idee ist, eine Repertoire von Digitalen Musikfiles automatisch aufgrund von musikalischen Merkmalen nach Genres zu sortieren. Einer der führenden Forscher war François Pachet, der damals für Sony Music in Paris gearbeitet hat und der heute für Spotify tätig ist. Vor der Napster Krise und dem Zusammenfall des Tonträgermarktes haben die Labels bereits an die digitale Distribution von Musik nachgedacht. Pachet forschte darüber, wie die Stücke in einem grossen Musikrepertoire mit AI analysiert werden können, um sie dann zu klassifizieren. Vor Augen hatte die Forschung damals eine «intelligente» automatische Genreklassifikation.
Einschätzung der Forschungsresultate: So weit ich (CS) die Forschungsresultate verstanden habe, waren die Erfolge anfangs bescheiden und man ist auf andere Klassifikationen statt Genres ausgewichen. Heute sind Klassifizierungen nach Stimmungen («Moods») dominierend – musikalische «Stimmungen» sind für die Algorithmen einfacher zu erkennen als «Genres».
AI im Rahmen von Distributionsplattformen: Errechnung von Kundenprofilen
AI wird erfolgreich für die Errechnung von Kundenprofilen verwendet. Solche Algorithmen kamen auf kommerzieller Ebene zuerst bei Amazon in den Einsatz («wer x kaufte, kaufte auch Y»). Heute laufen vergleichbare Algorithmen in den wichtigsten und grössten Distributionsplattformen (Youtube, Spotify, Apple Music usw.).
Die führende Firma in beiden Bereichen – Erkennung und Kundenprofile – war/ist The Echo Nest, die 2014 von Spotify aufgekauft und in der Plattfom eingebaut worden ist.
AI in der Musikproduktion
2019 kam PROTO von Holly Herndons heraus. Die Tracks auf dem Album sind mit einer AI-Software mit dem Namen «Spawn» produziert. Spawn ist lernfähig und wurde von Holly Herndons Partner Mat Dryhurst geschrieben.
AI für die Restauration von altem Bildmaterial
Bei der Apollo 11 Doku oder beim Beatles-Film Get Back wurden mit intelligenten Farb- und Ton-Korrekturfiltern restauriert - mit atemberaubenden Resultaten!
deepfake
«Deepfake» ist ein Kofferwort aus den Wörtern «Deep Learning» und Fälschung («Fake»). Dabei geht es um realistsich scheinende Medieninhalte (Foto, Audio und Video), die durch Artificial Intelligence modelliert werden. Dadurch können zum Beispiel Gesichter überlagert werden, so dass jemand wie eine andere Person aussieht oder Stimmen verändert werden, so dass sie klingen wie eine Modellstimme. Diese Technologie wird zu allerlei neuen immersiven Spiel- und Showformaten führen.
Restauration von altem Tonmaterial: demixing und upmixing
AI wird verwendet, um alte Aufnahmen in Mono zu verbessern. Software wie die von der Firma Audionamix kann einzelne Instrumente aus einem Mono- oder Stereo-Track isolieren («demixing», «unmixing»), so dass man die einzelnen Spuren verbessern und neu abmischen kann – ehemalige Mono-Aufnahmen nun auch in Stereo.
Auf diese Weise wurdn zum Beispiel Aufnahmen von Édith Piaf für den Soundtrack des Films La Vie en Rose (2007) neu aufgearbeitet.
Die neusten Technologien im «demixing» und «upmixing» machen ebenfalls von «deepfake» Algorithmen Gebrauch. Audioshake können einen Song in so genannte «stems» hinunterbrechen – Spuren isolierter Instrumente, so dass man sie remixen, sampeln oder in einem Mashup verwenden kann.
Der ehemalige Software-Engineers der Abbey Road Studios, James Clarke, gründete die Firma Audio Research Group, die bei der Restaurierung, dem Upmixing von Alben wie Beatles: Sgt. Pepper's Lonely Hearts Club Band, Beatles: Live At The Hollywood Bowl, Rolling Stones: On Air, David Bowies Legacy, Cat Stevens: Matthew And Son beteiligt war. Die Aufnahmen vom Hollywood Bowl zum Beispiel konnten, indem das Publikumsgeschrei als eigenes Instrument modelliert worden ist, zurück in den Hintergrund und die Band in den Vordergrund gemsicht werden.
Im Consumer-Bereich bietet Audionamix die Online-Software «xtrax-stems» an, die Stimmen, Schlagzeug und Bass von anderen Instrumenten trennt. Aber das fuktioniert gegenwärtig noch nicht zur vollsten Zufriedenheit. Native Instruments verwendet die selbe Technologie für Traktor Kontrol.
Die Technologie wird über kurz oder lang dazu führen, dass Apps in Echtzeit die Stimmen von Rapper*innen, Pop- und Rocksänger*innen durch die Stimme der User austauschen können. Spotify arbeitet an einem Projekt mit dem Namen SingAlong.
Links
– Wikipedia: Artikel: Geschichte der künstlichen Intelligenz
– Daryl Keating: The Artificial Intelligence Takeover of Music in 2019 (Exclaim!, 12. Dezember 2019)
– Signal Separation Evaluation Campaign (SISEC) (Community Site, die aber seit 2018 nicht mehr aktualisiert wurde)

Link zum Inhalt: [M]