Mehrschichtige Analyse und Strukturierung von Musiksignalen
Final Report Abstract
Die automatische Strukturanalyse - die Zerlegung einer gegebenen Audioaufnahme in zeitliche Segmente und die Gruppierung dieser Segmente in musikalisch sinnvolle Kategorien - stellt eines der zentralen Probleme des Music Information Retrieval dar. Aufgrund verschiedener Strukturierungsprinzipien wie zeitliche Reihenfolge, Wiederholungen, kontrastierende Elemente, Variationen und Homogenität ist das Auffinden der musikalischen Struktur eine herausfordernde und oftmals unzureichend spezifizierte Problemstellung. Das Kernziel des METRUM-Projekts war die Entwicklung innovativer Verfahren und Methoden zur automatischen Strukturierung von Musikaufnahmen. Im Gegensatz zu vielen der bisherigen Ansätzen sollten dabei Verfahren entwickelt werden, die unterschiedliche Strukturierungsaspekte simultan berücksichtigen. Im Folgenden wollen wir auf eine aus unserer Sicht sehr interessante, grundsätzliche Erkenntnis eingehen, die wir aus dem METRüM-Projekt gewonnen haben. Die algorithmischen Hauptergebnisse basieren von einer abstrakten Ebene aus gesehen alle auf einer Kombination oder simultanen Betrachtung lokaler und globaler struktureller Aspekte. So wurden zum Beispiel neuartige Strukturmerkmale, die globale Struktureigenschaften des Musiksignals erfassen, mit lokal operierenden Novelty-Berechnungen kombiniert. Weiterhin wurde ein Optimierungsverfahren zur wiederholungsbasierten Strukturanalyse vorgestellt, das lokale Operationen (Pfadextraktion) und globale Aspekte (Transitivität, Segment-Gruppierung) durch eine simultane Optimierung berücksichtigt. Schließlich wurden bei der Konvertierung von Pfad- zu Blockstrukturen global wirkende Eigenwertzerlegungen von Selbstähnlichkeitsmatrizen verwendet, um lokale Pfad- und Blockstrukturen in Relation zu setzten. Dieser Ansatz steht in enger Verbindung mit graphentheoretischen Algorithmen zur Berechnung von Zusammenhangskomponenten. Insgesamt haben wir im METRUM-Projekt festgestellt, dass man durch die simultane Betrachtung globaler und lokaler Eigenschaften vergleichsweise robuste Verfahren erhält, die auch beim Vorliegen von erheblichen musikalischen Variabilitäten noch sinnvolle Strukturanalyseergebnisse erzielen können. Neben diesen algorithmisch-konzeptionellen Einsichten wurden im METRUM-Projekt viele neuartige Ideen für Visualisierungskonzepte zur intuitiv erfassbaren Darstellung struktureller Eigenschaften entwickelt. Diese Visualisierungskonzepte haben sich häufig direkt aus den abstrakten, den Algorithmen zugrundliegenden Datenstrukturen ergeben. Eine weitere für unsere Arbeit wichtige Erkenntnis ist, dass solche Visualisierungen nicht nur tiefere Einblicke in die Arbeitsweisen der Algorithmen und der zugrundeliegenden Daten liefern, sondern auch den Brückenschlag zu Anwendungen in anderen nicht-technischen Disziplinen wie den Musikwissenschaften erheblich erleichtern. In dieser Richtung sehen wir sehr viel Potential für interdisziplinäre Kooperationen im Bereich der Digital Humanities.
Publications
-
A cross-version approach for stabilizing tempo-based novelty detection. In Proceedings of the International Conference on Music Information Retrieval (ISMIR), pages 427–432, Porto, Portugal, 2012
Meinard Müller, Thomas Prätzlich, and Jonathan Driedger
-
A robust fitness measure for capturing repetitions in music recordings with applications to audio thumbnailing. IEEE Transactions on Audio, Speech, and Language Processing, 21(3):531–543, 2013
Meinard Müller, Nanzhu Jiang, and Peter Grosche
-
Automated methods for analyzing music recordings in sonata form. In Proceedings of the International Conference on Music Information Retrieval (ISMIR), pages 595–600, Curitiba, Brazil, 2013
Nanzhu Jiang and Meinard Müller
-
Converting path structures into block structures using eigenvalue decompositions of self-similarity matrices. In Proceedings of the International Conference on Music Information Retrieval (ISMIR), pages 209–214, Curitiba, Brazil, 2013
Harald Grohganz, Michael Clausen, Nanzhu Jiang, and Meinard Müller
-
Strukturanalyse für Musiksignale. In Proceedings of the GI Jahrestagung, pages 2943–2957, Koblenz, Germany, 2013
Meinard Müller, Nanzhu Jiang, Harald Grohganz, and Michael Clausen
-
SM Toolbox: MATLAB implementations for computing and enhancing similarity matrices. In Proceedings of the 53rd AES Conference on Semantic Audio, London, UK, 2014
Meinard Müller, Nanzhu Jiang, and Harald Grohganz
-
Towards efficient audio thumbnailing. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pages 5192–5196, Florence, Italy, 2014
Nanzhu Jiang and Meinard Müller
-
Unsupervised music structure annotation by time series structure features and segment similarity. IEEE Transactions on Multimedia, 16(5):1229–1240, 2014
Joan Serrà, Meinard Müller, Peter Grosche, and Josep Ll. Arcos
-
Fundamentals of Music Processing – Audio, Analysis, Algorithms, Applications. Springer Verlag, 2015
Meinard Müller