Heute sah ich mir die Neues-Folge vom 17. Januar via Podcast an. Der Schwerpunkt dieser Folge lag auf Sound-Bearbeitung am PC. Ein Beitrag dieser Folge erinnerte mich an diesen etwas älteren XKCD-Comic:1

Worum ging es?

Nun, der findige Programmierer Peter Neubäcker hat ein Programm namens Melodyne geschrieben, mit dem sich — grob zusammengefasst — Tonaufnahmen bearbeiten lassen. Ein neueres Feature2 dieses Programmes ist, einzelne Akkorde und ineinander übergreifende Tonfolgen in ihre einzelnen Töne aufzuschlüsseln, eine Fähigkeit, die wohl bislang noch keinem anderen Soundbearbeitungs-Programm möglich war, und die dem Neues-Team daher ein Beitrag wert war. Die Erweiterung hört auf den Namen DNA, kurz für Direct Note Access. Was hat das Ganze jetzt mit Linguistik und dem obigen Comic zu tun?

Bei Akkorden und Aufnahmen von live eingespielten Instrumenten ist es so, dass mehrere einzelne Töne einander überlagern und nur sehr schwer separat zugänglich sind. Das Programm in der vorgestellten Version ist in der Lage, diese einzelnen Töne zu separieren und individuell zu bearbeiten, ohne, dass die Klangfarbe und -qualität der einzelnen Töne dabei verloren geht. Was der gute Mann im Prinzip gemacht hat, ist das so genannte Segmentationsproblem praktisch zu lösen. Bei gesprochenen Wörtern und Sätzen natürlicher Sprachen lässt sich in den seltenseten Fällen eindeutig sagen, wo ein Laut aufhört und ein neuer beginnt. Die einzelnen Laute innerhalb einer Kette von gesprochenen Lauten — die Segmente — greifen ineinander über, eigentlich genauso wie die einzelnen Töne in einem eingespielten Musikstück. Diese Eigenschaft natürlicher Sprachen stellt nicht nur die Computerlinguistik vor erhebliche Probleme, sondern auch die theoretische Linguistik, deren Modelle in den meisten Fällen3 auf diskreten und einander nicht überschneidenden Segmenten basieren. Ist das Programm in der Lage, einzelne musikalische Töne zu separieren und isoliert zu bearbeiten, sollte es das prinzipiell auch mit den Segmenten natürlichsprachlicher Äußerungen tun können.

Also hab ich mir mal die Demo runtergeladen (Die Vollversion ist mit 350€ für einen bettelarmen Studenten wie mich nicht gerade erschwinglich) und die Segmentationsfähigkeit des Programmes am Wort „Apfelbaum“ getestet. Und, nun ja, immerhin ist das Programm in der Lage, automatisch Silben zu erkennen: Ich kann ohne weiteres jede einzelne Silbe des Wortes nehmen und einzeln bearbeiten, beispielsweise in der Tonhöhe verändern; allerdings nur im Rahmen der chromatischen Tonleitern, man merkt halt doch, wofür das Programm eigentlich konzipiert ist. Die Auflösung der automatischen Segment-Erkennung reicht jedoch nicht aus, um noch tiefer, beispielsweise auf Phonemebene, zu segmentieren. Nun weiß ich allerdings nicht, ob das daran liegt, dass der Algorythmus keine feinere Auflösung erlaubt, oder ob es zwar möglich, für die Zwecke, für die das Programm geschrieben wurde, schlichtweg nicht erforderlich ist. Der nächste Versuch war die Segmentation des Satzes Dies ist ein Apfelbaum mit bewusst minimalistischer Intonation. Auch hier ist das Programm in der Lage, vollautomatisch Silben — und damit auch Wörter — zu segmentieren. Doch auch hier ist mehr als die Silbenstruktur nicht drin. Immerhin ist der Algorythmus dienlich, tatsächliche Sprache von Umgebugsgeräuschen zu trennen.

Mit meinem minimalen Verständnis von automatischer Sprachverarbeitung würde ich behaupten, dass der DNA-Algorythmus in der Tat ein Meilenstein ist, nicht nur im Hinblick auf die maschninelle Verarbeitung von Musik, sondern auch bei der Lösung des Segmentationsproblems in der Phonetik. Ich bin mir relativ sicher, dass DNA, etwas modifiziert, auch in der Lage sein könnte, einzelne Segmente statt nur Silben aus einer Kette von Lauten zu isolieren. Allerdings bezweifle ich, dass der Algorithmus der (sprach)wissenschaftlichen Fachwelt weiterhelfen wird, da die Software kommerziell, der Algorithmus patentiert und der Code closed source ist. Aber immerhin kennt google-scholar ganze zwei wissenschaftliche Publikationen, die sich mit der DNA-Technik auseinandersetzen, auch wenn keiner von denen was mit Phonetik oder automatischer Sprachverarbeitung zu tun hat.

Habe ich eigentlich schon erwähnt, dass ich gegen Software-Patente bin?


1 Der Comic steht unter einer CC-NC-Lizenz und ist im Original hier zu finden.
2 wobei „neu“ hier heisst: DNA wurde bereits bei der Frankfurter Musikmesse 2008 vorgestellt und galt schon damals als Sensation.
3 Es gibt aber auch einige wenige Modelle, die von überlappenden Merkmalen ausgehen, beispielsweise die Optimal Domains Theory Farida Cassimjee und Charles Kisseberth (1998) und darauf aufbauende, welche sich im Prinzip auch auf phonologische Merkmale ausweiten lassen.

Advertisements