Enhancements for Networked Music Performances
Publication date
2018
Document type
PhD thesis (dissertation)
Author
Fink, Marco
Advisor
Granting institution
Helmut-Schmidt-Universität / Universität der Bundeswehr Hamburg
Exam date
2018-04-27
Organisational unit
Part of the university bibliography
✅
DDC Class
620 Ingenieurwissenschaften
Abstract
The availability and capability of today’s internet allow several novel challenging interactive multimedia applications like Networked Music Performances (NMP). A Networked Music Performance is an online artistic collaboration with musicians located at different geographic locations connected using the internet. While offering manifold artistic possibilities, many technical challenges like the resulting latency and the possibility of packet loss have to be considered. This work depicts three enhancements for NMP applications which improve error robustness, the algorithmic delay, and the spatial listening experience, respectively. To counteract the possibility of packet loss or network jitter-caused tardy arrival of packets, this work derives two methods to conceal errors during audio replay at the receiver side. The first, auto-regressive model-based variant facilitates concealing the audible impact of missing packets with high quality but is computationally expensive. Several ways of computing the auto-regressive model are presented and compared. The second method, based on wave-form substitution, constitutes an efficient, cheap alternative. The proposed methods are evaluated subjectively with a listening test and objectively with measurements of perceptual quality. The application of audio codecs in NMP sessions is inevitable in most scenarios due to the restricted data rate and in particular the upload rate of private internet accesses. Besides reducing the data rate the codec must feature a small algorithmic latency to restrict the overall latency to a certain extent. A novel audio coding approach which features smaller delays than widely used low-delay codecs and a clearly reduced data rate in contrast to delay-less codecs is presented. It is constructed using the Adaptive Differential Pulse Code Modulation (ADPCM) codec approach in subbands in combination with a Vector Quantizer (VQ) resulting in the Vector-Quantized Adaptive Differential Pulse Code Modulation (VQ-ADPCM) codec. The proposed codec is capable of encoding broadband audio with a data rate of 64 kbit/s and algorithmic delay of about 1 ms. The perceptual quality is compared to well-known codecs using perceptually motivated measurements. The last contribution is intended to improve the acoustic spatial scenery within a NMP. For this purpose, a pseudo stereo conversion method providing a broad stereo panorama for single channel sound sources is derived. The method enhances the spaciousness of the stereo mix at the receiver without adding timbral coloration or reverberation and therefore offers an improved listening experience for NMP participants. The proposed method is based on the design of a complementary filter pair, which can be applied in time- and frequency-domain. Additionally, the integration within a virtual surround mixer based on Head-Related Impulse Responses (HRIRs) is demonstrated. Virtual surround mixing allows the arbitrary positioning of several sound sources in a virtual room. The extension with the proposed pseudo-stereo approach even facilitates to define sound sources of a certain size instead of single point sources. The three proposed enhancements are purely based on digital signal processing and therefore can be implemented in the software layer of any NMP system without demanding any changes to the actual musical performance, the utilized hardware, or the available network structure.
Die weitreichende Verfügbarkeit und Leistungsfähigkeit des heutigen Internets erlaubt einige sowohl neuartige als auch herausfordernde interaktive Multimediaanwendungen wie die sogenannte Networked Music Performance (NMP). Eine NMP beschreibt eine künstlerische Online-Kollaboration von Musikern, die räumlich getrennt, aber durch das Internet verbunden sind. Dieser Ansatz erlaubt vielfältige künstlerisch Möglichkeiten. Allerdings müssen auch viele technische Schwierigkeiten, wie die Übertragungslatenz und die Möglichkeit von Paketverlusten, in Betracht gezogen werden. Diese Arbeit zeigt drei Erweiterungen für NMP-Anwendungen auf, welche jeweils die Fehlerrobustheit, die Übertragungslatenz und das räumliche Hörerlebnis aufwerten. Um der Möglichkeit eines Paketverlustes oder dem Netzwerk-Jitter-geschuldetem, verspätetem Eintreffen von Paketen entgegen zu wirken, werden zunächst Methoden vorgestellt, die es erlauben Fehler in der Wiedergabe am Empfänger zu verschleiern. Die erste Variante, basierend auf einem autoregressiven Modell, ermöglicht das Verbergen von hörbaren Beeinträchtigungen durch fehlende Pakete bei hoher Qualität, ist allerdings in der Berechnung sehr aufwendig. Mehrere Ansätze um autoregressive Signalmodelle zu ermitteln werden hierbei aufgezeigt und verglichen. Die zweite Methode, basierend auf der Substitution von Wellenformen, stellt eine bezüglich des Rechenaufwands günstigere Alternative dar. Die Methoden werden mit Hilfe eine Hörtests subjektiv und durch Messungen der wahrgenommenen Qualität objektiv beurteilt. Die Anwendung von Audiokompressionsverfahren in einer NMP-Session ist in den meisten Szenarien unvermeidlich, da die Datenrate und insbesondere die Uploadrate von privaten Internetzugängen beschränkt ist. Neben der Reduktion der Datenrate muss der verwendete Audio Codec eine möglichst geringe Latenz aufweisen, um die Gesamtübertragungslatenz einzuschränken. Ein neuartiger Audiokodierungsansatz, der geringere Latenzen als weit verbreitete Niedriglatenz-Codecs und dennoch kleinere Datenraten als latenzfreie Codecs aufweist, wird vorgestellt. Das Kompressionsverfahren basiert auf der Anwendung der Adaptiven Differentiellen Pulse Code Modulation (ADPCM) in Teilbändern. In Kombination mit einem Vektorquantisierer (VQ) resultiert der Vektorquantisierte Adaptive Differentielle Pulse Code Modulation (VQ-ADPCM)-Codec. Der vorgestellte Codec ist imstande breitbandige Audiosignale mit 64 kbit/s und einer algorithmischen Latenz von 1 ms zu enkodieren. Die wahrgenommene Qualität wird mit wohl-bekannten Codecs anhand psychoakustisch-motivierter Messverfahren verglichen. Der letzte Beitrag ist vorgesehen, die räumliche akustische Szenerie innerhalb einer NMP zu verbessern. Hierfür wird ein Pseudo-Stereo-Verfahren, welches breite Stereopanoramen für einkanalige Klangquellen liefert, hergeleitet. Die Methode verbessert die Räumlichkeit des Stereomixes beim Empfänger ohne das Nutzsignal zu verfärben oder zu verhallen. Dadurch wird dem NMP-Nutzer ein verbessertes Hörerlebnis geboten. Der vorgestellte Ansatz basiert auf dem Entwurf eines komplementären Filterpaares, welches in Zeit und Frequenzbereich angewendet werden kann. Zusätzlich ist die Integration des Ansatzes in einem virtuellen Surround-Mischer basierend auf kopfbezogenen Impulsantworten (HRIR) veranschaulicht. Virtuelles Surround-Mischen erlaubt das beliebige Platzieren von Klangquellen in einem virtuellen Raum. Die Erweiterung mit der präsentierten Pseudo-Stereo-Methode ermöglicht nun sogar das Platzieren von Quellen verschieden Größe anstatt von Punktquellen. Die drei vorgestellten NMP-Verbesserungen basieren ausschließlich auf digitaler Signalverarbeitung und können deshalb in der Softwareschicht jeglichen NMP-Systems realisiert werden, ohne dabei Adaptionen der musikalischen Darbietung, der genutzten Hardware oder der verf¨ugbaren Netzwerkstruktur zu erfordern.
Version
Not applicable (or unknown)
Access right on openHSU
Open access