Spatial Audio Through Headphones Based on HRTFs Approximated by Parametric IIR Filters
Publication date
2022-06
Document type
PhD thesis (dissertation)
Author
Advisor
Referee
Granting institution
Helmut-Schmidt-Universität / Universität der Bundeswehr Hamburg
Exam date
2022-05-06
Organisational unit
Part of the university bibliography
✅
DDC Class
620 Ingenieurwissenschaften
Keyword
Spatial audio
3D audio
Headphone
Parametric IIR filter
Räumliches Hören
Kopfhörer
Abstract
The subject of this dissertation is spatial audio through headphones. In the present work, an offline binaural synthesis implementation is proposed using head-related transfer functions (HRTFs) approximated by cascades of parametric infinite impulse response (IIR) filters, parameter interpolation to calculate HRTFs of intermediate directions for generating static as well as moving virtual sound sources, and simulated room effects in order to increase the perceived externalization.
The first contribution to the research field lies in representing HRTFs as cascades of low-order parametric IIR filters together with a delay representing the interaural time difference (ITD). Usually, HRTFs are represented as finite impulse response (FIR) filters containing the corresponding head-related impulse responses (HRIRs) as filter coefficients. However, by using cascades of low-order parametric IIR filters, like first-order shelving or
second-order peak filters, memory requirements of the used hardware can be decreased to three parameters per filter stage (cut-off or center frequency, gain, and Q-factor). For this purpose, a two-step procedure is proposed that approximates the magnitude responses of HRTFs by parametric IIR filter cascades. In a first step, the individual filter stages are consecutively integrated, initialized, and tuned. Afterwards, the interaction between individual filter stages is post-optimized. Alternatively, an approach for HRTF magnitude response approximation based on instantaneous backpropagation is proposed. After approximating the HRTF magnitude responses, also the ITDs have to be extracted from the HRIRs or HRTFs of the two ears.
From this, virtual sound sources are generated by filtering a monaural audio signal with the parametric IIR filter cascades of the desired direction and delaying the filtered audio signal of the contralateral ear by the extracted ITD. In many practical implementations, only a finite number of measured HRTFs is available, resulting in a limited spatial resolution. For HRTFs represented as FIR filters, bilinear rectangular or triangular interpolation can be used to calculate the filter coefficients of intermediate HRTFs. However, when the HRTFs are represented as IIR filters instead, the interpolation is not as straightforward as for FIR filters due to stability considerations. Therefore, in this work, a parameter interpolation algorithm based on bilinear interpolation of the parameters of the individual filter stages together with an assignment of related peak filters is proposed. This interpolation algorithm guarantees the stability of intermediate filters. When generating moving virtual sound sources, two IIR filter cascades are combined in parallel following the cross-fading input-switching combination approach.
For evaluating the proposed methods, three listening tests assessing different aspects of binaural synthesis using HRTFs approximated by parametric IIR filters are performed. In a first listening test, the validity of the proposed parametric IIR filter cascades is proven for static virtual sound sources by comparing their localization results to localization results achieved using HRIRs represented as FIR filters. Additionally, a second listening test proves that adding simulated room effects via the image source model increases the perceived externalization of static virtual sound sources generated using HRTFs approximated by parametric IIR filter cascades up to externalization levels achieved using measured binaural room impulse responses represented as FIR filters. Finally, the audio quality of moving virtual sound sources generated using minimum-phase approximated HRIRs represented as FIR filters and parametric IIR filter cascades is evaluated in a third listening test. By using two IIR filters in parallel following the cross-fading input-switching combination approach, comparable audio quality ratings are achieved as for FIR filter implementations using minimum-phase approximated HRIRs. Thus, HRTFs approximated by parametric IIR filter cascades can be used to reduce the number of saved coefficients. By using two first-order shelving filters, ten second-order peak filters, a mean HRTF magnitude value, and an extracted ITD, only 36 parameters have to be saved per HRTF instead of 200 coefficients as in FIR filter implementations using conventional HRIRs.
The first contribution to the research field lies in representing HRTFs as cascades of low-order parametric IIR filters together with a delay representing the interaural time difference (ITD). Usually, HRTFs are represented as finite impulse response (FIR) filters containing the corresponding head-related impulse responses (HRIRs) as filter coefficients. However, by using cascades of low-order parametric IIR filters, like first-order shelving or
second-order peak filters, memory requirements of the used hardware can be decreased to three parameters per filter stage (cut-off or center frequency, gain, and Q-factor). For this purpose, a two-step procedure is proposed that approximates the magnitude responses of HRTFs by parametric IIR filter cascades. In a first step, the individual filter stages are consecutively integrated, initialized, and tuned. Afterwards, the interaction between individual filter stages is post-optimized. Alternatively, an approach for HRTF magnitude response approximation based on instantaneous backpropagation is proposed. After approximating the HRTF magnitude responses, also the ITDs have to be extracted from the HRIRs or HRTFs of the two ears.
From this, virtual sound sources are generated by filtering a monaural audio signal with the parametric IIR filter cascades of the desired direction and delaying the filtered audio signal of the contralateral ear by the extracted ITD. In many practical implementations, only a finite number of measured HRTFs is available, resulting in a limited spatial resolution. For HRTFs represented as FIR filters, bilinear rectangular or triangular interpolation can be used to calculate the filter coefficients of intermediate HRTFs. However, when the HRTFs are represented as IIR filters instead, the interpolation is not as straightforward as for FIR filters due to stability considerations. Therefore, in this work, a parameter interpolation algorithm based on bilinear interpolation of the parameters of the individual filter stages together with an assignment of related peak filters is proposed. This interpolation algorithm guarantees the stability of intermediate filters. When generating moving virtual sound sources, two IIR filter cascades are combined in parallel following the cross-fading input-switching combination approach.
For evaluating the proposed methods, three listening tests assessing different aspects of binaural synthesis using HRTFs approximated by parametric IIR filters are performed. In a first listening test, the validity of the proposed parametric IIR filter cascades is proven for static virtual sound sources by comparing their localization results to localization results achieved using HRIRs represented as FIR filters. Additionally, a second listening test proves that adding simulated room effects via the image source model increases the perceived externalization of static virtual sound sources generated using HRTFs approximated by parametric IIR filter cascades up to externalization levels achieved using measured binaural room impulse responses represented as FIR filters. Finally, the audio quality of moving virtual sound sources generated using minimum-phase approximated HRIRs represented as FIR filters and parametric IIR filter cascades is evaluated in a third listening test. By using two IIR filters in parallel following the cross-fading input-switching combination approach, comparable audio quality ratings are achieved as for FIR filter implementations using minimum-phase approximated HRIRs. Thus, HRTFs approximated by parametric IIR filter cascades can be used to reduce the number of saved coefficients. By using two first-order shelving filters, ten second-order peak filters, a mean HRTF magnitude value, and an extracted ITD, only 36 parameters have to be saved per HRTF instead of 200 coefficients as in FIR filter implementations using conventional HRIRs.
Das Thema dieser Dissertation ist räumliches Audio über Kopfhörer. In der vorliegenden Arbeit wird eine Offline-Implementierung der Binauralsynthese vorgeschlagen, die Außenohrübertragungsfunktionen (engl. head-related transfer functions, HRTFs) verwendet, die durch Kaskaden parametrischer Filter mit unendlicher Impulsantwort (engl. infinite impulse response, IIR) approximiert werden. Außerdem werden eine Interpolation der Parameter zur Berechnung der HRTFs von Zwischenrichtungen und simulierte Raumeffekte zur Erhöhung der wahrgenommenen Externalisierung verwendet.
Der erste Beitrag zum Forschungsgebiet liegt in der Darstellung von HRTFs als Kaskade parametrischer IIR-Filter niedriger Ordnung zusammen mit einer Verzögerung, die die interaurale Zeitdifferenz (engl. interaural time difference, ITD) darstellt. Normalerweise werden HRTFs als Filter mit endlicher Impulsantwort (engl. finite impulse response, FIR) dargestellt, die die entsprechenden Außenohrimpulsantworten (engl. head-related impulse responses, HRIRs) als Filterkoeffizienten enthalten. Durch die Verwendung von Kaskaden parametrischer IIR-Filter niedriger Ordnung, wie Shelving-Filter erster Ordnung oder Peak-Filter zweiter Ordnung, kann der Speicherbedarf der verwendeten Hardware auf drei Parameter pro Filterstufe (Grenz- oder Mittenfrequenz, Verstärkungsfaktor und Q-Faktor) reduziert werden. Zu diesem Zweck wird ein zweistufiges Verfahren vorgestellt, das die Betragsfrequenzgänge der HRTFs durch parametrische IIR-Filterkaskaden approximiert. In einem ersten Schritt werden die einzelnen Filterstufen nacheinander integriert, initialisiert und abgestimmt. Anschließend wird das Zusammenspiel der einzelnen Filterstufen optimiert. Alternativ wird ein Ansatz für die Approximation des Betragsfrequenzganges der HRTFs auf Grundlage von instantaneous backpropagation vorgeschlagen. Nach der Approximation der Betragsfrequenzgänge werden die ITDs aus den HRIRs oder HRTFs der beiden Ohren extrahiert.
Virtuelle Schallquellen werden erzeugt, indem ein monaurales Audiosignal mit den parametrischen IIR-Filterkaskaden der gewünschten Richtung gefiltert und das gefilterte Audiosignal des kontralateralen Ohrs um die extrahierte ITD verzögert wird. In vielen praktischen Anwendungen steht nur eine begrenzte Anzahl von gemessenen HRTFs zur Verfügung, was zu einer begrenzten räumlichen Auflösung führt. Für HRTFs, die als FIR-Filter dargestellt werden, kann die bilineare Interpolation verwendet werden, um die Filterkoeffizienten der dazwischenliegenden HRTFs zu berechnen. Wenn die HRTFs jedoch stattdessen als IIR-Filter dargestellt werden, ist die Interpolation aufgrund von Stabilitätsbedingungen nicht so einfach wie bei FIR-Filtern. Daher wird in dieser Arbeit ein Interpolationsalgorithmus vorgeschlagen, der auf der bilinearen Interpolation der Parameter der einzelnen Filterstufen zusammen mit einer Zuordnung zusammengehöriger Peak-Filter basiert. Dieser Interpolationsalgorithmus garantiert die Stabilität der Filter. Bei der Erzeugung bewegter virtueller Schallquellen werden zwei IIR-Filterkaskaden nach dem Ansatz der cross-fading-input-switching-Kombination parallelisiert.
Zur Bewertung der vorgeschlagenen Methoden werden drei Hörtests durchgeführt, die verschiedene Aspekte der Binauralsynthese unter Verwendung von HRTFs, die durch parametrische IIR-Filter approximiert werden, bewerten. In einem ersten Hörtest wird die Gültigkeit der vorgeschlagenen parametrischen IIR-Filterkaskaden für statische virtuelle Schallquellen nachgewiesen, indem ihre Lokalisierungsergebnisse mit denen verglichen
werden, die mit als FIR-Filter dargestellten HRTFs erzielt werden. Darüber hinaus wertet ein zweiter Hörtest, die wahrgenommene Externalisierung statischer virtueller Schallquellen, die mit HRTFs, die durch parametrische IIR-Filterkaskaden approximiert werden, generiert werden, aus. Durch Hinzufügen simulierter Raumeffekte, die über das Spiegelquellen-Modell erzeugt werden, erhöht sich die wahrgenommene Externalisierung auf das gleiche Level, das mit gemessenen binauralen Raumimpulsantworten erreicht wird. Schließlich wird in einem dritten Hörtest die Audioqualität von sich bewegenden virtuellen Schallquellen bewertet, die mit Hilfe von als FIR-Filter dargestellten minimalphasigen HRIRs und parametrischen IIR-Filterkaskaden erzeugt werden. Durch die parallele Verwendung von zwei IIR-Filtern nach dem cross-fading-input-switching-Kombinationsansatz werden vergleichbare Audioqualitätsbewertungen erzielt wie bei FIR-Filterimplementierungen minimalphasiger HRIRs. Somit können HRTFs, die durch parametrische IIR-Filterkaskaden approximiert werden, verwendet werden, um die Anzahl der zu speichernden Koeffizienten zu reduzieren. Durch die Verwendung von zwei Shelving-Filtern, zehn Peak-Filtern, einem HRTF-Durchschnittsbetragswert und einer extrahierten ITD müssen nur 36 Parameter pro HRTF gespeichert werden, anstatt 200 Koeffizienten wie bei FIR-Filterimplementierungen herkömmlicher HRIRs.
Der erste Beitrag zum Forschungsgebiet liegt in der Darstellung von HRTFs als Kaskade parametrischer IIR-Filter niedriger Ordnung zusammen mit einer Verzögerung, die die interaurale Zeitdifferenz (engl. interaural time difference, ITD) darstellt. Normalerweise werden HRTFs als Filter mit endlicher Impulsantwort (engl. finite impulse response, FIR) dargestellt, die die entsprechenden Außenohrimpulsantworten (engl. head-related impulse responses, HRIRs) als Filterkoeffizienten enthalten. Durch die Verwendung von Kaskaden parametrischer IIR-Filter niedriger Ordnung, wie Shelving-Filter erster Ordnung oder Peak-Filter zweiter Ordnung, kann der Speicherbedarf der verwendeten Hardware auf drei Parameter pro Filterstufe (Grenz- oder Mittenfrequenz, Verstärkungsfaktor und Q-Faktor) reduziert werden. Zu diesem Zweck wird ein zweistufiges Verfahren vorgestellt, das die Betragsfrequenzgänge der HRTFs durch parametrische IIR-Filterkaskaden approximiert. In einem ersten Schritt werden die einzelnen Filterstufen nacheinander integriert, initialisiert und abgestimmt. Anschließend wird das Zusammenspiel der einzelnen Filterstufen optimiert. Alternativ wird ein Ansatz für die Approximation des Betragsfrequenzganges der HRTFs auf Grundlage von instantaneous backpropagation vorgeschlagen. Nach der Approximation der Betragsfrequenzgänge werden die ITDs aus den HRIRs oder HRTFs der beiden Ohren extrahiert.
Virtuelle Schallquellen werden erzeugt, indem ein monaurales Audiosignal mit den parametrischen IIR-Filterkaskaden der gewünschten Richtung gefiltert und das gefilterte Audiosignal des kontralateralen Ohrs um die extrahierte ITD verzögert wird. In vielen praktischen Anwendungen steht nur eine begrenzte Anzahl von gemessenen HRTFs zur Verfügung, was zu einer begrenzten räumlichen Auflösung führt. Für HRTFs, die als FIR-Filter dargestellt werden, kann die bilineare Interpolation verwendet werden, um die Filterkoeffizienten der dazwischenliegenden HRTFs zu berechnen. Wenn die HRTFs jedoch stattdessen als IIR-Filter dargestellt werden, ist die Interpolation aufgrund von Stabilitätsbedingungen nicht so einfach wie bei FIR-Filtern. Daher wird in dieser Arbeit ein Interpolationsalgorithmus vorgeschlagen, der auf der bilinearen Interpolation der Parameter der einzelnen Filterstufen zusammen mit einer Zuordnung zusammengehöriger Peak-Filter basiert. Dieser Interpolationsalgorithmus garantiert die Stabilität der Filter. Bei der Erzeugung bewegter virtueller Schallquellen werden zwei IIR-Filterkaskaden nach dem Ansatz der cross-fading-input-switching-Kombination parallelisiert.
Zur Bewertung der vorgeschlagenen Methoden werden drei Hörtests durchgeführt, die verschiedene Aspekte der Binauralsynthese unter Verwendung von HRTFs, die durch parametrische IIR-Filter approximiert werden, bewerten. In einem ersten Hörtest wird die Gültigkeit der vorgeschlagenen parametrischen IIR-Filterkaskaden für statische virtuelle Schallquellen nachgewiesen, indem ihre Lokalisierungsergebnisse mit denen verglichen
werden, die mit als FIR-Filter dargestellten HRTFs erzielt werden. Darüber hinaus wertet ein zweiter Hörtest, die wahrgenommene Externalisierung statischer virtueller Schallquellen, die mit HRTFs, die durch parametrische IIR-Filterkaskaden approximiert werden, generiert werden, aus. Durch Hinzufügen simulierter Raumeffekte, die über das Spiegelquellen-Modell erzeugt werden, erhöht sich die wahrgenommene Externalisierung auf das gleiche Level, das mit gemessenen binauralen Raumimpulsantworten erreicht wird. Schließlich wird in einem dritten Hörtest die Audioqualität von sich bewegenden virtuellen Schallquellen bewertet, die mit Hilfe von als FIR-Filter dargestellten minimalphasigen HRIRs und parametrischen IIR-Filterkaskaden erzeugt werden. Durch die parallele Verwendung von zwei IIR-Filtern nach dem cross-fading-input-switching-Kombinationsansatz werden vergleichbare Audioqualitätsbewertungen erzielt wie bei FIR-Filterimplementierungen minimalphasiger HRIRs. Somit können HRTFs, die durch parametrische IIR-Filterkaskaden approximiert werden, verwendet werden, um die Anzahl der zu speichernden Koeffizienten zu reduzieren. Durch die Verwendung von zwei Shelving-Filtern, zehn Peak-Filtern, einem HRTF-Durchschnittsbetragswert und einer extrahierten ITD müssen nur 36 Parameter pro HRTF gespeichert werden, anstatt 200 Koeffizienten wie bei FIR-Filterimplementierungen herkömmlicher HRIRs.
Version
Not applicable (or unknown)
Access right on openHSU
Open access