Computational paralinguistic and phonetic approaches for perceived leadership detection
Subtitle
Speech-based analysis
Publication date
2025-04-10
Document type
Dissertation
Author
Hsu, Chia-Chun
Advisor
Referee
Granting institution
Helmut-Schmidt-Universität/Universität der Bundeswehr Hamburg
Exam date
2025-03-19
Organisational unit
Part of the university bibliography
✅
Keyword
Leadership
Computational paralinguistic
Phonetic analysis
Speech features
Explainable AI (XAI)
Führung
Computationelle Paralinguistik
Phonetische Analyse
Sprachmerkmale
Erklärbare KI (XAI)
Abstract
This dissertation investigates the nexus of speech features and perceived transformational leadership through computational paralinguistic and phonetic approaches across three studies, bridging leadership theory and vocal.
Study 1, an integrative review, leverages computational advancements to explore acoustic features like pitch, jitter, and formant dispersion beyond human perception. It synthesizes early research with modern tools like Mel-Frequency Cepstral Coefficients (MFCCs), showing how lower pitch and features like speech pauses predict dominance and charisma (Cullen & Harte, 2018). This sets the stage for empirical analyses using machine learning to dissect vocal cues.
Study 2 employs a computational paralinguistic approach, analyzing 122 speakers’ recordings by evaluated by 122 raters via the German Multifactor Leadership Questionnaire (MLQ)—with OpenSMILE. Focusing on fundamental frequency, intensity, and voicing probability, it uses Sequential Minimal Optimization (SMO) regression in WEKA. Results highlight fundamental frequency’s predictive power for inspirational motivation (R²=0.31) and idealized influence (R²=0.45), with intensity driving individualized consideration (R²=0.35). This approach quantifies paralinguistic features’ impact, revealing their nuanced roles across leadership dimensions.
Study 3 shifts to a phonetic approach, using Praat on the same dataset to extract fundamental frequency (F0), intensity, speech duration, and formants (F1-F5). SMO regression identifies speech duration as key for individualized consideration (R²=0.40) and F0 for inspirational motivation (R²=0.43). The implications amplify these findings: a wider F0 range and steeper slopes enhance dynamism and charisma; lower F1, F2 frequencies and narrower F3, F4 bandwidths boost authoritative resonance and clarity; longer duration and pauses, paired with slower rates, project control; and dynamic intensity modulation strengthens emotional impact. These phonetic insights complement Study 2’s paralinguistic focus, offering a dual-lens framework.
The dissertation integrates explainable AI (XAI) to balance predictive accuracy with interpretability, linking computational paralinguistic features (e.g., voicing probability) and phonetic traits (e.g., formant bandwidths) to psychological constructs like enthusiasm and authority. The paralinguistic approach excels in broad feature extraction, while the phonetic method provides granular physiological insights, together advancing psychoacoustics and leadership studies. This synergy enables practical vocal optimization- varying pitch, modulating intensity, and pacing delivery- for authentic leadership projection in business contexts, demonstrating the power of computational and phonetic methodologies in decoding vocal influence.
Study 1, an integrative review, leverages computational advancements to explore acoustic features like pitch, jitter, and formant dispersion beyond human perception. It synthesizes early research with modern tools like Mel-Frequency Cepstral Coefficients (MFCCs), showing how lower pitch and features like speech pauses predict dominance and charisma (Cullen & Harte, 2018). This sets the stage for empirical analyses using machine learning to dissect vocal cues.
Study 2 employs a computational paralinguistic approach, analyzing 122 speakers’ recordings by evaluated by 122 raters via the German Multifactor Leadership Questionnaire (MLQ)—with OpenSMILE. Focusing on fundamental frequency, intensity, and voicing probability, it uses Sequential Minimal Optimization (SMO) regression in WEKA. Results highlight fundamental frequency’s predictive power for inspirational motivation (R²=0.31) and idealized influence (R²=0.45), with intensity driving individualized consideration (R²=0.35). This approach quantifies paralinguistic features’ impact, revealing their nuanced roles across leadership dimensions.
Study 3 shifts to a phonetic approach, using Praat on the same dataset to extract fundamental frequency (F0), intensity, speech duration, and formants (F1-F5). SMO regression identifies speech duration as key for individualized consideration (R²=0.40) and F0 for inspirational motivation (R²=0.43). The implications amplify these findings: a wider F0 range and steeper slopes enhance dynamism and charisma; lower F1, F2 frequencies and narrower F3, F4 bandwidths boost authoritative resonance and clarity; longer duration and pauses, paired with slower rates, project control; and dynamic intensity modulation strengthens emotional impact. These phonetic insights complement Study 2’s paralinguistic focus, offering a dual-lens framework.
The dissertation integrates explainable AI (XAI) to balance predictive accuracy with interpretability, linking computational paralinguistic features (e.g., voicing probability) and phonetic traits (e.g., formant bandwidths) to psychological constructs like enthusiasm and authority. The paralinguistic approach excels in broad feature extraction, while the phonetic method provides granular physiological insights, together advancing psychoacoustics and leadership studies. This synergy enables practical vocal optimization- varying pitch, modulating intensity, and pacing delivery- for authentic leadership projection in business contexts, demonstrating the power of computational and phonetic methodologies in decoding vocal influence.
Diese Dissertation erforscht die Verbindung zwischen Sprachmerkmalen und wahrgenommener transformationaler Führung durch computationelle paralinguistische und phonetische Ansätze in drei Studien, die Führungstheorie und stimmlichen Ausdruck verknüpfen.
Studie 1, ein integrativer Reviewansatz, nutzt rechentechnische Fortschritte, um akustische Merkmale wie Tonhöhe, Jitter und Formantdispersion jenseits menschlicher Wahrnehmung zu analysieren. Sie kombiniert frühe Forschung mit Tools wie Mel-Frequency Cepstral Coefficients (MFCCs), um zu zeigen, wie tiefere Tonlagen und Merkmale wie Sprechpausen Dominanz und Charisma vorhersagen (Cullen & Harte, 2018), und legt die Grundlage für empirische Untersuchungen mit maschinellem Lernen.
Studie 2 wendet einen computationelle paralinguistischen Ansatz an, indem sie Aufnahmen von 122 Sprechern – bewertet von 122 Personen via deutscher Version des Multifactor Leadership Questionnaire (MLQ) – mit OpenSMILE analysiert. Fokussiert auf Grundfrequenz (F0), Intensität und Stimmhaftigkeitswahrscheinlichkeit, verwendet sie Sequential Minimal Optimization (SMO) Regressionsalgorithmus in Waikato Environment for Knowledge Analysis (WEKA). Ergebnisse zeigen die Vorhersagekraft der Grundfrequenz für inspirierende Motivation (R²=0,31) und idealisierten Einfluss (attributiert) (R²=0,45), während Intensität individuelle Berücksichtigung prägt (R²=0,35). Dieser Ansatz quantifiziert den Einfluss paralinguistischer Merkmale und deckt ihre nuancierten Rollen auf.
Studie 3 verfolgt einen phonetischen Ansatz mit Praat (Version 6.3.04) auf demselben Datensatz, extrahiert Grundfrequenz (F0), Intensität, Sprechdauer und Formanten (F1-F5). SMO-Regression identifiziert Sprechdauer als Schlüsselfaktor für individuelle Berücksichtigung (R²=0,40) und F0 für inspirierende Motivation (R²=0,43). Es vertieft diese Erkenntnisse: Ein größerer F0-Bereich und steilere Änderungen fördern Dynamik und Charisma; niedrigere F1- und F2-Werte steigern autoritative Resonanz und Klarheit; schmalere Formanten-Bandbreite bei F3 und F4 verbessern Resonanzklarheit; längere Gesamtlänge der Sprechdauer und Pausen mit langsamerer Sprechgeschwindigkeit projizieren Kontrolle; dynamische Intensitätskurve verstärkt emotionale Wirkung. Diese phonetischen Einsichten ergänzen die paralinguistischen Befunde aus Studie 2 und bieten einen dualen Analyseansatz.
Durch Integration von Prinzipien der erklärbaren künstlichen Intelligenz (XAI) vereint die Arbeit prädiktive Genauigkeit mit Interpretierbarkeit, indem sie paralinguistische Merkmale (z. B. Stimmhaftigkeitswahrscheinlichkeit) und phonetische Eigenschaften (z. B. Formanten-Bandbreite) mit psychologischen Konstrukten wie Enthusiasmus und Autorität verknüpft. Der paralinguistische Ansatz glänzt bei breiter Merkmalsextraktion, der phonetische bietet detaillierte physiologische Einblicke. Zusammen bereichern sie Psychoakustik und Führungsforschung und ermöglichen praktische Stimmoptimierung – durch Tonhöhenvariation, Intensitätsmodulation und gezielte Pausensetzung – für authentische Führungspräsenz im Geschäftskontext, was die Stärke dieser Methoden unterstreicht.
Studie 1, ein integrativer Reviewansatz, nutzt rechentechnische Fortschritte, um akustische Merkmale wie Tonhöhe, Jitter und Formantdispersion jenseits menschlicher Wahrnehmung zu analysieren. Sie kombiniert frühe Forschung mit Tools wie Mel-Frequency Cepstral Coefficients (MFCCs), um zu zeigen, wie tiefere Tonlagen und Merkmale wie Sprechpausen Dominanz und Charisma vorhersagen (Cullen & Harte, 2018), und legt die Grundlage für empirische Untersuchungen mit maschinellem Lernen.
Studie 2 wendet einen computationelle paralinguistischen Ansatz an, indem sie Aufnahmen von 122 Sprechern – bewertet von 122 Personen via deutscher Version des Multifactor Leadership Questionnaire (MLQ) – mit OpenSMILE analysiert. Fokussiert auf Grundfrequenz (F0), Intensität und Stimmhaftigkeitswahrscheinlichkeit, verwendet sie Sequential Minimal Optimization (SMO) Regressionsalgorithmus in Waikato Environment for Knowledge Analysis (WEKA). Ergebnisse zeigen die Vorhersagekraft der Grundfrequenz für inspirierende Motivation (R²=0,31) und idealisierten Einfluss (attributiert) (R²=0,45), während Intensität individuelle Berücksichtigung prägt (R²=0,35). Dieser Ansatz quantifiziert den Einfluss paralinguistischer Merkmale und deckt ihre nuancierten Rollen auf.
Studie 3 verfolgt einen phonetischen Ansatz mit Praat (Version 6.3.04) auf demselben Datensatz, extrahiert Grundfrequenz (F0), Intensität, Sprechdauer und Formanten (F1-F5). SMO-Regression identifiziert Sprechdauer als Schlüsselfaktor für individuelle Berücksichtigung (R²=0,40) und F0 für inspirierende Motivation (R²=0,43). Es vertieft diese Erkenntnisse: Ein größerer F0-Bereich und steilere Änderungen fördern Dynamik und Charisma; niedrigere F1- und F2-Werte steigern autoritative Resonanz und Klarheit; schmalere Formanten-Bandbreite bei F3 und F4 verbessern Resonanzklarheit; längere Gesamtlänge der Sprechdauer und Pausen mit langsamerer Sprechgeschwindigkeit projizieren Kontrolle; dynamische Intensitätskurve verstärkt emotionale Wirkung. Diese phonetischen Einsichten ergänzen die paralinguistischen Befunde aus Studie 2 und bieten einen dualen Analyseansatz.
Durch Integration von Prinzipien der erklärbaren künstlichen Intelligenz (XAI) vereint die Arbeit prädiktive Genauigkeit mit Interpretierbarkeit, indem sie paralinguistische Merkmale (z. B. Stimmhaftigkeitswahrscheinlichkeit) und phonetische Eigenschaften (z. B. Formanten-Bandbreite) mit psychologischen Konstrukten wie Enthusiasmus und Autorität verknüpft. Der paralinguistische Ansatz glänzt bei breiter Merkmalsextraktion, der phonetische bietet detaillierte physiologische Einblicke. Zusammen bereichern sie Psychoakustik und Führungsforschung und ermöglichen praktische Stimmoptimierung – durch Tonhöhenvariation, Intensitätsmodulation und gezielte Pausensetzung – für authentische Führungspräsenz im Geschäftskontext, was die Stärke dieser Methoden unterstreicht.
Version
Published version
Access right on openHSU
Open access