Navigation

Sprach- und Audiosignalverarbeitung

Dozent/in

Details

Zeit/Ort n.V.:

  • Mo 12:15-13:45, Raum H5
  • Di 12:15-13:45, Raum H5

Studienfächer / Studienrichtungen

  • WPF EEI-BA-INT ab Sem. 5
  • WPF EEI-MA-INT ab Sem. 1
  • WPF CE-MA-TA-IT ab Sem. 1
  • WPF IuK-MA-ES-EEI ab Sem. 1
  • WPF IuK-MA-KN-EEI ab Sem. 1
  • WPF IuK-MA-MMS-EEI ab Sem. 1
  • WPF IuK-MA-REA-EEI ab Sem. 1
  • WPF IuK-BA ab Sem. 5
  • WPF ICT-MA-ES ab Sem. 1
  • WPF ICT-MA-MPS ab Sem. 1
  • WPF WING-MA ab Sem. 1
  • WPF WING-MA-ET-IT ab Sem. 2
  • PF CME-MA ab Sem. 2
  • WPF ASC-MA ab Sem. 1
  • WPF MT-MA-MEL ab Sem. 1

Prerequisites / Organizational information

Voraussetzung: Vorlesung Signale und Systeme I +II

Die Vorlesungen werden semesterbegleitend aufgezeichnet und über StudOn zur Verfügung gestellt bis ein regulärer Präsenzbetrieb wieder möglich ist. Bei StudOn finden Sie ebenfalls das Vorlesungsskript als PDF-Datei sowie aktuelle Informationen zur Vorlesung und Übung.

Inhalt

Die Vorlesung behandelt Grundlagen und Algorithmen der Verarbeitung von Sprach- und Audiosignalen mit Anwendungen in Telekommunikation und Multimedia, insbesondere:

  • Physiologie und Modelle der Spracherzeugung und des Hörens: Quelle-Filter-Modell, Filterbank-Modell der Cochlea; Maskierungseffekte;

  • Darstellung von Sprach- und Audiosignalen: Schätzung und Darstellung der Kurzzeit- und Langzeitstatistik in Zeit-, Frequenz- und Cepstralbereich; typische Beispiele, Visualisierungen;

  • Quellencodierung für Sprache und Audiosignale: Kriterien; skalare und vektorielle Codierung; lineare Prädiktion; Pitchprädiktion; Wellenform-/Parameter-/Hybrid-Codierung; Standards (ITU, GSM, ISO-MPEG)

  • Spracherkennung: Merkmalextraktion, Dynamic Time Warping, Hidden Markov Models

  • Grundprinzipien der Sprachsynthese: Text-to-Speech Systeme, modellbasierte und datenbasierte Synthese, PSOLA-Synthese

  • Signalverbesserung bei Signalaufnahme und -wiedergabe: Geräuschbefreiung, Echokompensation, Enthallung mittels ein- und mehrkanaliger Verfahren.

Empfohlene Literatur

Gemäß themenbezogenen Angaben in der Lehrveranstaltung

ECTS-Informationen

Titel

Speech and Audio Signal Processing

Credits

5

Inhalt:

The course concentrates on algorithms for speech and audio signal processing with applications in telecommunications and multimedia, especially
- Human Speech Production and Hearing: Source-Filter-Model, Filterbank Model of Cochlea; Masking effects;
- Signal Representation for Speech and Audio: Estimation and representation of short-term and long-term statistics in time domain, frequency domain, and cepstral domain; typical examples and visualisations;
- Source Coding for Speech and Audio: criteria; scalar and vectorial quantization and coding; linear prediction; pitch prediction; waveform/ parameter/ hybrid coding; standards (ITU, GSM, ISO-MPEG)
- Fundamental Concepts of Automatic Speech Recognition: Feature extraction, Dynamic Time Warping, Hidden Markov Models
- Fundamental Concepts of Speech Synthesis: Text-to-Speech systems, modell-based and data-driven synthesis, PSOLA synthesis
- Signal enhancement for acquisition and reproduction: Noise reduction, echo cancellation, dereverberation using single-channel and multichannel algorithms.

Literature:

Recommendations for each topic are given during the lectures

Zusätzliche Informationen

Erwartete Teilnehmerzahl: 52

www: https://www.studon.fau.de/crs174396.html