Navigation

Videokommunikation 2.0

Unser Lehrstuhl beschäftigt sich mit einer Vielzahl an Themen rund um die Videokompression. Dabei erforschen wir aktuelle Videocodierstandards wie HEVC und entwickeln neue Kompressionsmethoden für zukünftige Codecs wie VVC. Zusätzlich betrachten wir völlig neue Codieransätze für spezielle Inhalte wie Medizindatensätze, computergenerierte Videos, Fisheye- und 360°-Videodaten.

Ansprechpartner: Dr.-Ing. Christian Herglotz


Codierung mit Hilfe des Machine Learning

Videocodierung für maschinelle Kommunikation basierend auf tiefem Lernen

Ihr Ansprechpartner
Kristian Fischer, M.Sc.
E-Mail: kristian.fischer@fau.de
Link zur Person

Üblicherweise sind aktuelle Videocodecs auf das menschliche Wahrnehmungsvermögen ausgelegt und optimiert. Allerdings gewinnt die sogenannte Maschine-zu-Maschine (M2M) Kommunikation immer mehr an Bedeutung, bei denen maschinelle Algorithmen das resultierende komprimierte Videosignal analysieren, um damit bestimmte Aufgaben erfüllen zu können. Diese Aufgaben erstrecken sich von der Automatisierung industrieller Prozesse, der Überwachung von öffentlichen Orten bis hin zum autonomen Fahren von Autos. Bei solchen Szenarien ist dann nicht mehr die subjektive visuelle Qualität für den Menschen maßgeblich, sondern die Detektionsrate des Algorithmus. Bei den Algorithmen, die final die Qualität der Codierung bewerten, wird der Fokus auf neuronale Objektdetektionnetzwerke (R-CNNs) gelegt

Die entscheidende Frage für die Videokompression in der M2M-Kommunikation ist nun, wie stark die Originaldaten komprimiert werden können, um immer noch ein zufriedenstellendes Dektionsergebnis zu bekommen. Außerdem kann hier die Frage gestellt werden, ob andere Ansätze für den Videocodec verwendet werden sollten, um ein möglichst optimales Verhältnis aus Kompressions- und Detektionsrate zu erlangen.

 

Deep Learning für Videocodierung

Ihr Ansprechpartner
Fabian Brand, M.Sc.
E-Mail: fabian.brand@fau.de
Link zur Person

Durch die steigende Rechenleistung von mobilen Endgeräten, wird es langfristig möglich sein, Techniken aus dem Bereich Deep Learning in Codierstandards zu übernehmen. Zahlreiche Komponenten eines Videocoders können mithilfe neuronaler Netze umgesetzt werden. Der Fokus liegt hier im Bereich der Intra-Frame Prediction. Das Prinzip der Intra-Frame Prediction ist seit langem fester Bestandteil der meisten Videocoder. Hierbei wird ein Teil des Bildes aus seiner räumlichen Umgebung geschätzt, sodass nur der Unterschied übertragen werden muss. Im Gegensatz zur sogenannten Inter-Frame Prediction, die auch andere Frames des Videos benutzt, verwendet die Intra-Frame Prediction nur das zu kodierende Bild selbst.

In bisherigen Standards wird hauptsächlich angular prediction eingesetzt. Hierbei werden Pixel vom Rand in einem bestimmten Winkel, der zusätzlich übertragen werden muss in den Block kopiert. Diese Methode ist sehr effizient, ist aber nicht in der Lage nicht-lineare Strukturen abzubilden. Da neuronale Netze in der Lage sind, beliebige Funktionen nachzubilden, sind sie in der Lage auch komplexere Strukturen nachzubilden. Das folgende Bild zeigt ein Beispiel von einem Block, der einmal mit traditionellen Methoden und einmal mit einem neuronalem Netz prediziert wurde. Man sieht, dass das neuronale Netz in der Lage ist, die runde Form gut nachzubilden.

Links: Original, Mitte: Traditionelle Methode (VTM 4.2), Rechts: Prediktion mit neuronalem Netz

Energieeffiziente Videokommunikation

Heutzutage wird die Videokommunikation weltweit von Milliarden von Nutzern verwendet. Die zugehörigen Applikationen werden auf verschiedensten Geräten durchgeführt, zum Beispiel Handys, Notebooks oder Fernseher. Eine aktuelle Studie hat in diesem Zusammenhang gezeigt, dass 1% der Treibhausgasemissionen durch Videokommunikationsanwendungen verursacht wird (Link). Hierin enthalten sind alle Faktoren wie die Aufnahme, die Speicherung, die Kompression, die Decodierung und die Übertragung der Videodaten. Aufgrund dieses hohen Anteils und dem prognostizierten Wachstum ist es sehr wichtig, den tatsächlichen Energieverbrauch aller dieser Systeme zu erforschen, um für die Zukunft neue, energieeffiziente Lösungen entwickeln zu können.

Daher beschäftigen wir uns in diesem Forschungsthema mit der energieffizienten Videokommunikation. Dazu haben wir in den letzten Jahren verschiedenste Messaufbauten entwickelt, um Hardwaremodule wie Handys, Evaluationsboards, einzelne Chips oder PCs energetisch zu vermessen. Mit Hilfe dieser Daten entwickeln wir extrem genaue Energie- und Leistungsmodelle, die den Verbrauch während der Ausführung akkurat und verlässlich schätzen. Die Modelle werden schließlich dafür eingesetzt, neuartige und energieeffiziente Methoden vorzuschlagen und zu entwickeln.

Für die Zukunft wollen noch tiefer in die Thematik einsteigen und alle Komponenten im Detail betrachten, die in der Videokommunikation verwendet werden. Aktuell arbeiten wir an Themen wie die Übertragung der Videos, 360°-Videos, die Codierung und neue Videocodecs. Wir suchen stets nach neuen Themen und sind offen für interessante Abschlussarbeiten, Kollaborationen oder anderen Ideen.

Energieeffiziente Videocodierung

Ihr Ansprechpartner
Matthias Kränzler, M.Sc.
E-Mail: matthias.kraenzler@fau.de
Link zur Person

In den letzten Jahren steigen die Menge und der Anteil an Videodaten im globalen Internetdatenverkehr stetig an. Sowohl die Encodierung auf der Senderseite, als auch die Decodierung auf der Empfängerseite benötigen viel Energie. Forschung zu energieeffizienter Videodecodierung hat gezeigt, dass es möglich ist den Energiebedarf der Decodierung zu optimieren. Dieses Arbeitsgebiet beschäftigt sich mit der Modellierung der Energie, die für die Encodierung von komprimierten Videodaten notwendig ist. Ziel der Modellierung ist die Optimierung der Energieeffizienz der gesamten Videocodierung.

„Big Buck Bunny“ by Big Buck Bunny is licensed under CC BY 3.0

Energieeffiziente Videodekommunikation

Ihr Ansprechpartner
Dr.-Ing. Christian Herglotz
E-Mail: christian.herglotz@fau.de
Link zur Person

Dieses Arbeitsgebiet beschäftigt sich mit der energieeffizienten Decodierung von komprimierten Videodaten. Die Decodierung ist insbesondere für batteriebetriebene Geräte wie Smartphones oder Tablet PCs von Bedeutung, die z.B. bei mobilen Videostreaminganwendungen viel Energie benötigen. Eine anschauliche Visualisierung der benötigten Prozessenergien verschiedener Bitströme auf verschiedenen Systemen ist auf folgender Seite realisiert:

Decoding Energy Visualization Tool (DEVISTO)

Durch ausgeklügelte Algorithmen und Methoden kann dieser Energieverbrauch gesenkt werden, ohne dass die visuelle Qualität der Sequenzen leidet. Hierzu wurde in unserer Arbeit zuerst ein Modell erstellt, mit dem der Energieverbrauch eines Decoders anhand von Bitstrommerkmalen akkurat geschätzt werden kann. Die Energie lässt sich dann den Bitstrommerkmalen zuordnen und visualisieren.

Einen Online-Demonstrator und den Quellcode findet man auf folgender Webseite:

Decoding Energy Estimation Tool (DENESTO)

Ein entsprechender Coder, der dieses Modell ausnutzt, um energieeffiziente Bitströme zu generieren, kann auf folgender Seite heruntergeladen werden:

Decoding-Energy-Rate-Distortion Optimization (DERDO) for Video Coding

Codierung medizinischer Datensätze

Skalierbare verlustlose Codierung mit Hilfe des kompensierten multidimensionalen Wavelet-Liftings

Ihr Ansprechpartner
Daniela Wokusch, M.Sc.
E-Mail: daniela.wokusch@fau.de
Link zur Person

Dieses Forschungsprojekt beschäftigte sich in erster Linie mit der skalierbaren verlustlosen Codierung medizinischer Hypervolumendatensätze. Eine effiziente skalierbare Speicherung von dynamischen Volumen aus der Computertomographie stellt insbesondere für die Telemedizin ein äußerst erstrebenswertes Ziel dar. Dabei ist die verlustlose Rekonstruktion gesetzlich vorgeschrieben und muss daher stets gewährleistet werden. Mit Hilfe von kompensiertem Waveletlifting lassen sich Skalierbarkeit und verlustlose Rekonstruktion in einem Verarbeitungsschritt vereinen.

Bei einer Wavelet Transformation wird ein Signal in einen hoch- und tieffrequenten Anteil zerlegt. Somit wird eine Analyse des Signals in mehreren Auflösungsstufen, sowie eine effiziente Codierung durch die Energiekompaktierung im tieffrequenten Teilband ermöglicht. Weiterhin kann mit geeigneten Kompensationsverfahren die Qualität des Tiefpassbandes gesteigert werden. Skalierbarkeit ist mit dem untersuchten Codierkonzept prinzipiell nicht nur hinsichtlich der Qualität möglich, sondern auch in Bezug auf die örtliche und zeitliche Auflösung des Eingangssignals.  Die Abbildung zeigt hierbei das Blockdiagramm, das die Verarbeitungsschritte des 3-dimensionalen Waveletliftings beschreibt.

Codierung mittels H.265/HEVC

Ihr Ansprechpartner
Karina Jaskolka, M.Sc.
E-Mail: karina.jaskolka@fau.de
Link zur Person

Der Codierstandard H.265/HEVC ist ein effizientes Tool, um Aufnahmen von beleuchteten Szenen zu codieren. In diesem Forschungsprojekt wird der H.265/HEVC an die Eigenschaften medizinischer Datensätze angepasst. Es handelt sich hierbei um 3D oder 3D+t Bilder oder Videos vom menschlichen Körper, die mit Hilfe von strukturellen bildgebenden Verfahren wie Computertomographie oder Magnetresonanztomographie aufgenommen wurden. Unterschiede gegenüber gewöhnlichen Videodaten ergeben sich beispielsweise aus den speziellen Eigenschaften der Daten, wie z. B. sich verformenden Bewegungen, die Existenz einer dritten Dimension, das Fehlen von Beleuchtung  und die Rauschcharakteristik.

Codierung von Ultraweitwinkel- und 360°-Videodaten

Projektionsbasierte Videocodierung

Ihr Ansprechpartner
Andy Regensky, M.Sc.
E-Mail: andy.regensky@fau.de
Link zur Person

Ultraweitwinkel- und 360°-Videodaten unterliegen einer Vielzahl von Verzerrungen, welche bei herkömmlichen Videomaterial, das mit perspektivischen Objektiven aufgenommen wurde, nicht vorkommen. Diese Verzerrungen entstehen vor allem, da Ultraweitwinkelobjektive nicht dem Lochkameramodell folgen und somit spezielle Bildcharakteristiken vorliegen. Deutlich wird dies zum Beispiel dadurch, dass gerade Linien auf dem Bildsensor gebogen abgebildet werden. Nur so, sind Sichtfelder von 180° und mehr mit nur einer Kamera realisierbar. Mittels sogenannter Stitching-Verfahren können mehrere Kameraansichten zu 360°-Aufnahmen kombiniert werden, die eine komplette Rundumsicht ermöglichen. Häufig wird dies durch den Einsatz von zwei Ultraweitwinkelkameras realisiert, wobei jede Kamera eine Halbkugel aufnimmt. Um die entstehenden sphärischen 360°-Aufnahmen mit Hilfe bestehender Videocodecs komprimieren zu können, müssen die Aufnahmen auf die zweidimensionale Bildfläche projiziert werden. Hierbei kommen verschiedene Abbildungsfunktionen zum Einsatz. Häufig fällt die Wahl auf das Equirectangular-Format, welches vergleichbar mit der Darstellung des Globus auf einer Weltkarte ist, und somit 360° in horizontaler, sowie 180° in vertikaler Richtung abbildet.

Da herkömmliche Videocodecs nicht auf die von der perspektivischen Projektion abweichenden Abbildungsformate abgestimmt sind, kommt es zu Verlusten, die durch eine Berücksichtigung der vorliegenden Projektionsformate vermindert werden können. In diesem Projekt werden daher verschiedene Codieraspekte untersucht und im Hinblick auf die vorkommenden Projektionen bei Ultraweitwinkel- und 360°-Videodaten optimiert. Ein spezieller Fokus liegt dabei auf der projektionsbasierten Bewegungskompensation, sowie der Intraprädiktion.


2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2002

2001

2000

1999

1998

1997

1996

1994

1993

1991