Doctoral thesis (Dissertations and theses)
Real-time semantics in video sequences
Cioppa, Anthony
2020
 

Files


Full Text
Cioppa2020RealTimeSemantics_PhD-thesis.pdf
Author postprint (64.49 MB)
Download

All documents in ORBi are protected by a user license.

Send to



Details



Keywords :
Semantics; Video understanding; Deep learning; Real-time; Semantic segmentation; Action spotting; Dataset; Background subtraction; Online distillation
Abstract :
[en] The study of semantics intends to provide meaning to data. In the case of video sequences, semantics allows to derive an analysis of the scene, on which many real-world applications can rely. To this extent, we start by defining two levels of semantics that can be extracted from videos. First, we define as low-level semantics every information describing the natural content of the video, comprising the objects and the environment of the scene. Second, high-level semantics characterizes the interpretation of the events occurring in the scene, which relates to a deeper understanding of the role of the elements composing this scene. In the first part, we explore several approaches to extract low-level semantics from video sequences in real time, as most current state-of-the-art methods are rather slow. In particular, we focus on three types of low-level semantics: motion detection, semantic segmentation and object detection. As a first contribution, we develop an asynchronous combination method to leverage the output of a slow segmentation network to improve the performances of a real-time background subtraction algorithm, while keeping real-time inference. As a second work, we present a novel method to train a fast segmentation network by leveraging the output of another slow, but performant, segmentation network while constantly adapting to the latest video conditions. Then, we show that this method, called online knowledge distillation, also proves to be effective for detecting players on a soccer field, even when the two networks process videos with different modalities and fields of view. In the second part, we focus on high-level semantics describing the events taking place during a soccer game. First, we leverage low-level semantics to progressively produce a higher-level understanding of the game and present a simple, yet effective, semantic-based decision tree to segment the following game phases: goal or goal opportunity, attack, middle and defense. In a second approach, we develop a novel network architecture coupled with a context-aware loss function to spot game events such as goals, card and substitution, and show that it achieves state-of-the-art performances on the SoccerNet dataset. As a final contribution, we publicly release a novel dataset containing high-level semantic annotations, comprising a complete set of game events and semantics related to the editing of the TV broadcast. This allows us to define four challenging tasks: action spotting, camera shot temporal segmentation, camera shot boundary detection, and replay grounding. We hope that this dataset will become the reference for high-level semantics in soccer videos.
[fr] L’étude de la sémantique permet d’interpréter des données. Dans le cas de séquences vidéos, cette sémantique fournit une analyse de la scène qui est utile dans de multiples applications pratiques. Afin de formaliser cette notion, nous définissons deux niveaux de sémantique pouvant être extraite des vidéos. Dans un premier temps, nous définissons la sémantique de bas niveau comme toute information décrivant le contenu naturel de la vidéo, c’est-à-dire les objets et l’environnement constituant la scène. Dans un second temps, nous caractérisons la sémantique de haut niveau comme étant l’interprétation des événements survenant dans cette scène. Dans la première partie de cette thèse, nous explorons de nouvelles approches permettant d’extraire de la sémantique de bas niveau dans des séquences vidéos en temps réel étant donné que la plupart des méthodes actuelles sont trop lentes. Nous nous focalisons en particulier sur trois catégories de sémantique de bas niveau: la détection de mouvement, la segmentation sémantique et la détection d’objets. Notre première contribution consiste en une méthode de combinaison asynchrone pour améliorer les algorithmes de détection de mouvement via l’introduction d’informations sémantiques provenant d’un algorithme de segmentation tout en conservant une approche en temps réel. Ensuite, nous présentons une nouvelle méthode d’entraînement de réseaux de neurones supervisée dans laquelle un réseau de segmentation rapide est entraîné tout au long de la vidéo grâce à la sortie d’un second réseau plus lent, mais plus précis. Cet entraînement, que l’on appelle la distillation en ligne, permet au réseau de s’adapter aux dernières conditions de la vidéo et d’améliorer ses performances tout en restant en temps réel. Finalement, nous montrons que cette méthode d’apprentissage est également adaptée à la détection de personnes dans le cas où les deux réseaux traitent des vidéos avec des modalités et des points de vues différents de la même scène. Dans la seconde partie, nous nous focalisons sur la sémantique de haut niveau, et plus particulièrement l’interprétation des événements dans des matchs de football. Dans un premier temps, nous montrons qu’il est possible d’utiliser l’information sémantique de bas niveau pour construire progressivement une compréhension de plus haut niveau du jeu. Nous proposons une méthode basée sur un arbre de décision sémantique pour segmenter les différentes phases de jeu: goals ou opportunités, attaque, défense et jeu médian. Nous proposons également une seconde approche pour détecter les événements de jeu tels que les goals, cartes et substitutions basée sur une nouvelle fonction de coût prenant en compte le contexte temporel entourant ces événements. Grâce à notre méthode, nous établissons un nouvel état de l’art sur la base de données SoccerNet. Comme dernière contribution, nous publions une nouvelle base de données autour de la sémantique de haut niveau. Cette base de données comprend des annotations pour l’ensemble des événements de jeu ainsi que liées à la production du flux télévisuel. Grâce à ces nouvelles annotations, nous définissons quatre tâches: la détection d’événements, la segmentation temporelle du type de caméra, la détection des changements de caméras et une dernière tâche qui vise à lier chaque rediffusion d’une action avec le moment durant lequel elle s’est déroulée. Nous espérons que cette base de données deviendra la référence en terme de sémantique de haut niveau dans des séquences de football.
Research center :
Montefiore Institute - Montefiore Institute of Electrical Engineering and Computer Science - ULiège
Disciplines :
Engineering, computing & technology: Multidisciplinary, general & others
Author, co-author :
Cioppa, Anthony ;  Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Télécommunications
Language :
English
Title :
Real-time semantics in video sequences
Alternative titles :
[fr] Sémantique en temps réel dans des séquences vidéos
Defense date :
16 December 2020
Number of pages :
x, 154+30
Institution :
ULiège - Université de Liège
Degree :
Docteur en Sciences de l'ingénieur
Promotor :
Van Droogenbroeck, Marc  ;  Université de Liège - ULiège > Montefiore Institute of Electrical Engineering and Computer Science
President :
Wehenkel, Louis  ;  Université de Liège - ULiège > Montefiore Institute of Electrical Engineering and Computer Science
Jury member :
Deliège, Adrien ;  Université de Liège - ULiège > Département d'électricité, électronique et informatique (Institut Montefiore) > Télécommunications
Louppe, Gilles  ;  Université de Liège - ULiège > Département d'électricité, électronique et informatique (Institut Montefiore) > Big Data
Barnich, Olivier
Giancola, Silvio
Moeslund, Thomas B.
Name of the research project :
Interprétation sémantique dynamique de scènes sportives par apprentissage profond
Funders :
FRIA - Fonds pour la Formation à la Recherche dans l'Industrie et dans l'Agriculture [BE]
Available on ORBi :
since 03 November 2020

Statistics


Number of views
207 (67 by ULiège)
Number of downloads
161 (41 by ULiège)

Bibliography


Similar publications



Contact ORBi