Abstract :
[en] The study of semantics intends to provide meaning to data. In the case of video sequences, semantics allows to derive an analysis of the scene, on which many real-world applications can rely. To this extent, we start by defining two levels of semantics that can be extracted from videos. First, we define as low-level semantics every information describing the natural content of the video, comprising the objects and the environment of the scene. Second, high-level semantics characterizes the interpretation of the events occurring in the scene, which relates to a deeper understanding of the role of the elements composing this scene.
In the first part, we explore several approaches to extract low-level semantics from video sequences in real time, as most current state-of-the-art methods are rather slow. In particular, we focus on three types of low-level semantics: motion detection, semantic segmentation and object detection. As a first contribution, we develop an asynchronous combination method to leverage the output of a slow segmentation network to improve the performances of a real-time background subtraction algorithm, while keeping real-time inference. As a second work, we present a novel method to train a fast segmentation network by leveraging the output of another slow, but performant, segmentation network while constantly adapting to the latest video conditions. Then, we show that this method, called online knowledge distillation, also proves to be effective for detecting players on a soccer field, even when the two networks process videos with different modalities and fields of view.
In the second part, we focus on high-level semantics describing the events taking place during a soccer game. First, we leverage low-level semantics to progressively produce a higher-level understanding of the game and present a simple, yet effective, semantic-based decision tree to segment the following game phases: goal or goal opportunity, attack, middle and defense. In a second approach, we develop a novel network architecture coupled with a context-aware loss function to spot game events such as goals, card and substitution, and show that it achieves state-of-the-art performances on the SoccerNet dataset. As a final contribution, we publicly release a novel dataset containing high-level semantic annotations, comprising a complete set of game events and semantics related to the editing of the TV broadcast. This allows us to define four challenging tasks: action spotting, camera shot temporal segmentation, camera shot boundary detection, and replay grounding. We hope that this dataset will become the reference for high-level semantics in soccer videos.
[fr] L’étude de la sémantique permet d’interpréter des données. Dans le cas de séquences vidéos, cette sémantique fournit une analyse de la scène qui est utile dans de multiples applications pratiques. Afin de formaliser cette notion, nous définissons deux niveaux de sémantique pouvant être extraite des vidéos. Dans un premier temps, nous définissons la sémantique de bas niveau comme toute information décrivant le contenu naturel de la vidéo, c’est-à-dire les objets et l’environnement constituant la scène. Dans un second temps, nous caractérisons la sémantique de haut niveau comme étant l’interprétation des événements survenant dans cette scène.
Dans la première partie de cette thèse, nous explorons de nouvelles approches permettant d’extraire de la sémantique de bas niveau dans des séquences vidéos en temps réel étant donné que la plupart des méthodes actuelles sont trop lentes. Nous nous focalisons en particulier sur trois catégories de sémantique de bas niveau: la détection de mouvement, la segmentation sémantique et la détection d’objets. Notre première contribution consiste en une méthode de combinaison asynchrone pour améliorer les algorithmes de détection de mouvement via l’introduction d’informations sémantiques provenant d’un algorithme de segmentation tout en conservant une approche en temps réel. Ensuite, nous présentons une nouvelle méthode d’entraînement de réseaux de neurones supervisée dans laquelle un réseau de segmentation rapide est entraîné tout au long de la vidéo grâce à la sortie d’un second réseau plus lent, mais plus précis. Cet entraînement, que l’on appelle la distillation en ligne, permet au réseau de s’adapter aux dernières conditions de la vidéo et d’améliorer ses performances tout en restant en temps réel. Finalement, nous montrons que cette méthode d’apprentissage est également adaptée à la détection de personnes dans le cas où les deux réseaux traitent des vidéos avec des modalités et des points de vues différents de la même scène.
Dans la seconde partie, nous nous focalisons sur la sémantique de haut niveau, et plus particulièrement l’interprétation des événements dans des matchs de football. Dans un premier temps, nous montrons qu’il est possible d’utiliser l’information sémantique de bas niveau pour construire progressivement une compréhension de plus haut niveau du jeu. Nous proposons une méthode basée sur un arbre de décision sémantique pour segmenter les différentes phases de jeu: goals ou opportunités, attaque, défense et jeu médian. Nous proposons également une seconde approche pour détecter les événements de jeu tels que les goals, cartes et substitutions basée sur une nouvelle fonction de coût prenant en compte le contexte temporel entourant ces événements. Grâce à notre méthode, nous établissons un nouvel état de l’art sur la base de données SoccerNet. Comme dernière contribution, nous publions une nouvelle base de données autour de la sémantique de haut niveau. Cette base de données comprend des annotations pour l’ensemble des événements de jeu ainsi que liées à la production du flux télévisuel. Grâce à ces nouvelles annotations, nous définissons quatre tâches: la détection d’événements, la segmentation temporelle du type de caméra, la détection des changements de caméras et une dernière tâche qui vise à lier chaque rediffusion d’une action avec le moment durant lequel elle s’est déroulée. Nous espérons que cette base de données deviendra la référence en terme de sémantique de haut niveau dans des séquences de football.