Abstract :
[en] The topic of object recognition is a central challenge of computer vision. In addition to being studied as a scientific problem in its own right, it also counts many direct practical applications. We specifically consider robotic applications involving the manipulation, and grasping of everyday objects, in the typical situations that would be encountered by personal service robots. Visual object recognition, in the large sense, is then paramount to provide a robot the sensing capabilities for scene understanding, the localization of objects of interests and the planning of actions such as the grasping of such objects.
This thesis presents a number of methods that tackle the related tasks of object detection, localization, recognition, and pose estimation in 2D images, of both specific objects and of object categories. We aim at providing techniques that are the most generally applicable, by considering those different tasks as different sides of a same problem, and by not focusing on a specific type of image information or image features. We first address the use of 3D models of objects for continuous pose estimation. We represent an object by a constellation of points, corresponding to potentially observable features, which serve to define a continuous probability distribution of such features in 3D. This distribution can be projected onto the image plane, and the task of pose estimation is then to maximize its “match” with the test image. Applied to the use of edge segments as observable features, the method is capable of localizing and estimating the pose of non-textured objects, while the probabilistic formulation offers an elegant way of dealing with uncertainty in the definition of the models, which can be learned from observations — as opposed to being available as hand-made CAD models. We also propose a method, framed in a similar probabilistic formulation, in order to obtain, or reconstruct such 3D models, using multiple calibrated views of the object of interest.
A larger part of this thesis is then interested in exemplar-based recognition methods, using directly 2D example images for training, without any explicit 3D information. The appearance of objects is also defined as probability distributions of observable features, defined in a nonparametric manner through kernel density estimation, using image features from multiple training examples as supporting particles. The task of object localization is cast as the cross-correlation of distributions of features of the model and of the test image, which we efficiently solve through a voting-based algorithm. We then propose several techniques to perform continuous pose estimation, yielding a precision well beyond a mere classification among the discrete, trained viewpoints. One of the proposed method in this regard consists in a generative model of appearance, capable of interpolating the appearance of learned objects (or object categories), which then allows optimizing explicitly for the pose of the object in the test image.
Our model of appearance, initially defined in general terms, is applied to the use of edge segments and of intensity gradients as image features. We are particularly interested in the use of gradients extracted at a coarse scale, and defined densely across images, as they can effectively represent shape as they capture the shading onto smooth non-textured surfaces. This allows handling some cases, common in robotic applications, of objects of primitive shapes with little texture and few discriminative details, which are challenging to recognize with most existing methods. The proposed contributions, which all integrate seamlessly in a same coherent framework, proved successful on a number of tasks and datasets. Most interestingly, we obtain performance on well-studied tasks of localization in clutter and pose estimation, well above baseline methods, often on par with or superior to state-of-the-art method individually designed for each of those specific tasks, whereas the proposed framework is similarly applied to a wide range of problems.
[fr] Le sujet de la reconnaissance d'objets est un problème central dans le domaine de la vision par ordinateur. En plus d'être étudié comme problème scientifique en tant que tel, il en découle également nombre d'applications pratiques. Nous nous intéressons ici aux applications robotiques telles que la manipulation et la saisie d'objets, dans les situations typiques que pourrait rencontrer un robot d'aide domestique. La reconnaissance visuelle d'objets dans ce contexte est alors cruciale pour permettre à la machine de comprendre son environnement, de localiser les objets et, finalement, de planifier des tâches comme par exemple leur saisie.
Cette thèse présente une série de méthodes qui s'appliquent à la détection, la localisation, la reconnaissance et l'estimation de pose, dans des images 2D, d'objets spécifiques et de catégories d'objets. Les techniques que nous proposons ont la particularité d'être applicables de manière générale, en considérant toutes ces tâches comme différentes facettes d'un même problème, ainsi qu'en évitant de nous focaliser sur un type particulier de caractéristiques d'images. Dans un premier temps, nous nous intéressons à l'utilisation de modèles 3D des objets, afin de faire une estimation de pose continue de ces objets. Ces modèles sont construits sur base de constellations de points, correspondant à des caractéristiques visuelles potentiellement observables, qui servent à définir une distribution de probabilités de ces caractéristiques en 3D. Cette distribution peut être projetée sur le plan image, et la tâche d'estimation de pose revient alors à maximiser la correspondance entre cette projection et l'image de la scène à analyser. En appliquant cette méthode aux bords comme caractéristiques visuelles, nous pouvons traiter des objets sans texture, et la formulation probabiliste fournit un moyen élégant de modéliser l'incertitude dans la définition des modèles. Ceux-ci peuvent ainsi être appris à partir d'observations plutôt qu'à partir de plans précisément dessinés a la main. Nous proposons par ailleurs une méthode permettant de reconstruire de tels modèles 3D à partir d'une série d'images calibrées d'un objet.
La plus grande partie de cette thèse se focalise ensuite sur la reconnaissance d'objets à base d'images-exemples, c'est-à-dire en utilisant des images 2D des objets comme données d'apprentissage, sans passer par une reconstruction 3D explicite. L'apparence d'un objet est représentée par une distribution de probabilités de caractéristiques observables (en 2D cette fois), que nous définissons de façon non paramétrique par estimation de densité par noyau. La tâche de la localisation d'objets est formulée comme la maximisation de la corrélation croisée entre les distributions représentant le modèle et l'image de test. Nous proposons aussi différents moyens d'estimer la pose continue des objets, avec une précision bien au-delà d'une simple classification parmi les vues discrètes d'apprentissage. Une des méthodes proposées dans cette optique consiste en un modèle génératif, qui peut interpoler l'apparence de l'objet sous des points-de-vue quelconques, et permet ainsi d'optimiser explicitement la pose de l'objet dans l'image.
Notre modèle d'apparence est défini en termes généraux en ce qui concerne le type de caractéristiques d'images. Nous l'appliquons à l'utilisation de bords ainsi que de gradients d'intensité. L'utilisation de gradients extraits à échelle grossière dans les images est particulièrement intéressante car ceux-ci fournissent d'utiles indices liés à la forme de surfaces. Ceci permet de gérer des objets non texturés, ou avec peu de détails visuels, courants dans des applications robotiques, qui sont difficiles à reconnaitre avec les méthodes habituelles, utilisant uniquement les bords, par exemple.
L'ensemble des contributions proposées s'intègrent dans une formulation commune, et la méthode globale résultante a été évaluée sur un ensemble de tâches et de jeux de données. Nous obtenons des performances sur les tâches de localisation et d'estimation de pose bien supérieures aux méthodes de bases, et souvent comparables voir supérieures à l'état-de-l'art sur chaque tâche spécifique, alors que le système que nous proposons s'applique de façon similaire a un large éventail de tâches.