Reference : Intégration de la continuité spatiale dans la structure multidimensionnelle d’un entr...
Dissertations and theses : Doctoral thesis
Engineering, computing & technology : Multidisciplinary, general & others
http://hdl.handle.net/2268/182360
Intégration de la continuité spatiale dans la structure multidimensionnelle d’un entrepôt de données - SOLAP raster
English
[en] Integration of spatial continuity in the multidimensional structure of a data warehouse - raster SOLAP
Kasprzyk, Jean-Paul mailto [Université de Liège > Département de géographie > Unité de Géomatique - Cartographie et S.I.G. >]
1-Jul-2015
Université de Liège, ​Liège, ​​Belgique
Doctorat en Sciences
xviii, 248 + xxxii
Donnay, Jean-Paul mailto
Cornet, Yves mailto
Billen, Roland mailto
Libourel, Thérèse
Wijsen, Jef
Bimonte, Sandro
Wolper, Pierre mailto
[en] SOLAP ; raster ; business intelligence ; data warehouse ; data cube ; GIS ; crime mapping ; continuous field ; kernel density estimation
[fr] SOLAP ; raster ; informatique décisionnelle ; entrepôt de données ; cube de données ; SIG ; cartographie criminelle ; champ continu ; estimation de la densité par les noyaux
[en] Technological advances in recent decades have created a massive acquisition of digital data whose volume grows exponentially. To efficiently extract the information they contain, powerful tools have been developed to collect, store and analyze these data. These tools are gathered in a discipline called “business intelligence”. Among them, data warehouses are responsible for archiving data by structuring them in a multidimensional way (time, space or others). They are called data hypercubes or data cubes when they are limited to three dimensions. Hypercubes can supply OLAP (On Line Analytical Processing) systems that aim at quickly synthesizing information in interactive tables and charts for decision-makers from various fields: marketing, environment, criminology, etc. Thus, users can navigate into hypercubes using OLAP operations such as slicing on dimension members (e.g. data aggregation for the month of January in the time dimension), or drilling into hierarchies (e.g. switching from the “year” level to the “month” level in the time dimension). When OLAP is coupled with spatial analysis techniques supplied by geographic information systems (GIS), a map interface then improves the exploration of data: OLAP operations can be applied to dimensions defined in the geographical space (spatial drilling or spatial slicing). This kind of tool is called SOLAP (Spatial OLAP).
SOLAP tools currently available on the market all suffer from the same deficiency: they are unable to represent spatial dimensions (X, Y) in a continuous way. This representation is nevertheless essential for the management of spatially continuous phenomena (temperature, pollution, etc.) but also for visualizing spatially discrete events (product sales, crimes, etc.) while minimizing the Modifiable Areal Unit Problem (MAUP). This kind of visualization is used especially by the police to predict the location of future crimes through hotspot maps which are generated by the Kernel Density Estimation (KDE) method. In the field of GIS, raster data (as opposed to vector data) enable effective representation of spatial continuity through digital georeferenced grids. Whereas current SOLAP tools only consider vector data, our research uses the raster model to integrate spatial continuity into the multidimensional structure of a data warehouse feeding a SOLAP ("raster SOLAP"). Despite its underutilization in the SOLAP literature, the raster model has many similarities with a particular kind of data cube: the MOLAP cube (Multidimensional OLAP). Like a satellite image (raster) representing the two planimetric spatial dimensions and one "spectral band" dimension, a MOLAP cube is a three dimensional array whose cells’ coordinates (similar to raster pixels) enable an efficient indexation of dimensions’ members (describing the analyzed facts). In a first original model that we call "raster cube" we define the bases for a three-dimensional raster SOLAP, starting from the definition of a MOLAP cube. Unlike vector SOLAP - where spatiality is attached to a semantic dimension through pointers to geometries - our model directly integrates spatial dimensions (X, Y) in the multidimensional structure of the data warehouse. With this original feature, any geographical entity (country, building, road, etc.) can be imported on the fly as a member in the analysis of the user, which is hardly possible with conventional vector SOLAP tools. An extension of this SOLAP model, called "raster hypercube", is then developed by entrusting the management of extra non-spatial dimensions to a relational database management system (Relational OLAP or ROLAP). The raster hypercube is then populated by KDE raster fields representing crime densities, which are defined in a continuous space (raster dimensions) through time and crime types (ROLAP dimensions). Our model is able to combine the production of hotspot maps at different scales of analysis with SOLAP navigation operations: slicing on spatial or non-spatial members, and drilling into the hierarchy of spatial or non-spatial dimensions.
Our raster hypercube model is validated by an operating prototype which is based on open source tools only. Several datasets are integrated through KDE fields, including crime data from London and Seattle. At the end of our work, the results of a comparative study between raster SOLAP and vector SOLAP demonstrate that hybrid vector/raster SOLAP architectures present the same interest for spatial data as hybrid ROLAP/MOLAP architectures do for purely semantic data (management of detailed hypercubes
[fr] Les progrès technologiques de ces dernières décennies ont engendré une acquisition massive de données numériques dont le volume croît exponentiellement. Afin de retirer efficacement l’information qu’elles contiennent, de puissants outils de collecte, de stockage et d’analyse ont été développés et rassemblés dans une discipline appelée « informatique décisionnelle ». Parmi ces outils, les entrepôts de données sont responsables de l’archivage des données en les structurant de manière multidimensionnelle (temps, espace ou autres). On parle alors d’hypercubes de données ou de cubes de données lorsqu’ils sont limités à trois dimensions. Ces hypercubes peuvent alimenter des systèmes OLAP (« On Line Analytical Processing ») dont le rôle est de synthétiser rapidement l’information sous forme de tableaux et graphiques interactifs destinés aux décideurs de divers domaines : marketing, environnement, criminologie, etc. L’utilisateur navigue ainsi dans un hypercube au moyen d’opérations OLAP telles que des coupes sur les membres de dimension (par exemple : agrégation des données sur le mois de janvier de la dimension temporelle) ou des forages dans des hiérarchies (par exemple : passage du niveau « année » au niveau « mois » de la dimension temporelle). Lorsque l’OLAP est couplé aux techniques d’analyse spatiale proposées par les systèmes d’information géographique (SIG), une interface cartographique vient enrichir l’exploration de l’utilisateur et les opérations OLAP peuvent être appliquées sur des dimensions définies dans l’espace géographique (forage spatial ou coupe spatiale). Ce type d’outil est appelé SOLAP (« Spatial OLAP »).
Les SOLAP proposés actuellement sur le marché souffrent tous de la même carence : ils sont incapables de représenter les dimensions spatiales (X, Y) de manière continue. Cette représentation est pourtant essentielle pour la gestion des phénomènes spatialement continus (température, pollution, etc.), mais aussi pour visualiser des phénomènes spatialement discrets (ventes de produits, crimes, etc.) tout en minimisant le problème des unités spatiales modifiables (« Modifiable Areal Unit Problem » ou MAUP). Ce type de visualisation est notamment utilisé par la police pour prédire l’emplacement des futurs délits au moyen de cartes de points chauds (« hotspots ») en estimant leur densité par la méthode des noyaux (« Kernel Density Estimation » ou KDE). Dans le domaine du SIG, les données raster (en opposition aux données vectorielles) permettent une représentation efficace de la continuité spatiale à travers des grilles numériques géoréférencées. Alors que les outils SOLAP actuels ne considèrent que le modèle vectoriel, cette recherche exploite le modèle raster afin d’intégrer la continuité spatiale dans la structure multidimensionnelle d’un entrepôt de données alimentant un SOLAP (« SOLAP raster »).
Malgré sa sous-exploitation dans la littérature SOLAP, le raster présente de nombreux points communs avec un type de cube de données particulier : le cube MOLAP (« Multidimensional OLAP »). A l’instar d’une image satellitaire (raster) représentant les deux dimensions spatiales planimétriques et une dimension « bande spectrale », un cube MOLAP est un tableau tridimensionnel dont les coordonnées des cellules (comparables aux pixels d’un raster) permettent une indexation efficace des membres de dimensions décrivant les faits analysés par l’utilisateur. Dans un premier modèle que nous appelons « cube raster », nous définissons les bases d’un SOLAP raster à trois dimensions en partant de la définition d’un cube MOLAP. Contrairement aux SOLAP vectoriels où la spatialité est rattachée à une dimension sémantique au moyen de pointeurs vers des géométries, notre modèle intègre directement les dimensions spatiales planimétriques (X, Y) dans la structure multidimensionnelle de l’entrepôt de données. Grâce à cette caractéristique originale, n’importe quelle entité géographique (pays, bâtiment, route, etc.) peut être importée à la volée comme membre dans l’analyse de l’utilisateur, ce qui est difficilement envisageable avec un outil SOLAP vectoriel classique. Une extension de ce modèle SOLAP, appelée « hypercube raster », est ensuite développée en confiant la gestion de dimensions non-spatiales supplémentaires à un système de gestion de base de données (SGBD) relationnel (« Relational OLAP » ou ROLAP). L’hypercube raster est ensuite peuplé par des champs raster KDE représentant des densités de criminalité en fonction d’un espace continu (dimensions raster), des types de délits, et du temps (dimensions ROLAP). Notre modèle est ainsi capable de combiner la production de cartes de hotspots à différentes échelles d’analyse avec les opérations de navigation SOLAP : forages dans la hiérarchie d’une dimension spatiale ou non-spatiale, et coupes selon un ou plusieurs membres spatiaux ou non-spatiaux.
Le modèle d’hypercube raster exploitant des champs KDE est validé par un prototype opérationnel basé sur une architecture complètement « open source ». Plusieurs jeux de données y sont intégrés, notamment des données de criminalité provenant de Londres et Seattle. A la fin de ce travail, les résultats d’une étude comparative entre SOLAP raster et SOLAP vectoriel démontrent qu’une architecture SOLAP hybride vecteur/raster présenterait le même intérêt d’un point de vue spatial que les architectures hybrides ROLAP/MOLAP pour des données purement sémantiques (gestion des hypercubes détaillés par le vecteur ou le ROLAP et gestion des hypercubes moins détaillés par le raster ou le MOLAP).
Unité de Géomatique (Université de Liège)
Researchers ; Professionals
http://hdl.handle.net/2268/182360
http://nolap01.ulg.ac.be/rastercube

File(s) associated to this reference

Fulltext file(s):

FileCommentaryVersionSizeAccess
Open access
these_jpk_numerique.pdfAuthor postprint7.8 MBView/Open

Bookmark and Share SFX Query

All documents in ORBi are protected by a user license.