Charger des données spatiales : alimenter PostgreSQL PostGIS

Nous avons récupéré les données spatiales qui vont servir à développer l’application cartographique puis installé la base de données et son extension spatiale qui vont servir à enregistrer les données.

Quand se pose la question de l’alimentation de la base, une multitude de solutions se profilent. On peut par exemple utiliser un outil logiciel en ligne de commande, une extension à un logiciel existant, QGIS ou Pg admin proposent de telles extensions, ou encore utiliser un ETL (Extract Transform Load) comme Geokettle afin d’automatiser le processus.

Nos jeux de données possèdent quelques particularités comme nous l’avons vu et je vais couvrir deux cas de figure pour répondre au besoin.

Gérer les tables au travers de QGIS Desktop

QGIS est une solution complète qui permet d’effectuer beaucoup d’opérations simplement à la souris et avec beaucoup de contrôle par rapport à un outil en ligne de commande. Je vais l’utiliser en priorité avec l’extension DB Manager.

Sur les anciennes version de QGIS l’extension SPIT permettait déjà l’import de fichiers au format Shapefile vers une base de données. Cette extension sera remplacée à terme par un système unifié, DB Manager que nous utiliserons pour nos besoins. (J’ai rencontré par ailleurs des problèmes d’import avec SPIT sur les dernières versions)

Import des données et coordonnées géographiques des établissements scolaires français

Ouvrez QGIS et procédez à l’ouverture du fichier de données (référez vous au document de préparation des données).

Le logiciel écarte automatiquement 120 enregistrements pour absence de géométrie, nous n’avons pas à faire l’opération manuellement.

Vous devriez alors vous retrouver avec une représentation des établissements par des points pour les établissements de métropole et d’outre mer.

Comme nous l’avons vu précédemment, le fichier possède plusieurs système de coordonnées pour les valeurs X et Y, et seules les valeurs pour la France métropolitaine et la Corse sont exprimées dans le système de coordonnées RGF93 / Lambert-93, les points pour les établissements en dehors de la métropole sont donc mal positionnés sur la carte.

Nous avons également vu qu’au niveau des attributs seul le code postal est un facteur discriminant, nous ne possédons pas d’information sur le département ou la commune.

Voyons comment éliminer simplement les établissements d’outre mer pour lesquels nous ne possédons pas de données parcellaires sur les cultures agricoles.

La liste des codes département à l’outre mer est :

971 Guadeloupe
972 Martinique
973 Guyane
974 Réunion
975 St Pierre et Miquelon
976 Mayotte
986 Wallis et Futuna
987 Polynésie Française
988 Nouvelle Calédonie

Le code postal pour la France d’outre mer commence par les 3 chiffres du code départements, on peut s’arrêter aux 2 premiers chiffres pour éliminer l’outre mer, la recherche d’un numéro 97 ou 98 en première position du code postal permet de sélectionner un enregistrement à éliminer.

Ouvrez la table d’attributs (clic droit sur la couche dans l’explorateur de couches).

Par défaut le tableau fait afficher tous les enregistrements. QGIS permet de faire une sélection d’enregistrements par filtre et d’enregistrer la sélection comme une nouvelle couche. C’est ainsi que nous allons procéder, en enregistrant la sélection de tous les enregistrements dont le code postal ne reflète pas une appartenance à la France outre mer.

Ouvrez la table d’attributs (clic droit sur la couche dans l’explorateur de couches). En bas à gauche de l’explorateur sélectionnez l’entrée déroulante Filtre avancé (Expression)

QGIS ouvre une fenêtre qui permet de construire une expression qui va permettre de filtrer les enregistrements.

Dans la liste des fonctions, sélectionnez le champ code_postal_uai dans Champs et valeurs, puis l’opérateur LIKE dans Opérateurs, puis tapez le format de valeur ‘97%’ qui signifie que l’on souhaite une valeur qui débute par les caractères ‘9’ et ‘7’ suivis de n’importes quels caractères. Vous devriez être familier du format d’expression si vous connaissez SQL, QGIS utilise un format semblable avec un jeu d’instructions SQL limité pour les expressions. Il suffit de chercher les enregistrements dont le code postal commence par 97 ou 98 et inverser la condition de recherche.

Le format complet de l’expression est :

NOT (
 "code_postal_uai"  LIKE '97%'
 OR
 "code_postal_uai"  LIKE '98%'
)
Une fois la table filtrée, sélectionnez tous les enregistrements par un clic dans l’angle gauche de la table

 

Il reste à enregistrer ces informations comme une nouvelle couche. Vous pouvez au passage vérifier sur la carte : les points sélectionnés apparaissent en jaune.

Faites un clic droit sur la couche d’établissements dans l’explorateur de couches tout en conservant la table d’attributs ouverte, sélectionnez l’entrée de menu Sauvegarder sous

QGIS vous propose de sauvegarder la couche, nous pourrions profiter de l’occasion pour transformer la couche dans une autre projection et basculer l’encodage des attributs à UTF-8 mais ne le faites pas pour le moment.

Sélectionnez le format ESRI Shapefile, le SCR de la couche RGF93 / Lambert-93, le codage ISO-8859-1 et cochez la case qui permet de n’enregistrer que les entités sélectionnées et celle qui permet d’ajouter le fichier sauvegardé à la carte. Validez puis supprimez la couche d’établissements obsolète.
Notez que QGIS limite la taille des noms d’attributs à 10 caractères lors de la sauvegarde : c’est une limitation du format Shapefile où les noms d’attributs sont limités à 10 caractères, les noms d’attribut du fichier des établissements sont donc tronqués.

 

Si vous parcourez les attributs de la couche vous pouvez constater que l’import du fichier texte ne s’est pas déroulé comme l’on pouvait s’attendre, le programme a considéré le champ code postal comme une valeur numérique et a supprimé le zéro qui préfixe les codes postaux sur quatre chiffres ! Nous allons rétablir le code postal en tant qu’attribut de type texte, complété à gauche par des caractères zéro ‘0’ sur 5 caractères.

Ouvrez les propriétés de la couche sauvegardée d’un double clic sur son nom, et sélectionnez l’onglet Champs.Cliquez sur l’icône de crayon pour basculer en mode édition : vous pouvez alors accéder à l’icône de boulier qui permet de calculer un champ.Ouvrez le calculateur de champ.

Le calculateur de champ permet de créer de nouveaux champs à partir de fonctions ou de champs existants, ou de redéfinir des champs existants. Ce qui nous importe est de redéfinir le champ de code postal afin qu’il devienne de type chaîne de caractère et soit complété à droite.

Cochez la case de création d’un nouveau champ nommé code_post de type texte et de longueur 254.
Dans la liste des fonctions vous pouvez trouver les fonctions de chaîne de caractères et plus bas les champs et valeurs, ces fonctions permettent à nouveau de construire une expression.Saisissez l’expression :
lpad("code_posta" , 5, '0')
L’expression signifie que l’on créé un nouveau champ en appliquant la fonction de chaîne de caractères complémentée à gauche sur le champ code_posta (code_postal_uai du fichier d’origine mais tronqué à 10 caractères) paramétrée pour complémenter avec des caractères ‘0’ sur une longueur de 5 caractères au total.Sélectionnez la colonne code_posta obsolète et cliquez sur l’icône de suppression à gauche du bouton de passage en édition puis désactivez le mode édition et enregistrez lorsque vous y êtes invité.

Vérifiez la modification dans la table d’attributs.

Nous allons maintenant procéder à une jointure spatiale entre deux couches de données afin de palier au manque d’informations de nos données d’établissement.

Effectuer une jointure entre 2 couches sous QGIS

Pour faire une jointure nous allons nous baser sur la position géographique des établissements et les données des fichiers IGN pour les contours administratifs des départements et communes.

Ajoutez la couche vecteur des départements récupérée lors de la préparation des données. (Faites glisser le fichier DEPARTEMENT.SHP sur la fenêtre d’application QGIS)
Rendez vous dans le menu Vecteur > Outils de gestion de données > Joindre les attributs par localisation
Paramétrez la fenêtre :

  • Indiquez une couche vecteur : indiquez la couche des établissements sur laquelle va se faire la jointure
  • Joindre la couche vecteur : indiquez la couche des données à joindre, les départements
  • Résumé de l’attribut : indiquez de prendre les attributs de la première entité au cas où plusieurs entités sont concernées par la jointure
  • Saisissez un fichier Shapefile de résultat
  • Table en sortie : lorsque les entités de la couche de départ n’ont pas de correspondance dans la couche à joindre on conserve tout de même les enregistrements

 

Après vérification dans la table attributaire, l’opération a aboutit à l’ajout des attributs de la couche département aux attributs de la couche d’établissements sauf pour une vingtaine d’établissements en bord de littoral. Cette fois recommençons l’opération en supprimant les entités de la table en sortie afin d’éliminer ces cas que nous négligerons donc parmi environ 65000 établissements.

QGIS utilise un opérateur intersection pour la jointure spatiale, je n’ai pas testé le cas où plusieurs entités seraient concernées par la jointure

Procéder à l’import

Le moment est venu d’importer les données d’établissements et départements en base. L’extension DB Manager (installée par défaut) va nous permettre de transférer ces couches vers PostGIS.

La première chose à faire avant de lancer le gestionnaire de bases de données est d’établir une connexion à la base PostGIS.

Ouvrez la fenêtre de gestion des tables PostGIS, depuis le menu
Couche > Ajouter une couche PostGIS

La fenêtre qui s’ouvre permet d’ajouter une table spatiale récupérée depuis PostGIS, c’est également à partir de cet endroit que l’on peut créer une nouvelle connexion, l’extension DB Manager ne permet pas de le faire contre toute attente.

Paramétrez une nouvelle connexion comme sur l’exemple suivant.Donnez un nom parlant à la connexion : je donne l’adresse du serveur, le type PostGIS et le nom de la base de données pour les distinguer plus tard depuis le nom.

QGIS viens d’enregistrer une nouvelle connexion à la base. Vous pouvez ensuite quitter la fenêtre d’ajout de tables PostGIS, nous reviendrons plus tard après création des tables.

Sous QGIS, ouvrez le gestionnaire de base de données :
Base de donnée > Gestionnaire de base de données > Gestionnaire de base de données

Une fois que vous avez la connexion vous pouvez charger les données d’une couche ou d’un fichier à partir du gestionnaire de base de données.

Sélectionnez la connexion dans l’explorateur, sous l’entrée PostGIS, puis cliquez sur l’icône en forme de flèche vers la gauche, elle permet de paramétrer un import.

La couche des départements est dans le système de coordonnées de référence EPSG:2154 – RGF93 / Lambert-93, l’encodage est System. (Ces informations sont visibles dans les propriétés générales de la couche). Pour importer les données nous préciserons de convertir l’encodage en UTF-8 et de passer le SCR des données en WGS 84 d’identifiant EPSG:4326.

Ce dernier point n’est pas obligatoire mais je préfère unifier les système pour faciliter les développements ultérieurs et éviter les conversions en aval entre tables de données sous PostGIS.

Paramétrez l’import de la couche des départements :

  • Saisie : vous pouvez sélectionner une couche parmi les couches du projet ouvert ou bien utiliser le bouton de navigation à droite afin de préciser le chemin vers un fichier Shapefile.
    Sélectionnez la couche DEPARTEMENT
  • Saisissez le nom de la table Departement pour la table en sortie
  • Précisez le schéma : public
  • Dans l’encart Action vous pouvez si besoin écraser la table existante
  • Précisez la clef primaire : id_geofla. Ici on réutilise l’attribut qui sert d’identifiant dans la couche, par défaut le gestionnaire créé un identifiant associé à une séquence si ce champ n’est pas renseigné
  • Précisez si vous le souhaitez la colonne de géométrie the_geom. Certaines conventions utilisent the_geom, depuis les dernières versions de PostGIS geom est utilisé comme nom de colonne par défaut
  • Précisez le SCR source : 2154
  • Précisez le SCR cible : 4326
  • Précisez le codage cible : UTF-8
  • Cochez la case afin de créer un index spatial

Une fois l’import réussi il est possible de réactualiser la liste des objets de la connexion afin de faire apparaître la table qui vient d’être crée. Les onglets du gestionnaire sur la droite permettent d’accéder aux informations sur la table, de vérifier le contenu et le rendu.

Le gestionnaire donne également accès à certaines vues, si l’on consulte la vue geometry_columns on vérifie bien la présence d’une nouvelle ligne où l’on accède aux informations sur la colonne de type Geometry que l’on a créé dans la nouvelle table. Vous pouvez à nouveau vous référer aux documents de standards sur la vue geometry_columns. La vue référence bien la colonne geom de la table Departement, de type MULTIPOLYGON et de srid 4326.

Ultérieurement j’ai rencontré des problèmes avec des requêtes spatiales sur cette table du fait que la colonne est de type MULTIPOLYGON, mais que certaines de ses entrées sont de type GeometryCollection. Une solution serait peut être de modifier dans les fichiers SQL générés les instructions de création de table. J’ai choisi par manque de temps d’ignorer (grâce à la fonction ST_IsValid()) les lignes de type GeometryCollection qui représentent un pourcentage négligeable.

Si vous observez maintenant la table sous PgAdmin vous pouvez vérifier le contenu de la colonne de géométrie sur quelques enregistrements : le contenu est au format standard WKB (Well-Known Binary), un format de représentation hexadécimal. A présent vous pouvez parcourir les fonctions spatiales de PostGIS dans l’explorateur d’objet de PgAdmin, la fonction st_astext(geometry) permet de retourner la représentation de la colonne dans le format standard WKT (Well-Known Text) que l’on utilisera ultérieurement pour les échanges d’informations entre les différents composants de l’application cartographique que l’on va mettre en place.

Un exemple de requête retournera une représentation WKT où l’on va voir apparaître des objets de type MULTIPOLYGON, le type de la colonne, avec des coordonnées en 2 dimensions (X et Y) exprimées dans le SCR de référence SRID 4326 tel que l’on peut le consulter dans la définition de la colonne dans la vue geometry_columns :

SELECT st_astext(geom) FROM "Departement" LIMIT 1;
"MULTIPOLYGON(((5.83122641362104 45.9384595782932,5.82212102507634 45.9301359535238,5.82915456688181 45.9172371235251,5.82614026745121 45.903273829068,5.81515407306268 45.8772007832312,5.80752504239684 45.8606398467483,5.80110949497983 45.8457964776072,5.79 (...)"

Procédez à l’import de la couche des établissements via DB Manager, nommez la table Etablissement et utilisez l’attribut numero_uai comme clef primaire.(Mon installation sur VPS à ressources limitées ne supporte pas le chargement de telles quantités de données au travers de la connexion au serveur de base de données. Pour les développements je travaillerai en local pour le confort d’utilisation et j’utiliserai l’utilitaire de sauvegarde et restauration pour migrer la base afin de faire fonctionner le prototype)

Attention à l’encodage des caractères… malgré les options dans DB Manager j’ai dû au préalable changer le jeu de caractères en UTF-8 en sauvegardant la couche sous un autre nom (on peut préciser le jeu de caractères lors de l’enregistrement)

Pour gagner du temps je n’ai pas supprimé d’attributs inutiles ni renommé les noms tronqués des colonnes… mais rien ne vous empêche de le faire. Lors de la sauvegarde d’une couche on peut renommer les attributs, sinon après import il suffit de passer par PgAdmin et d’effectuer un clic droit sur la table dans l’explorateur d’objets pour faire afficher les propriétés. On accède alors à la définition des colonnes dans un onglet, où l’on peut ajouter, modifier ou supprimer une colonne.

Import des données de parcelles

Traiter les parcelles une à une serait assez consommateur de temps.

Nous disposons d’une centaine de ressources sous format d’archive zip, d’en moyenne 15M, ce qui totalise environ 1,5Go.

Je fais le choix de conserver le découpage par départements plutôt que d’utiliser une table unique où l’on ajouterai les données de chaque département. Cela permettra d’interroger individuellement les tables en fonction des codes département.

Deux options se présentent alors pour interroger la France métropolitaine dans son intégralité : dans un premier temps j’utiliserai une vue, puis je couvrirai les capacités de partitionnement de tables offertes par PostgreSQL avec héritage d’une table maître pour comparer les approches.

Procéder à l’import

L’import doit se dérouler de manière automatique, on doit pour cela utiliser un script combiné à un utilitaire d’import en ligne de commande.

Pour le langage de script j’utiliserai Python qui est notamment employé sous QGIS.

Vous pouvez trouver une version embarquée sous Windows sous le répertoire d’installation de QGIS :

cd C:\Program Files\QGIS Chugiak\bin
python --version
Python 2.7.4

Pour l’utilitaire en ligne de commande j’utiliserai shp2pgsql pour la génération de fichiers SQL couplé à psql pour le chargement en base, il sont disponibles dans le répertoire d’installation de PostgreSQL :
C:\Program Files\PostgreSQL\9.3\bin

Ajouter le chemin vers ces exécutables à la variable système PATH permet de s’affranchir des chemins lorsque l’on lance une commande.

Import à l’aide de shp2pgsql

shp2pgsql convertit un fichier Shapefile en instructions SQL qui peuvent être exploitées ensuite pour alimenter une base de donnée, par psql dans notre exemple.

L’utilitaire peut être accompagné d’une interface utilisateur qui permet également le chargement (ou l’export) de plusieurs fichiers. Elle offre cependant moins de contrôle et je ne couvrirai pas son utilisation mais elle peut s’avérer pratique lorsque l’on a un nombre restreint de fichiers à importer.

Sous Windows l’utilitaire est disponible sous le répertoire d’installation de PostgreSQL :

C:\Program Files\PostgreSQL\9.3\bin\postgisgui\shp2pgsql-gui.exe

La sortie de commande de shp2pgsql peut être capturée dans un fichier SQL (ou redirigée vers un autre utilitaire sous système de type Unix)

Les paramètres de commande sont :

shp2pgsql [<options>] <shapefile> [[<schema>.]<table>]

L’ouverture d’un fichier *.shp sous QGIS nous renseigne sur le SCR et l’encodage. Un coup d’œil aux attributs permet d’ignorer les problématiques d’encodage puisque l’on travaille avec des valeurs numériques.

Au niveau des options dans notre cas de figure :

  • -s [:] Fixe le SRID en entrée et en sortie
  • -c Créé une nouvelle table et les instructions d’insertion
  • -I Créé un index spatial sur la colonne géométrie
  • -N skip Les enregistrements avec géométries vides ne seront pas importés
Si vous ne l’avez pas déjà fait, décompressez les archives de parcelles dans un répertoire !

L’usage est alors le suivant :

(Sous Windows 7 la combinaison touche SHIFT + Clic droit sur la fenêtre d’explorateur en cours permet d’ouvrir une fenêtre de commande à cet endroit, vous pouvez sinon ouvrir un terminal à l’aide de l’utilitaire cmd)

cd C:\SIG\data\parcelles\RPG_2012_004
shp2pgsql -s 2154:4326 -c -I -N skip RPG_2012_004.shp Cultures_004 > "C:\SIG\sql\Cultures_004.sql"

Le fichier SQL généré contient dans une transaction les instructions de création de table, d’indexe et de clef primaire, ainsi que les instructions d’insertion des données. La colonne géométrie est ajoutée après création de table pour être compatible avec les anciennes versions de PostGIS. Nous pourrons plus tard altérer ces instructions SQL pour tester l’implémentation avec héritage d’une table maître.

SET CLIENT_ENCODING TO UTF8;
SET STANDARD_CONFORMING_STRINGS TO ON;
BEGIN;
CREATE TABLE "cultures_004" (gid serial,
"num_ilot" varchar(12),
"cult_maj" int4);
ALTER TABLE "cultures_004" ADD PRIMARY KEY (gid);
SELECT AddGeometryColumn('','cultures_004','geom','4326','MULTIPOLYGON',2);
INSERT INTO "cultures_004" ("num_ilot","cult_maj",geom) VALUES ('004-190399','4',ST_Transform('01060000206A0800000100000001030000000100000015000000787AA5EC64362C41C9E53F4C6D195841A8A44E8015362C41BC7493087E1958417DAEB622F9352C4106F016707D195841151DC92599352C410DE02D509E195841F241CFA696352C41F697DD03A01958416519E2189C352C41D2DEE0DBA119584183C0CAE1B1352C411A2FDDE4A4195841E10B9369BB352C41EA73B565A6195841151DC965C5352C41840D4FB7A9195841AACFD556CD352C41F1F44A19AC1958416D348037E2352C4189B0E139AE19584182E2C71812362C4147E17AE4B0195841C56D34405F362C41627FD9EDA7195841499D80E673362C415E29CB20A4195841B515FB4B7C362C41D634EF20A01958416132557078362C41779CA2338E19584179C729FA7C362C41D1915C7E85195841174850BC86362C41E92631F87E195841F163CCDDA7362C41F54A590E73195841728A8EA487362C41627FD99D70195841787AA5EC64362C41C9E53F4C6D195841'::geometry, 4326));
...
CREATE INDEX "cultures_004_geom_gist" ON "cultures_004" USING GIST ("geom");
COMMIT;

Il reste à exécuter le script sur la base de données. Nous pouvons utiliser l’utilitaire psql.

psql --host=localhost --port=5432 --username=postgres --no-password --dbname=Pesticides --file="C:\SIG\sql\Cultures_004.sql"

Les options sont :

  • –host=HOTE nom d’hôte du serveur de la base de données ou répertoire de la socket (par défaut : socket locale)
  • –port=PORT port du serveur de la base de données (par défaut : « 5432 »)
  • –username=NOM nom d’utilisateur de la base de données
  • –no-password ne demande jamais un mot de passe
  • –dbname=NOM_BASE indique le nom de la base de données à laquelle se connecter
  • –file=FICHIER exécute les commandes du fichier, puis quitte

Vous pouvez vérifier l’import sous PgAdmin et supprimer la table en cascade.

Nous savons comment réaliser un import, voyons comment réaliser un traitement par lot.

Import automatisé, traitement par lot à partir d’un script

Un script très simple va permettre d’automatiser l’appel à l’utilitaire shp2pgsql avec les paramètres que nous avons validés précédemment.

Ajoutez si ce n’est pas déjà fait le chemin vers l’exécutable python à la variable système PATH

Enregistrez le script suivant dans un fichier d’extension .py placé sous le répertoire où se trouvent vos données, le script utilise le répertoire courant pour rechercher les fichiers Shapefile.

J’ai pris soin d’écrire du code portable mais vous devrez peut être procéder à des adaptations sous votre système d’exploitation.

#! /usr/bin/python
import os
import fnmatch

instructions = r'shp2pgsql -s 2154:4326 -c -I -N skip "%s" %s > "%s"'

currentdir = os.path.realpath(os.curdir)
sqldirectory = currentdir + os.sep + 'sql'
if not os.path.exists(sqldirectory):
    os.makedirs(sqldirectory)

for root, dirnames, filenames in os.walk(currentdir):
  for shapefilename in fnmatch.filter(filenames, '*.shp'):
      print shapefilename, '...'
      shapefilepath = root + os.sep + shapefilename
      tablename = 'Cultures_' + shapefilename[-6:-4]
      sqlfilepath = sqldirectory + os.sep + tablename + '.sql'
      command = instructions % (shapefilepath, tablename, sqlfilepath)
      os.system(command)

raw_input("Appuyez sur une la touche Entree pour quitter...")

Que fait le programme ?

Premièrement il créé une variable où l’on conserve un gabarit d’appel générique à la commande shp2pgsql, le nom du fichier shapefile, le nom de table et le fichier de destination sont des paramètres.

Ensuite il récupère le répertoire courant et créé si besoin un répertoire sql sous le répertoire courant.

Le programme parcours alors le répertoire courant et les sous répertoires à la recherche de fichiers d’extension .shp, lorsqu’il trouve un fichier il extrait le code du département et construit les paramètres (chemin vers le fichier, nom de table, chemin vers le fichier de destination) et appelle la commande ainsi formatée en exécution système.

Nos fichiers sql sont alors disponibles sous le répertoire sql dans le répertoire courant, il reste à les modifier à nos besoins et à les importer.

Ce deuxième script est très semblable au premier. Dans ce cas on recherche les fichiers d’extension .sql sous les dossiers du répertoire courant et lorsqu’ils sont trouvés la commande système d’appel à psql est lancée afin d’exécuter les instructions SQL contenues dans le fichier.

#! /usr/bin/python
import os
import fnmatch

instructions = r'psql --host=localhost --port=5432 --username=postgres --no-password --dbname=Pesticides --file="%s"'

for root, dirnames, filenames in os.walk(os.path.realpath(os.curdir)):
  for sqlfilename in fnmatch.filter(filenames, '*.sql'):
      print sqlfilename, '...'
      sqlfilepath = root + os.sep + sqlfilename
      command = instructions % (sqlfilepath)
      os.system(command)

raw_input("Appuyez sur une la touche Entree pour quitter...")

L’opération prend un certain temps, même en local, mais le chargement en base c’est bien déroulé.

A présent créons une vue qui regroupera l’information de toutes les tables, ou plutôt une vue matérialisée.

Une vue matérialisée, à la différence d’une vue, stocke à la fois la requête qui a permis la génération de la vue mais également les données du résultat de requête. La vue matérialisée est équivalente sur ce point à une table et il est possible de l’indexer de la même façon. Ce comportement diffère de la vue qui exécute la requête à chaque appel, ce qui dans notre cas se traduirait par des performances moindres, dans le sens où les indexes de chaque table ne seraient probablement pas utilisés au mieux.

L’inconvénient principal des vues matérialisées c’est qu’il faut rafraîchir la vue lorsque les tables impactées par la requêtes sont modifiées, ce qui ne pose pas problème par rapport à nos données qui sont des données destinées à la consultation uniquement, pas à la mise à jour. Par contre les données sont dupliquées, nous aurons donc environ 1,5Go de données en double.

Lors de la création des instruction SQL, shp2pgsql créé une colonne gid qui sert de clef primaire. Cette colonne est construite sur la base d’une séquence à partir de 1, incrémentée de 1, ce qui est problématique pour lier plusieurs tables dans une vue : nous ne devons pas utiliser l’attribut gid dans la vue, ce qui créerait des doublons de clef, mais préciser lors du chargement d’une couche sous QGIS que l’attribut de référence pour la clef est le numéro d’îlot num_ilot

Nous devons aboutir à une instruction SQL comme celle ci :

CREATE MATERIALIZED VIEW mv_cultures AS
SELECT num_ilot, cult_maj, geom FROM "cultures_01" UNION ALL
SELECT num_ilot, cult_maj, geom FROM "cultures_02" UNION ALL
(...)
SELECT num_ilot, cult_maj, geom FROM "cultures_95"

Nous possédons tous les codes département dans la table Departement, pour générer la vue il va falloir créer la requête par une instruction SQL qui récupère tous les codes département sauf les Hauts de seine et Paris pour lesquels il n’existe pas de table, puis exécuter la requête :

SELECT
 'CREATE MATERIALIZED VIEW mv_cultures AS ' ||
 string_agg(format('SELECT num_ilot, cult_maj, geom FROM "cultures_%s"', lower("code_dept")), ' UNION ALL ')
FROM
 "Departement"
WHERE
 code_dept NOT IN ('75', '92');

Vous pouvez enregistrer la requête dans un fichier et passer par psql pour générer le résultat et vérifier avant exécution.

psql --host=localhost --port=5432 --username=postgres --no-password --dbname=Pesticides --file="C:\SIG\sql\createquery.sql" --quiet --output="C:\SIG\sql\query.sql" --log-file="C:\SIG\sql\createquery.log"
psql --host=localhost --port=5432 --username=postgres --no-password --dbname=Pesticides --file="C:\SIG\sql\query.sql"

Procédez de même avec une instruction CREATE VIEW et une instruction CREATE TABLE afin de comparer les plans d’exécutions de requêtes de type SELECT.N’oubliez pas de créer clefs primaires et indexes sur la vue matérialisée et la table…

CREATE INDEX t_cultures_geom_gist ON t_cultures USING gist (geom);
ALTER TABLE t_cultures ADD PRIMARY KEY (num_ilot);

CREATE INDEX mv_cultures_geom_gist ON mv_cultures USING gist (geom);
CREATE UNIQUE INDEX ON mv_cultures (num_ilot);
Partitionnement de la table

Une autre option qui s’offre à nous est de créer une table logique à partir de plusieurs tables physiques plus petites.

PostgreSQL supporte une forme simple de partitionnement de table. Je vais l’essayer sur ce cas de figure pour le découpage départemental des données et comparer le plan d’exécution avec les autres approches.

Le fichier de configuration de PostgreSQL permet de contrôler de quelle façon le planificateur de requêtes utilise les contraintes de table pour optimiser les requêtes.

Pour modifier le paramètre d’exclusions de contraintes, il suffit d’éditer le fichier postgresql.conf (sous C:\Program Files\PostgreSQL\9.3\data) :

constraint_exclusion = partition	# on, off, or partition

Le paramètre par défaut est partition, il pourra être intéressant de modifier le paramètre pour vérifier l’impact sur les plans d’exécution.

Procédons à la création de la table logique qui sera la table maître dont les autres tables vont hériter. La table ne possède pas d’indexe, et par rapport à la définition des tables cultures, elle possède désormais un code département.

CREATE TABLE master_cultures
(
  num_ilot character varying(12),
  cult_maj integer,
  code_dept character varying(2),
  geom geometry(MultiPolygon,4326)
)
;

Il reste ensuite à créer chaque table fille avec les instructions d’héritage appropriées. Les requêtes sont construites à la volée comme précédemment, le code n’est pas très élégant mais sera à usage unique !

SELECT
 string_agg(
	 format('DROP TABLE IF EXISTS child_cultures_%s;CREATE TABLE child_cultures_%s AS SELECT num_ilot, cult_maj, (SELECT CODE_DEPT from "Departement" WHERE code_dept = ''%s''), geom FROM "cultures_%s";ALTER TABLE child_cultures_%s ADD CONSTRAINT CK_%s CHECK (code_dept = ''%s'');ALTER TABLE child_cultures_%s ADD CONSTRAINT PK_%s PRIMARY KEY (num_ilot);CREATE INDEX child_cultures_%s_geom_gist ON child_cultures_%s USING gist (geom);ALTER TABLE child_cultures_%s INHERIT master_cultures;'
	 , lower("code_dept"), lower("code_dept"), lower("code_dept"), lower("code_dept"), lower("code_dept"), lower("code_dept")
	 , lower("code_dept"), lower("code_dept"), lower("code_dept"), lower("code_dept"), lower("code_dept"), lower("code_dept")
 ), ' ; ')
FROM
 "Departement"
WHERE
  code_dept NOT IN ('75', '92');

Ces données ne sont pas destinées à être mises à jour, il n’est pas nécessaire de contrôler les opérations de mise à jour sur la table maître par des procédures stockées comme dans la documentation. (La table ne possède d’ailleurs pas de clef primaire ni d’OIDS, l’accès en édition sera interdit sous PgAdmin)

Tout ça pour ça… Et maintenant ? Contrôlons la validité de chaque vue et chaque table créées pour un usage en tant que couche vectorielle.

Contrôle du chargement des couches PostGIS sous QGIS

Afin de vérifier le chargement d’une couche PostGIS à partir de la vue, de la vue matérialisée ou de la table il faut au préalable définir une emprise pour le rendu qui soit suffisamment restreinte pour ne pas charger toutes les données depuis PostGIS sans quoi il va falloir être à nouveau très patients !

Depuis la couche GEO_FLA des communes j’ai effectué sous QGIS un zoom sur Montélimar.

Cela se fait simplement depuis la table d’attributs en sélectionnant une ligne puis en cliquant sur l’icône de zoom sur la ligne sélectionnée.

La barre de statuts en bas permet d’afficher l’emprise (icône souris à côté des coordonnées), elle s’exprime sous la forme xmin,ymin : xmax,ymax où les coordonnées sont exprimées dans le SCR du projet :

xmin,ymin : xmax,ymax EPSG:4326
4.689,44.509 : 4.803,44.601
Sous QGIS, zoomez sur une commune pour restreindre les limites d’affichage puis allez dans le menu :
Couche > Ajouter une couche PostGISSous la connexion à la base vous devez apercevoir les vues et table nouvellement crées.

Avant d’ajouter une vue, vous devez préciser à QGIS la clef primaire, le numéro d’îlot, sans quoi QGIS retournera une erreur d’invalidité de la couche.

L’ajout de la couche à partir de la table ou de la vue matérialisée est presque instantané, alors que pour la vue… eh bien, vous vous féliciterez peut être d’avoir investi dans un disque SSD dernier cri.

A l’œil nu, le rafraîchissement des polygones sur la carte prend sensiblement le même temps pour la table et la vue matérialisée lorsque l’on agrandit l’étendue représentée, il est à nouveau beaucoup plus lent en ce qui concerne la vue.

A partir de la table maître et des tables héritées l’ajout d’une couche n’est pas instantané, une douzaine de secondes sont nécessaires pour initialiser le rendu par contre le rafraîchissement est ensuite beaucoup plus réactif que pour la table et la vue matérialisée lorsque l’on représente une plus grande étendue.

Cherchons à savoir pourquoi les performances sont mauvaises avec une simple vue, quelles optimisations apporter aux autres cas et quel choix faire pour notre application.

Bilan à l’heure du choix. Explication du plan d’exécution

PostgreSQL permet de visualiser les plans d’exécution de chaque requête SQL, l’instruction EXPLAIN retourne des informations pertinentes sur le plan d’exécution qu’il va utiliser.

Pour tester les plans d’exécution dans chaque configuration je vais construire une requête spatiale afin de simplement retourner toutes les parcelles sur une étendue géographique donnée.

En effet, ce sera le mode de fonctionnement de l’application web, il importe de le tester : les librairies javascript en charge du rendu des cartes vont faire appel aux informations sur l’étendue de la carte en cours, avec possibilité d’agrandir ou rétrécir l’étendue représentée.

Lorsque l’étendue sera élevée la couche des parcelles ne sera simplement pas affichée, car elle n’apporte pas d’information particulière dans un contexte de rendu global, par contre elle sera visible dès que l’échelle de la carte sera suffisamment élevée.

Sous PostGIS, la fonction ST_MakeEnvelope créé un polygone rectangulaire à partir de coordonnées X, Y et d’un SRID.

Le format est le suivant :

geometry ST_MakeEnvelope(double precision xmin, double precision ymin, double precision xmax, double precision ymax, integer srid=unknown);

Pour la commune de CAHUZAC située dans le département de code 47, le polygone recouvrant l’étendue géographique sera donc obtenu par :

SELECT ST_AsText(ST_MakeEnvelope(0.533, 44.639, 0.589, 44.685, 4326));

L’option ANALYSE permettra de lancer l’exécution de la requête afin de disposer des temps d’exécution et nombre de lignes réels.

L’étendue géographique sera celle de l’Auvergne :

EXPLAIN ANALYSE SELECT ST_AsText(geom) FROM t_cultures WHERE geom && ST_MakeEnvelope(2, 45 , 5, 47, 4326);
EXPLAIN ANALYSE SELECT ST_AsText(geom) FROM mv_cultures WHERE geom && ST_MakeEnvelope(2, 45 , 5, 47, 4326);
EXPLAIN ANALYSE SELECT ST_AsText(geom) FROM v_cultures WHERE geom && ST_MakeEnvelope(2, 45 , 5, 47, 4326);
EXPLAIN ANALYSE SELECT ST_AsText(geom) FROM master_cultures WHERE geom && ST_MakeEnvelope(2, 45 , 5, 47, 4326);

Les résultats sur cette requête me laissent perplexe car ils semblent contradictoires avec le ressenti sous QGIS.

La méthode est certainement sujette à un problème, si quelqu’un peut m’éclairer les remarques seront bienvenues pour construire des requêtes de test plus pertinentes !

Ce article est assez long, et je m’égare. La prochaine étape sera d’installer un serveur cartographique. L’héritage de table donne des résultats corrects même si la vue semble meilleure, par rapport au ressenti sous QGIS c’est la solution que je vais retenir par défaut, je conserve toutefois la possibilité de basculer sur les autres solutions.

Faites découvrir ce billet...Email this to someonePrint this pageShare on FacebookTweet about this on TwitterShare on Google+Share on LinkedIn

Une réflexion au sujet de « Charger des données spatiales : alimenter PostgreSQL PostGIS »

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *