Représenter un résultat de requêtes spatiales sous PostgreSQL PostGIS depuis un client web

Dans l’objectif de développer une application cartographique, nous avons au niveau des données récupéré des jeux de données spatiales, installé la base de données et son extension spatiale et finalement chargé les données en base. Nous avons également mis en place un serveur cartographique qui fournit les données au travers du réseau, et construit les bases de l’application dans un client web pour interroger le serveur cartographique et afficher les premiers éléments de carte.

L’application ne se contente pas d’afficher des données statiques, mais elle doit permettre de représenter l’information dynamiquement en effectuant des requêtes en fonction du contexte d’utilisation. C’est la partie que nous allons développer dans ce document.

Préparation de l’interface cartographique

La première étape est de préparer l’interface graphique et recadrer le contexte.

Nous avons vu comment appeler les services WMS et WFS que nous avons mis en place pour générer une carte simple où la proximité des établissements scolaires aux parcelles cultivées sur la Gironde était affichée de façon statique sur une carte rendue disponible dans un navigateur web par les librairies Leaflet et OpenLayers 3.

Dans la suite de ce document j’utiliserai la librairie Leaflet mais le principe est identique pour OpenLayers 3 et le code peut être adapté.

Question de volumétrie nous n’avons pas sur ce prototype intégré les données parcellaires sur toute les régions. Voyons en premier lieu comment adapter le code pour afficher les parcelles cultivées sur la France métropolitaine, puis explorons les fonctionnalités à paramétrer sur la carte.

Représentations des couches cartographiques depuis le serveur cartographique

Premièrement le programme représente le fond de carte par l’appel aux serveurs de tuiles d’OpenStreetMap, puis il fait appel au serveur QGIS Server pour récupérer les données géométriques des départements français dont il effectue le rendu à la volée. Ces fonctionnalités sont identiques à celles du premier prototype.

Ensuite le programme effectue le rendu des parcelles pour la France métropolitaine. Il interroge le serveur WMS qui génère une image pour la vue en cours.

var wmsLayerParcelles = L.tileLayer.wms(project, {
    layers: 'Parcelles',
    format: 'image/png',
    transparent: true,
    minZoom: 10,
    maxZoom: 18,
    opacity: 0.55,
});
wmsLayerParcelles.addTo(map);

Cette fonctionnalité a été expliquée, la nouveauté est l’apparition des paramètres minZoom et maxZoom qui vont permettre de conditionner le rendu de la couche au niveau d’agrandissement en cours sur la carte. En d’autres termes la librairie ne fera pas appel au serveur pour représenter les parcelles en dessous d’un niveau d’agrandissement fixé à 10. Cela permet de limiter la quantité d’informations de parcelles sur une image, et donc à la fois le travail de représentation des données du serveur et le trafic sur le réseau où seraient transférées des images trop volumineuses.

Si le rendu est effectué côté serveur, on souhaite également accéder aux caractéristiques des parcelles pour indiquer le numéro d’îlot et le type de culture. Cela peut être fait à un niveau d’agrandissement encore supérieur afin de limiter la taille des fichiers échangés, en faisant appel au service WFS.

map.on('zoomend moveend', function() {
...
    if (map.getZoom() > 15)
        getJsonLayerParcelles(map.getBounds());
});

On va préciser au gestionnaire d’événements de mettre en écoute les opérations d’agrandissement et de glisser-déposer.

Lorsque ces événements arrivent, on vérifie le niveau d’agrandissement de la carte et s’il est supérieur à la valeur seuil que l’on a choisi pour faire figurer les données, on charge la couche vectorielle de façon asynchrone pour l’étendue géographique en cours sur la carte.

var jsonLayerParcelles = null;

function getJsonLayerParcelles(bounds) {

    var getFeatureParcelles = project + '?SERVICE=WFS'
        + '&VERSION=1.1.0'
        + '&REQUEST=GetFeature'
        + '&TYPENAME=Parcelles'
        + '&SRSNAME=EPSG:4326'
        + '&outputFormat=GeoJSON'
        + '&BBOX=' + bounds.toBBoxString();

    var proxy = host + '/proxy.php?callback=getGeoJson&url=';

    var proxyURL = proxy + encodeURIComponent(getFeatureParcelles);

    var jsonLayerParcelles = L.geoJson(null, {
        style: function (feature) {
            return {
            fillColor: 'rgb(255,255,255)',
            color: 'rgb(175,179,138)',
            weight: 1,
            opacity: 1,
            fillOpacity: 0,
            dashArray: '1,5',
            };
        },
        onEachFeature: function (feature, layer) {
            var content = 'Parcelle N° ' + feature.properties['num_ilot'] + '<br />';
            content += getCulture(feature.properties['cult_maj']);
            layer.bindPopup(content);
        }
    });

    $.ajax({
        url: proxyURL,
        dataType: 'jsonp',
        jsonpCallback: 'getGeoJson',
        success: function (response) {
            L.geoJson(response, {
                onEachFeature: function (feature, layer) {
                    jsonLayerParcelles.addData(feature)
                }
            });
        }
    });
    jsonLayerParcelles.addTo(map);
}

Le principe de chargement de la couche vectorielle est le même que pour les départements sauf que cette fois-ci on passe l’étendue géographique dans l’url du service. Cela se fait via deux opérations, map.getBounds() et bounds.toBBoxString().

Remarquez que pour chaque objet récupéré on attache un contenu qui s’affichera dans un popup au clic sur la couche. Le contenu est mis en forme par rapports aux propriétés récupérées.

Comme le rendu est déjà effectué sous forme d’image côté serveur, l’opacité est fixée pour rendre transparent le remplissage des polygones, le contour est quand à lui représenté en pointillés grâce à l’option de style dashArray. Cela permet de faire figurer les parcelles qui ont été représentées en blanc opaque ou transparence car ce ne sont pas des cultures mais des prairies ou des gels de cultures.

Finalement par rapport au premier prototype, un contrôle a été ajouté pour utiliser le géocodage d’adresses afin de localiser une destination sur la carte.

        <link rel="stylesheet" href="css/Control.OSMGeocoder.css" />
        <script src="js/Control.OSMGeocoder.js"></script>
var osmGeocoder = new L.Control.OSMGeocoder({
    collapsed: false,
    position: 'topright',
    text: 'Allez!'
});
osmGeocoder.addTo(map);

Paramétrage de fonctionnalités sur la carte

Une extension à la librairie Leaflet permet de faire figurer sur la carte une barre latérale qui a la capacité de se déplier et replier au clic sur les icônes de la barre.

J’ai adapté les styles css pour effectuer un rendu qui laisse entrevoir le fond de carte par transparence.

L’extension est disponible sous Leaflet comme sous Openlayers, elle me semble un bon choix relativement standardisé pour apporter des fonctionnalités à la carte sans développer une multitude de contrôles.

L’extension requiert le chargement de ressources css et javascript, ainsi que du jeux d’icônes vectorielles sous police de caractères font-awesome. Je fais également appel aux polices de caractères Google pour le rendu du contenu de la barre latérale.

        <link href='http://fonts.googleapis.com/css?family=Lato:400,700|PT+Sans:400,700|Roboto:400,500,700' rel='stylesheet' type='text/css'>
        <link href="http://maxcdn.bootstrapcdn.com/font-awesome/4.1.0/css/font-awesome.min.css" rel="stylesheet">
...
        <script src="js/leaflet-sidebar.min.js"></script>

L’extension requiert de modifier la classe de style appliquée au conteneur de carte.

<div id="map" class="sidebar-map"></div>

Le contenu de la barre est simplement mis en place par une convention de balises html que je ne reprendrai pas ici, l’extension étant bien documentée.

Un onglet de paramètres permettra à l’utilisateur de configurer la carte. En termes de fonctionnalités on souhaite à minima paramétrer la distance qui caractérise la proximité des établissements aux parcelles, d’autres fonctionnalités peuvent permettre de faire une sélection des établissements à représenter en fonction de la surface des parcelles en contact, des types de cultures, etc…

Ces fonctionnalités requierent d’interroger la base de données après soumission d’un formulaire, l’interrogation se fait au moyen de requêtes spatiales sur Postgis, sachant que l’appel s’effectue en Ajax et que le serveur retournera des informations en Json.

Requêtes spatiales

Avant de passer au mécanisme de communication entre la carte et la base de données, nous allons procéder à l’étude des requêtes spatiales qui feront toute l’importance des données représentées.

La détermination de risques est une problématique complexe, ce que l’application propose n’est pas d’évaluer un risque mais d’exposer des facteurs de risques potentiels qui découlent simplement du bon sens. La démarche est de déterminer des populations d’élèves qui pourraient être impactées par ces critères afin de construire des échantillons de population sur lesquels effectuer des prélèvements pour évaluer l’exposition effective aux pesticides.

Intuitivement le risque d’exposition aux pesticides augmente quand :

  • L’aire cultivée augmente à proximité de la population. Une requête spatiale doit opérer un calcul d’aire. L’aire peut être représentée par un symbole proportionnel.
  • Il existe plusieurs types de cultures différentes à proximité d’une population. (multiplication de la nature des pesticides, et des horaires d’épandage). Une requête doit permettre de comptabiliser les cultures à proximité d’une population
  • La catégorie de culture est plus ou moins consommatrice de pesticides. Un indicateur existe, l’IFT, qui permet de mesurer la pression phytosanitaire (quantités et fréquences d’épandage) d’un sol mais il ne prend pas en compte la toxicité des pesticides, le type de culture sera par conséquent affiché seulement à titre informatif, il donne quand même une information exploitable car on a connaissance par exemple de la toxicité des traitements en viticulture. Les requêtes doivent éliminer les pâturages et gels de cultures

La carte sera imparfaite. Un certain nombre de paramètres influeront les résultats, par exemple :

  • Il n’est pas possible de prendre en compte la rotation des cultures. Les données de parcelles sont des déclarations relevées en 2010, ces données sont anciennes, et comportent nécessairement des erreurs. Un parallèle pourra être mis en place avec une carte aérienne.
  • Les cultures bio sont négligées faute de données. (De l’ordre de 3% des cultures)
  • Le centroide des établissements n’est pas l’aire des bâtiments, si l’on considère une proximité de 500 mètres aux coordonnées de latitudes et longitude de l’établissement, la proximité réelle aux salles de classe ou à la cours de récréation peut être moindre
  • Les vents dominants et l’age du proviseur ne sont pas pris en compte !

Fonctions spatiales PostGIS, géométrie ou géographie ?

Consultez la référence PostGIS !

PostGIS dispose d’un jeu très complet de fonctions spatiales, et l’on abordera que très peu d’entre elles. Sachez toutefois que PostGIS change de convention de nommage pour standardiser le nom des fonctions par l’ajout du préfixe spatial ST_ à chaque fonction. Cela signifie que si vous recherchez des exemples d’utilisation sur Internet il vous faudra probablement retirer le préfixe…

Les fonctions spatiales peuvent pour certaines fonctionner avec plusieurs types de paramètres. Des conversions (implicites ou explicites) peuvent être effectuées entre certains types. Les types de paramètres sont :

  • box2d : est une boîte composée de coordonnées xmin, ymin, xmax, ymax. Souvent utilisé pour retourner la boîte englobante 2D d’une géométrie.
  • box3d : est une boîte composée de coordonnées xmin, ymin, zmin, xmax, ymax, zmax. Souvent utilisé pour retourner la mesure 3D d’une géométrie ou le recouvrement des géométries.
  • geometry : est le type de données spatiales utilisé par PostGIS pour représenter une fonction dans le système de coordonnées Euclidien. L’unité est celle du SRID.
  • geometry_dump : est un type de données spatiales avec deux champs, geom et path[] qui sont respectivement un objet de géométrie et un tableau qui contient la position de la géométrie dans l’objet de dump
  • geography : est un type de données spatiales utilisée pour représenter une entité dans le système de coordonnées sphériques terrestres. L’unité est le mètre carré.

Nous utiliserons les types geometry et geography. Nos données sont enregistrées dans le type geometry et pour nos besoins nous voudrons calculer des distances en mètres ou des superficies en mètres carrés, cela implique de faire des conversions de type geometry vers type geography et vice versa.

geom::geography
geom::geometry

Sont des exemples de conversions explicites. (Vous pouvez vous référer à la documentation pour savoir quels types peuvent être convertis en autres types)

Dernière remarque concernant les types, l’unité géographique d’une superficie est le mètre carré. Pour des raisons évidentes nous emploieront plus volontiers le kilomètre carré ou l’hectare pour donner une information.

Les conversions d’unités sont les suivantes :

1 mètre carré = 1 * 10^-6 kilomètre carré   (ou encore 1 / 1000000)
1 mètre carré = 1 * 10^-4 hectare   (ou encore 1 / 10000)

Préparation des requêtes

Calcul de l’aire d’un polygone

ST_Area – Retourne l’aire de la surface d’un polygone ou multi-polygone.

Pour l’exemple je vais calculer l’aire de chaque département. La colonne est de type géométrique, il suffit de faire une conversion de type pour retourner la surface en mètres carrés.

SELECT nom_dept, ST_Area(CAST(geom As geography)) * POWER(10, -6) as geom FROM "Departement";

Distance entre géométries

La recherche d’établissements à proximité de zones cultivées peut être réalisée au travers de plusieurs fonctions, le problème qui va se poser est celui des performances.

ST_DWithin – Renvoie la valeur vraie si les géométries sont dans la distance spécifiée l’une à l’autre. Pour les unités géographiques la distance est exprimée en mètres, la mesure s’effectue par défaut autour d’un sphéroïde.

ST_Distance – Pour des champs de type géographie, retourne la distance minimale entre deux géographies sphéroïdale en mètres.

ST_Buffer – Pour un champ de type géométrie, retourne une géométrie qui représente tous les points dont la distance à l’objet géométrique est inférieure ou égale à la distance. Les calculs sont dans le système de référence de l’objet. Pour une géométrie de type point le résultat sera approximativement un cercle ayant pour centre le point et pour rayon la distance.

ST_Intersects – Retourne la valeur vraie si les géométries / géographie « se croisent spatialement en 2D » – (possèdent une partie de l’espace en commun) et la valeur faux sinon (les objets sont disjoints). Pour la géographie – la tolérance est 0,00001 mètres (donc tous les points qui sont considérés fermés retournent la valeur vraie)

Si l’on s’appuie sur les deux premières fonctions, il suffit en théorie de faire une jointure de la table d’établissement avec la table (ou la vue matérialisée) des cultures sur la géométrie des objets trans-typée en géographie sur la distance souhaitée. L’approche est intuitive mais n’exécutez pas la requête qui suit…, pour une proximité de 50 mètres on peut tenter d’évaluer le temps d’exécution :

EXPLAIN SELECT 
e.numero_uai, e.denominati, e.geom, c.num_ilot, c.cult_maj
FROM "Etablissement" e, "master_cultures" c 
WHERE ST_DWithin(e.geom::geography, c.geom::geography, 50);

Le coût d’exécution est estimé à :

"Nested Loop  (cost=0.00..119895256281.96 rows=132693 width=104)"

La requête prendrait un temps indécent à s’exécuter !

Pour une utilisation en ligne il est impératif de compiler au préalable les données. Ma première idée est d’établir un distancier entre le centroide des établissements et les parcelles de cultures à moins de 1500 mètres, le seuil de distance maximale qui sera proposé à l’utilisateur.

En volumétrie, nous avons 64.901 établissements et 6.132.686 parcelles, soit sans seuil potentiellement 398.017.454.086 lignes !

EXPLAIN 
SELECT count(e.numero_uai)
FROM "Etablissement" e, "master_cultures" c
WHERE ST_DWithin(e.geom::geography, c.geom::geography, 1500);
"Aggregate  (cost=119116282174.69..119116282174.70 rows=1 width=9)"

Cette approche permettrait d’enregistrer les distances dans une table indexée mais cette opération est toujours indécente si l’on considère le temps d’exécution initial.

Une telle quantité de parcelles cultivées est très pénalisante, peut-être peut-on éliminer certaines parcelles de l’équation ? Le type de culture est donné par un numéro. On peut éventuellement éliminer certains types, comme les prairies, qui ne sont pas à priori à prendre en considération.

select count(num_ilot) from master_cultures
where cult_maj not in (18, 19);

Retirer les prairies et prairies temporaires permet de diviser par deux le nombre de lignes de la table de cultures, cela reste toutefois très insuffisant.

Il faut envisager une autre approche. Si le coût d’une opération ST_DWithin() est trop important peut être que l’opération ST_Intersects() se révélera plus rapide.

Si l’on se base sur le centroide des établissements pour créer une zone tampon de 1500 mètres autour de l’établissement on peut chercher l’intersection entre la zone tampon et les parcelles, puis on pourra rechercher la distance sur les cas limités où la proximité est avérée.

create table tampon_etas as
select e.numero_uai, e.geom as centre_geom, ST_Buffer(e.geom::geography, 1500)::geometry as geom 
FROM "Etablissement" e;

La première opération est triviale, il suffit d’employer la fonction ST_Buffer() autour de la géométrie de l’établissement, de type POINT, sur un rayon de 1500 mètres pour créer une nouvelle géométrie. Cette opération prend environ 13 secondes, suite à quoi on peut ajouter des indexes spatiaux. La géométrie du point est conservée, elle matérialise le centre de la zone tampon, à partir duquel sera calculée la distance aux cultures.

CREATE INDEX tampon_cgeom_gist ON tampon_etas USING gist (centre_geom) TABLESPACE pg_default;
CREATE INDEX tampon_geom_gist ON tampon_etas USING gist (geom) TABLESPACE pg_default;

Tentons d’évaluer l’opération d’intersection…

EXPLAIN SELECT t.numero_uai
FROM "tampon_etas" t, "master_cultures" c 
WHERE ST_Intersects(t.geom, c.geom);
"Nested Loop  (cost=0.28..176252434.15 rows=132693478 width=9)"

Le coût est très élevé mais déjà divisé par 1000 par rapport aux premières approches. Nous pouvons tenter d’exécuter une requête sur les cultures d’un seul département, et multiplier le temps d’exécution par le nombre de départements pour avoir une estimation du temps d’exécution.

SELECT t.numero_uai
FROM "tampon_etas" t, "cultures_01" c 
WHERE ST_Intersects(t.geom, c.geom)
AND cult_maj not in (18, 19);

Malheureusement l’opération retourne une erreur !

ERREUR:  GEOSIntersects: TopologyException: side location conflict (...)

L’opération n’abouti pas car certaines données de la table de cultures sont invalides, PostGIS possède des fonctions qui permettent de vérifier les données, ou encore de réparer des données.
Si le taux d’erreur n’est pas trop élevé on pourra ignorer les parcelles dont les données sont en erreur.

ST_IsValid – Teste une valeur géométrique et retourne la valeur vrai si la géométrie est bien formée.

ST_IsSimple – Teste une valeur géométrique et retourne la valeur vrai si la géométrie n’a pas de point géométrique invalide comme une auto-intersection ou auto-tangence.

Notez que la géométrie de la table des cultures est de type MULTIPOLYGON, mais que certaines de ses entrées sont de type GeometryCollection, il y a une incohérence de type pour certaines entrées.

SELECT count(*)
FROM "cultures_01" c 
WHERE cult_maj not in (18, 19)
AND NOT ST_IsValid(geom);

142 géométries se révèlent invalides sur 63962 géométries testées, soit environ 2 pour mille. Par rapport à notre besoin on peut se contenter d’ignorer les parcelles dont la géométrie est invalide, le résultat sera négligeable.

SELECT t.numero_uai, c.num_ilot,
t.geom as eta_geom, c.geom as cul_geom,
ST_Distance(t.centre_geom::geography, c.geom::geography) as distance
FROM "tampon_etas" t, "master_cultures" c
WHERE
ST_IsValid(c.geom)
AND ST_Intersects(t.geom, c.geom)
LIMIT 100;

Lorsque l’intersection entre la zone tampon et les cultures retourne la valeur vrai on peut récupérer la distance du centre du tampon à la géométrie de la culture. Cela souffre un peu d’imprécision, mais la fonction ST_DWithin() est contre performante dans ce cas. Il ne reste plus qu’à créer la table qui conservera les distances, c’est cette table que nous interrogerons.

explain CREATE TABLE intersect_etabs AS 
SELECT t.numero_uai, e.code_dept, c.num_ilot,
t.centre_geom as eta_tampon_geom, c.geom as cul_geom,
CAST(floor(ST_Distance(t.centre_geom::geography, c.geom::geography)) as smallint) as distance
FROM 
	"tampon_etas" t INNER JOIN "Etablissement" e on t.numero_uai = e.numero_uai, 
	"master_cultures" c
WHERE
c.cult_maj not in (18, 19) 
AND ST_IsValid(c.geom)
AND ST_Intersects(t.geom, c.geom);

La création prend 25 minutes… J’ai transformé la distance calculée afin d’utiliser un entier de petite dimension qui sera plus rapide à interroger qu’un nombre avec décimales.

Une jointure sur la table d’établissements permet de récupérer au passage le code du département.

select * from intersect_etabs where distance < 300;

La requête prend environ 33 secondes sur l’ensemble de la table sans utiliser d’étendue. Ce résultat n’est pas exploitable sur l’étendue de la France métropolitaine, d’une part parce que le résultat est trop long à retourner, d’autre part parce que cela ferait représenter trop d’établissements sur la carte.

La solution est d’exécuter la requête uniquement lorsque le niveau d’agrandissement est adéquat, on profite alors des capacités de l’indexe spatial. Au niveau de la vue sur la France entière, on pourra faire afficher au niveau de chaque département le nombre d’établissements à proximité de parcelles cultivées dans un symbole de cercle proportionnel. Nous devons au préalable compiler les informations pour les départements pour chaque option de distance proposée à l’utilisateur dans l’interface.

Vérifions en premier lieu la réactivité de la requête spatiale sur une étendue géographique limitée.

Limiter la requête spatiale PostGIS à une étendue géographique

ST_MakeEnvelope – Crée un polygone rectangulaire formé à partir des minimums et maximums donnés. Les valeurs en entrée doivent être spécifiées dans le système de coordonnées géographiques spécifié par le SRID.

Sous PostGIS on peut utiliser la fonction ST_MakeEnvelope(left, bottom, right, top, srid) pour construire l’enveloppe de sélection de l’étendue géographique, qui associée à l’opérateur && sur la géométrie de l’objet permet de trouver l’intersection entre l’enveloppe et la géométrie.

CREATE INDEX intersect_etabs_cul_geom_gist
  ON intersect_etabs
  USING gist
  (cul_geom);
SELECT * FROM intersect_etabs 
WHERE cul_geom && ST_MakeEnvelope(0.23036956787109372,44.9590891448628,0.3277873992919922,45.00419734261587, 4326)
AND distance < 1000;

La requête s’exécute en 11 ms, ce qui est compatible avec une utilisation en temps réel sur la carte.

Compilation des données par département

L’objectif est de créer une table, relativement longue à générer mais très rapide à interroger.

WITH   proximites(a) AS ( VALUES ('{100, 250, 500, 750, 1000, 1250, 1500}'::int[]) )
SELECT generate_subscripts(a, 1) AS idx, unnest(a) AS proximite
FROM   proximites;

Cette première requête permet de générer l’ensemble des proximités aux établissements proposées à l’utilisateur, elle peut être utilisée dans une requête plus complexe de création de table.

CREATE TABLE proximites AS (
WITH   proximites AS (
WITH generateur(a) AS ( VALUES ('{100, 250, 500, 750, 1000, 1250, 1500}'::int[]) )
SELECT generate_subscripts(a, 1) AS idx, unnest(a) AS valeur
FROM   generateur
)
SELECT p.valeur as proximite, count(distinct i.numero_uai) as intersections, i.code_dept 
FROM proximites p
LEFT JOIN intersect_etabs i
ON i.distance < p.valeur
GROUP BY p.valeur, i.code_dept
ORDER BY p.valeur, i.code_dept
)

L’évolution de la table pour d’autres valeurs est simple à réaliser…

INSERT INTO proximites (
SELECT '250'::text as proximite, count(distinct i.numero_uai) as intersections, i.code_dept 
FROM intersect_etabs i 
WHERE i.distance < 250 
GROUP BY i.code_dept
)

Vérifions que les résultats sont conformes aux attentes de réactivité.

select intersections, code_dept from proximites where proximite = '250';

Nous sommes bien sous les 10 ms.

Nous avons compilé les données et examiné les requêtes spatiales qui vont permettre l’interactivité avec l’utilisateur depuis la carte. Nous pouvons désormais utiliser la table des intersections entre établissements et cultures sur une étendue géographique donnée, et à niveau de détail moins élevé la table qui recense le nombre d’établissements en fonction de la proximité aux cultures pour chaque départements.

Voyons comment représenter dynamiquement ces informations sur la carte.

Représenter les résultats JSON de requêtes spatiales

Le principe est simple. Une carte est crée qui constitue la vue par défaut. Une interaction utilisateur va déclencher le changement de la vue pour s’adapter au contexte. Techniquement un écouteur d’événements est mis en place dans le code Javascript qui s’exécute côté client sur le navigateur Internet.

Au déclenchement d’un événement, un appel Javascript asynchrone interroge un script distant qui retourne l’information au format JSON. Le script distant a pour responsabilité de faire des requêtes spatiales sur la base de données et mettre en forme le contenu au format d’échange.

Le contenu retourné peut comporter des informations spatiales à représenter sous la librairie Javascript, dans ce cas le contenu d’échange sera du JSON, qui pourra inclure des objets GeoJSON. Nous utiliserons ce principe pour récupérer les points qui permettrons de localiser et représenter les établissements dans la vue détaillée, toutefois ce n’est pas obligatoire : en effet dans notre cas nous avons déjà interrogé le serveur cartographique depuis le service WFS afin de disposer des éléments de représentation des départements, pourrait nous suffire dans la vue générale de l’information de décompte des établissements par département. Le décompte pourrait très bien être affiché par rapport à la géométrie des départements déjà connue.

Script de proxy à la base de données PostgreSQL

Le script distant agit comme un proxy, il permet de masquer les informations de connexion à la base de données et isoler les traitements sur la base. Pour l’application le script sera développé en langage PHP, mais évidemment n’importe quel autre langage au travers d’un serveur Web peut faire l’affaire.

Afin de simplifier le prototype j’utiliserai un script par requête spatiale. Sur un projet d’envergure on peut évidemment préférer mettre en place un contrôleur frontal.

Le premier script va effectuer une requête qui permettra de représenter le nombre d’établissements à proximité de cultures pour chaque département lorsque le niveau d’agrandissement de la carte laisse apercevoir une étendue géographique relativement large, de l’ordre de dimension d’un quart de la France métropolitaine.

Le rendu sera le suivant

Représentation par cercles proportionnels

L’analyse par symboles proportionnels sert à représenter un indicateur quantitatif en valeurs absolues (nombres, quantités, surfaces…). Ici je ne peux pas afficher en temps réel les 60 000 établissements sur la carte de France, aussi j’utiliserai des cercles proportionnels pour donner une première indication d’un nombre d’établissements adjacents aux cultures pour la distance renseignée dans le formulaire de paramétrage de la carte, pour chaque département. Cette première représentation est minimaliste et peu utile – c’est plutôt le savoir faire qui m’intéresse ici-, elle ne prend pas en compte les autres paramètres afin de pouvoir représenter un minimum d’informations en temps réel.

Chaque valeur de l’indicateur est représentée par un symbole dont la surface est proportionnelle à la valeur représentée, notre indicateur sera le décompte d’établissements adjacents.

Ces symboles proportionnels sont ajoutés sur la carte par ordre décroissant de sorte que les symboles les plus petits soient au-dessus des plus gros.

Interroger POSTGIS en PHP et retourner un résultat JSON / GeoJSON

Le script est enregistré à la racine du répertoire web du serveur Apache, il se nomme action1.php

<?php
if (!isset($_GET['callback'])) {
  header('status: 400 Bad Request', true, 400);
  exit;
}

$conn = new PDO('pgsql:host=localhost;dbname=Pesticides', 'user', 'password');
    
$distance = isset($_GET['distance']) ? (int) $_GET['distance'] : 250;

$sth = $conn->prepare('
    select p.intersections, p.code_dept, d.nom_dept, 
    ST_AsGeoJSON(ST_Centroid(d.geom)) as centroid
    from proximites p
    inner join "Departement" d
    ON p.code_dept = d.code_dept 
    where proximite = :proximite  
    order by p.intersections desc'
);
$sth->execute(array(':proximite' => $distance));
$result = $sth->fetchAll(PDO::FETCH_OBJ);

header('content-type: application/javascript; charset=utf-8');
header("access-control-allow-origin: *");
echo filter_var($_GET['callback'], FILTER_SANITIZE_ENCODED), '(', json_encode($result), ');';

Que fait ce script ?

Premièrement il vérifie la présence dans les paramètres d’url d’un paramètre nommé callback. Ce paramètre est simplement le nom de fonction qui encapsule l’objet JSON retourné (format JSONP). J’ai déjà expliqué ce principe, vous pouvez vous référer aux parties 7 ou 8 de ce document.

Le script ouvre une connexion locale sur le serveur PostgreSQL hébergé sur la même machine, puis il exécute une requête préparée sur la connexion ouverte avec le paramètre de distance fourni afin de récupérer les informations qui serviront à la représentation. Les informations de requêtes sont récupérées sous la forme d’un objet PHP grâce au paramètre PDO::FETCH_OBJ qui sera intégralement converti au format JSON par la fonction PHP json_encode().

Finalement le script renvoi les entêtes de contenu javascript et celles d’autorisation d’accès depuis un hôte distant, puis affiche le contenu de retour JSON.

Si l’on s’attarde sur la requête spatiale, vous pouvez constater que les champs code département, nom du département, et décompte sont retournés tels quels en valeurs de chaînes de caractères ou entiers.

Pour la représentation je récupère une géométrie sous forme de POINT, le centre du polygone qui défini un département.

ST_AsGeoJSON(ST_Centroid(d.geom)) as centroid

ST_Centroid – Retourne le centre géométrique d’une entité géométrie, dans le cas du département il retourne un point aux coordonnées du centre de masse de la géométrie (barycentre 2D du polygone qui matérialise les contours du département)

Le point central est transformé en notation GeoJSON pour la commodité du format d’échange.

ST_AsGeoJSON — Retourne une géométrie en tant qu’élément GeoJSON. Notez que cette fonction peut prendre en argument un nombre maxdecimaldigits qui permet de préciser la précision décimale souhaitée, une précision plus faible à notamment pour intérêt d’alléger le volume de données transférées.

Afin de respecter l’ordre de représentation des cercles, la requête effectue un tri sur le décompte, les plus petits cercles seront les derniers représentés dans l’ordre du résultat de recherche.

Exploiter le résultat de requête spatiale POSTGIS depuis un appel Ajax (côté client Javascript)

Le script PHP sert de proxy, il effectue une requête sur la base de données et retourne un résultat au format JSONP où les données spatiales sont embarquées avec les autres éléments de données mais au format GeoJSON.

Côté client Javascript il suffit donc d’appeler le proxy et traiter le résultat lorsque l’interaction avec l’utilisateur requiert de rafraîchir les informations. Nous avons deux possibilités d’interactions : soit l’utilisateur agit sur les contrôles de navigation de la carte afin de changer le niveau d’agrandissement ou de se déplacer vers une autre étendue géographique, soit il agit sur le formulaire de paramétrage pour modifier les conditions de rendu (dans ce cas uniquement la distance de proximité).

Chaque événement va provoquer le rafraîchissement de la vue en cours, à cette fin on va utiliser une fonction qui permettra de réinitialiser les couches dynamiques de la carte.

var dynamicFeatures = new L.featureGroup([]).addTo(map);

Sous Leaflet nous pouvons déclarer chaque couche représentée dynamiquement sous un groupe qui permet de manipuler toutes les couches au travers d’un seul élément. Le groupe est initialisé dans le contexte global et ajouté à la carte.

function refreshView() {
    dynamicFeatures.clearLayers(); 
...
    if (map.getZoom() < 10)
        getDecompteDepartemental();
...
}

La fonction qui rafraîchit la vue en cours commence par supprimer toutes les couches du groupe. Ensuite en fonction du niveau d’agrandissement de la carte on va rechercher les informations souhaitées. L’affichage de cercles proportionnels au niveau départemental est déclenché sous un niveau de zoom à 10, au dessus de ce niveau on choisira un autre mode de représentation.

$("#settings-form").on("change submit", function(event) {
  event.preventDefault();
  refreshView();
});

JQuery permet de créer un écouteur d’événement sur le formulaire de paramètres d’identifiant #settings-form. Les événements change et submit, déclencheront le rafraîchissement des couches dynamiques lors d’un changement sur l’un des champs du formulaire ou lors de sa soumission.

map.on('load zoomend moveend', function() {
    refreshView();
});

L’API Leaflet permet de définir directement un écouteur d’événements sur la carte. Ici on déclenche le rafraîchissement de la vue lors du chargement, lors du changement de niveau d’agrandissement, et lors d’une opération de glisser déposé.

Ces premiers éléments en place, on peut implémenter la fonction qui va représenter les cercles proportionnels.

function getDecompteDepartemental() {

    var distance = $("#distance").val();

    var query = host + '/action1.php?callback=getJson&distance=' 
            + encodeURIComponent(distance);

    $.ajax({
        url: query,
        dataType: 'jsonp',
        jsonpCallback: 'getJson',
        success: function (response) {
...
        }
    });
}

Le mécanisme est toujours le même (voir les documents antérieurs pour adaptation à la librairie OpenLayers 3), premièrement je construis l’url vers le script de proxy, cette url accepte deux paramètres, le nom de la fonction de rappel exploitée par le format JSONP et la distance récupérée en JQuery depuis le champ de sélection du formulaire qui possède l’identifiant #distance.

Un appel asynchrone permet d’obtenir la réponse du script de proxy, et en cas de succès on peut procéder à l’exploitation des résultats dans le format de réponse pour représenter les couches de données sur la carte.

En cas de succès, nous avons besoin de la valeur minimale (ou maximale) parmi les valeurs de décompte, ce minimum est exploité pour le calcul du rayon de chaque cercle.

...
            var values = [];
            for (var key in response)
                values.push(parseInt(response[key].intersections));

            var min = Math.min.apply(null, values);
...

Pour représenter chaque cercle il faut parcourir le résultat de requête, et pour chaque ligne de résultat créer un cercle proportionnel au décompte ayant pour centre le point (la géométrie) retournée au format GeoJSON qui correspond au centre de masse du polygone départemental. Ce cercle est une couche vectorielle qui est ajoutée au groupe d’éléments dynamiques pour être représentée sur la carte.

...
            for (var key in response) {
                var obj = response[key];
                var geometry = JSON.parse(obj.centroid);
                var circle = L.circleMarker([geometry.coordinates[1], geometry.coordinates[0]], {
                    color: 'white',
                    fillColor: 'Orange',
                    fillOpacity: 0.25,
                    opacity: 1
                });
                circle.setRadius(getRadius(parseInt(obj.intersections), min));
                circle.bindPopup(obj.nom_dept + " : " 
                        + obj.intersections + " établissement(s) à proximité" );
                
                dynamicFeatures.addLayer(circle);
            }
...

Pour chaque élément de réponse, on assigne l’élément à un objet nommé obj. Cet objet contient les propriétés telles que définies dans notre requête SQL, c’est à dire : intersections, code_dept, nom_dept, centroid. Les intersections sont un nombre, le décompte, le code département et le nom de département sont des chaînes de caractères, et le centroid un point au format GeoJSON, le format GeoJSON est parcouru pour être transformé en objet javascript à l’aide de la fonction Javascript JSON.parse(). Depuis ce nouvel objet on peut récupérer les coordonnées de latitude et longitude du point pour la représentation sous forme de cercle.

Le rayon du cercle est défini par rapport au décompte et au décompte minimal puis un popup est rattaché au cercle, il s’affichera au clic sur le cercle. Le contenu du popup est au format html, il contient des informations relatives au départements récupérées depuis le résultat de requête.

Dernier point crucial : le cercle est ajouté au groupe que l’on a créé en amont et qui est déjà inclus dans la carte, ce qui provoque l’affichage de l’élément sur la carte.

Concernant le calcul du rayon pour la représentation du cercle je vous communique les fonctions sans entrer dans les détails. Je ne suis pas entièrement satisfait du résultat lors de changements d’échelles de la carte et je vous invite à proposer une solution améliorée.

...
// calcule le rayon du cercle proportionnel
// Retourne le rayon du plus petit cercle

function getMinRadius() {
    var bounds = map.getPixelBounds();
    return Math.floor((bounds.max.x - bounds.min.x) * 0.005);
//    var size = map.getSize();
//    return Math.floor(size.x * 0.005);
}

// Retourne le rayon du cercle
// n est la valeur
// min est la valeur minimale

function getRadius(n, min) {
    return Math.floor(getMinRadius() * Math.sqrt(n / min));
}
...

Sur le même principe nous pouvons récupérer et représenter des géométries plus complexes, c’est exactement ce dont on a besoin à un niveau d’agrandissement élevé pour représenter un établissement.

Un établissement est représenté par un marqueur de position, une icône, la distance de proximité à l’établissement est matérialisée par un cercle opaque autour de ce point, et l’intersection entre les cultures et ce disque est mise en évidence par une couche opaque superposée.

Le script de proxy, nommé action2.php est très similaire au script précédent, seul le traitement des paramètres d’url et la requête à la base changent.

La requête SQL est un cas très interessant, riche en enseignements, et c’est le coeur du projet aussi nous allons la passer en revue. Je vais ignorer le traitement en amont des paramètres pour être plus succint.

...
$bbox = explode(',', $_GET['bbox']);

$sql = '
WITH resultats AS (
SELECT 
e.numero_uai, e.appellatio, e.adresse_ua, e.code_post, e.localite_a, e.nature_uai,
ST_AsGeoJSON(ST_Transform((e.geom), 4326), 6) AS etablissement,
floor(sum(ST_Area(CAST(cul_geom As geography)))) * POWER(10, -4) as surface_totale_cultures,
floor(sum(ST_Area(CAST(ST_Intersection(ST_Buffer(e.geom::geography, :distance)::geometry, cul_geom) As geography)))) * POWER(10, -4) as surface_culture_proximite,
ST_AsGeoJSON(ST_Transform((ST_Union(cul_geom)), 4326), 6) AS cultures,
ST_AsGeoJSON(ST_Transform((ST_Union(ST_Intersection(ST_Buffer(e.geom::geography, :distance)::geometry, cul_geom))), 4326), 6) AS surfaces_proximite,
count(i.num_ilot) as nombre_parcelles,
count(distinct c.cult_maj) as types_culture 
FROM intersect_etabs i 
INNER JOIN "Etablissement" e 
ON i.numero_uai = e.numero_uai 
INNER JOIN master_cultures c
ON i.num_ilot = c.num_ilot  
WHERE cul_geom && ST_MakeEnvelope(:xmin, :ymin, :xmax, :ymax, 4326)
AND distance < :distance 
AND c.cult_maj not in (18, 19)  -- Elimine les prairies
AND e.nature_uai < 800          -- Elimine les etablissements administratifs
AND e.etat_etabl = 1            -- Elimine les etablissements fermes
' . $whereClause . ' 
group by e.numero_uai  
order by e.numero_uai
)
SELECT *
FROM resultats
WHERE surface_culture_proximite > :surface
' . $aggregateWhereClause . ' 
ORDER BY types_culture DESC, surface_culture_proximite DESC, nombre_parcelles DESC
';

$sth = $conn->prepare($sql);
$sth->execute(array(
    ':distance' => $distance,
    ':surface' => ($surface * pow(10, -4)),
    ':xmin' => $bbox[0],
    ':ymin' => $bbox[1],
    ':xmax' => $bbox[2],
    ':ymax' => $bbox[3],
));
...

Cette requête est assez monolithique à première vue, nous pouvons la découper pour appréhender le fonctionnement.

...
WITH resultats AS (
SELECT 
...
ST_AsGeoJSON(ST_Transform((ST_Union(ST_Intersection(ST_Buffer(e.geom::geography, :distance)::geometry, cul_geom))), 4326), 6) AS surfaces_proximite,
...
group by e.numero_uai
)
SELECT *
FROM resultats
WHERE surface_culture_proximite > :surface
...

L’application permet de sélectionner une surface dans le formulaire de paramètres, l’un des objectifs est donc de déterminer la surface totale impactée dans le rayon de proximité autour de l’établissement toutes parcelles confondues pour appliquer un filtre par rapport au paramètre.

Pour calculer la surface il est nécessaire d’agréger les données de parcelles pour chaque établissement. L’opération d’agrégat est réalisée par l’instruction SQL GROUP BY, le résultat d’une requête de type SELECT va retourner les résultats agrégés, une autre requête est alors exécutée sur le résultat de la précédente pour appliquer les paramètres de filtre.

L’imbrication de requêtes est réalisée par les instructions WITH, AS de PostgreSQL, les clauses de conditions stipulent de retourner les résultats agrégés pour lesquels la surface est supérieure à la surface paramétrée (c’est également au niveau de ces clauses SQL que l’on insère si besoin la restriction d’adjacence à plusieurs cultures)

Comment aggréger des objets géométriques ?

Dans notre cas on définit en premier une zone tampon autour du point qui matérialise l’établissement avec la fonction ST_Buffer, que nous avons déjà employé précédemment.

ST_Buffer(e.geom::geography, :distance)::geometry

ST_Intersection — Retourne une géométrie qui représente la portion commune de deux géométries, ici elle est utilisée sur la géométrie de la zone tampon et celle de la parcelle pour ne conserver que la surface en commun.

ST_Union — Retourne une géométrie qui représente le jeu de points d’union ensembliste des géométries, elle va réunifier toutes les intersections de la zone tampon avec les cultures à proximité de l’établissement.

ST_Transform – Retourne une nouvelle géométrie avec ses coordonnées transformées pour le SRID référencé par le paramètre entier, dans notre cas le SRID 4326 permet de travailler selon nos attentes depuis la librairie Javascript.

Une fois ces informations comprises, le reste de la requête est presque trivial. Expliquons les deux derniers points de difficulté.

SELECT ... floor(sum(ST_Area(CAST(cul_geom As geography)))) * POWER(10, -4) as surface_totale_cultures,

L’information retournée comporte une indication de la surface totale des parcelles à partir du moment où la parcelle répond aux paramètres de recherche. La surface est calculée depuis un objet géographie.

L’opération de conversion de type permet de transformer la géométrie de la parcelle en géographie, la fonction ST_Area va retourner l’aire de l’objet, tandis que la fonction SUM va additionner les aires.

Au final la somme des aires est arrondie à l’entier le plus bas et multipliée par la puissance de 10 à l’exposant -4 afin de retourner une quantité exprimée en hectares.

La fonction ST_MakeEnvelope (voir plus haut) restreint la requête aux résultats sur l’étendue géographique passée en paramètres depuis le client Javascript.

    var query = host + '/action2.php?callback=getJson&' + $("#settings-form").serialize()
        + '&bbox=' + bounds.toBBoxString();

Les paramètres sont construits depuis la fonction d’appel, et le résultat de requête est traité à nouveau en cas de succès.

L’Education Nationale a mis à disposition un répertoire des établissements scolaires, l’application permet de renseigner le numéro d’établissement dans le formulaire de recherche.

Pour clôre ce chapitre, voici côté client la fonction de représentation des établissements, suivie d’une copie d’écran du rendu sur la carte.

var premierDegre = L.MakiMarkers.icon({icon: "school", color: "#b0b", size: "m"});
var secondDegre = L.MakiMarkers.icon({icon: "school", color: "#E2492F", size: "m"});

function getEtablissements(bounds) {

    var distance = $("#distance").val();

    var query = host + '/action2.php?callback=getJson&' + $("#settings-form").serialize()
        + '&bbox=' + bounds.toBBoxString();

    $.ajax({
        url: query,
        dataType: 'jsonp',
        jsonpCallback: 'getJson',
        success: function (response) {

            for (var key in response) {
                var obj = response[key];

                // Représente l'établissement par un marqueur de position
                
                var etablissement = JSON.parse(obj.etablissement);
                var coordinates = etablissement.coordinates[0];
                var icon = (obj.nature_uai < 300) ? premierDegre : secondDegre;
                var link = "<a href='http://www.education.gouv.fr/bce/index.php?simple_public=" 
                        + obj.numero_uai + "'>" + obj.appellatio + "</a>"
                
                var marker = L.marker([coordinates[1], coordinates[0]], {icon: icon})
                    .bindPopup(
                        link + "<br /> " 
                        + (obj.adresse_ua ? obj.adresse_ua + ', ' : '') 
                        + obj.code_post + ' ' + obj.localite_a + "<br /> " 
                        + 'Surface à proximité : ' + obj.surface_culture_proximite  + " ha<br /> " 
                        + 'Surface totale parcelles : ' + obj.surface_totale_cultures + " ha<br />"
                        + obj.nombre_parcelles + ' parcelle(s)' + "<br />"
                        + obj.types_culture + ' type(s) de cultures' + "<br />"
                        );

                // La zone tampon autour de l'établissement est représentée par un cercle

                var buffer = L.circle([coordinates[1], coordinates[0]], distance, {
                    color: 'red',
                    fillColor: '#f03',
                    fillOpacity: 0.25,
                    opacity: 0.65,
                    weight: 1
                });

                var parcelles = L.geoJson(JSON.parse(obj.cultures), {
                    style: {
                        "color": "#ff7800",
                        "weight": 1,
                        "opacity": 0.65
                    }
                });
                
                var intersections = L.geoJson(JSON.parse(obj.surfaces_proximite), {
                    style: {
                        "color": "red",
                        "weight": 1,
                        "opacity": 0.95
                    }
                });
                
                dynamicFeatures.addLayer(parcelles);
                dynamicFeatures.addLayer(intersections);
                dynamicFeatures.addLayer(buffer);
                dynamicFeatures.addLayer(marker);   
                
                if (map.getZoom() > 15)
                    getJsonLayerParcelles(bounds);
            }
        }
    });
}

Fonctionnalités annexes spécifiques Leaflet

Pour perfectionner un peu la carte, j’ai ajouté un ensemble de fonctionnalités.

Lorsque l’utilisateur arrive sur la carte, j’ai trouvé utile de positionner la carte sur sa localisation.

Cela peut se faire nativement sous Leaflet.

map.locate({setView: true, maxZoom: 15});

La barre latérale est par défaut repliée, ce qui n’est pas intuitif pour l’utilisateur mais si l’on déplie la barre par défaut il n’est pas intuitif de la replier non plus.

En attendant un boutton de fermeture sur cette extension, j’ouvre la barre latérale au chargement et je la referme après quelques secondes. Les opérations sur la barre peuvent s’effectuer depuis les identifiants html des onglets.

setTimeout(function () {
    sidebar.open('home');
}, 1000);
setTimeout(function () {
    sidebar.close('home');
}, 4000);

Finalement, afin de donner à l’utilisateur la possibilité de passer en vue aérienne je fais appel aux serveurs WMS de l’IGN.

Conclusion

Au terme de cette série de documents sur la réalisation d’une application cartographique j’ai détaillé comment réaliser une carte dynamique depuis les données et leur mise à disposition, jusqu’à la représentation dynamique des données.

Techniquement je n’ai pas abordé par manque de temps la représentation d’une carte par chloroplèthe, ce sera l’objet d’un futur document, cette fois ci sous OpenLayers 3.

J’espère que cette application trouvera une utilité publique ou qu’à défaut ce travail motivera ce type de représentations.

Charger des données spatiales : alimenter PostgreSQL PostGIS

Nous avons récupéré les données spatiales qui vont servir à développer l’application cartographique puis installé la base de données et son extension spatiale qui vont servir à enregistrer les données.

Quand se pose la question de l’alimentation de la base, une multitude de solutions se profilent. On peut par exemple utiliser un outil logiciel en ligne de commande, une extension à un logiciel existant, QGIS ou Pg admin proposent de telles extensions, ou encore utiliser un ETL (Extract Transform Load) comme Geokettle afin d’automatiser le processus.

Nos jeux de données possèdent quelques particularités comme nous l’avons vu et je vais couvrir deux cas de figure pour répondre au besoin.

Gérer les tables au travers de QGIS Desktop

QGIS est une solution complète qui permet d’effectuer beaucoup d’opérations simplement à la souris et avec beaucoup de contrôle par rapport à un outil en ligne de commande. Je vais l’utiliser en priorité avec l’extension DB Manager.

Sur les anciennes version de QGIS l’extension SPIT permettait déjà l’import de fichiers au format Shapefile vers une base de données. Cette extension sera remplacée à terme par un système unifié, DB Manager que nous utiliserons pour nos besoins. (J’ai rencontré par ailleurs des problèmes d’import avec SPIT sur les dernières versions)

Import des données et coordonnées géographiques des établissements scolaires français

Ouvrez QGIS et procédez à l’ouverture du fichier de données (référez vous au document de préparation des données).

Le logiciel écarte automatiquement 120 enregistrements pour absence de géométrie, nous n’avons pas à faire l’opération manuellement.

Vous devriez alors vous retrouver avec une représentation des établissements par des points pour les établissements de métropole et d’outre mer.

Comme nous l’avons vu précédemment, le fichier possède plusieurs système de coordonnées pour les valeurs X et Y, et seules les valeurs pour la France métropolitaine et la Corse sont exprimées dans le système de coordonnées RGF93 / Lambert-93, les points pour les établissements en dehors de la métropole sont donc mal positionnés sur la carte.

Nous avons également vu qu’au niveau des attributs seul le code postal est un facteur discriminant, nous ne possédons pas d’information sur le département ou la commune.

Voyons comment éliminer simplement les établissements d’outre mer pour lesquels nous ne possédons pas de données parcellaires sur les cultures agricoles.

La liste des codes département à l’outre mer est :

971 Guadeloupe
972 Martinique
973 Guyane
974 Réunion
975 St Pierre et Miquelon
976 Mayotte
986 Wallis et Futuna
987 Polynésie Française
988 Nouvelle Calédonie

Le code postal pour la France d’outre mer commence par les 3 chiffres du code départements, on peut s’arrêter aux 2 premiers chiffres pour éliminer l’outre mer, la recherche d’un numéro 97 ou 98 en première position du code postal permet de sélectionner un enregistrement à éliminer.

Ouvrez la table d’attributs (clic droit sur la couche dans l’explorateur de couches).

Par défaut le tableau fait afficher tous les enregistrements. QGIS permet de faire une sélection d’enregistrements par filtre et d’enregistrer la sélection comme une nouvelle couche. C’est ainsi que nous allons procéder, en enregistrant la sélection de tous les enregistrements dont le code postal ne reflète pas une appartenance à la France outre mer.

Ouvrez la table d’attributs (clic droit sur la couche dans l’explorateur de couches). En bas à gauche de l’explorateur sélectionnez l’entrée déroulante Filtre avancé (Expression)

QGIS ouvre une fenêtre qui permet de construire une expression qui va permettre de filtrer les enregistrements.

Dans la liste des fonctions, sélectionnez le champ code_postal_uai dans Champs et valeurs, puis l’opérateur LIKE dans Opérateurs, puis tapez le format de valeur ‘97%’ qui signifie que l’on souhaite une valeur qui débute par les caractères ‘9’ et ‘7’ suivis de n’importes quels caractères. Vous devriez être familier du format d’expression si vous connaissez SQL, QGIS utilise un format semblable avec un jeu d’instructions SQL limité pour les expressions. Il suffit de chercher les enregistrements dont le code postal commence par 97 ou 98 et inverser la condition de recherche.

Le format complet de l’expression est :

NOT (
 "code_postal_uai"  LIKE '97%'
 OR
 "code_postal_uai"  LIKE '98%'
)
Une fois la table filtrée, sélectionnez tous les enregistrements par un clic dans l’angle gauche de la table

 

Il reste à enregistrer ces informations comme une nouvelle couche. Vous pouvez au passage vérifier sur la carte : les points sélectionnés apparaissent en jaune.

Faites un clic droit sur la couche d’établissements dans l’explorateur de couches tout en conservant la table d’attributs ouverte, sélectionnez l’entrée de menu Sauvegarder sous

QGIS vous propose de sauvegarder la couche, nous pourrions profiter de l’occasion pour transformer la couche dans une autre projection et basculer l’encodage des attributs à UTF-8 mais ne le faites pas pour le moment.

Sélectionnez le format ESRI Shapefile, le SCR de la couche RGF93 / Lambert-93, le codage ISO-8859-1 et cochez la case qui permet de n’enregistrer que les entités sélectionnées et celle qui permet d’ajouter le fichier sauvegardé à la carte. Validez puis supprimez la couche d’établissements obsolète.
Notez que QGIS limite la taille des noms d’attributs à 10 caractères lors de la sauvegarde : c’est une limitation du format Shapefile où les noms d’attributs sont limités à 10 caractères, les noms d’attribut du fichier des établissements sont donc tronqués.

 

Si vous parcourez les attributs de la couche vous pouvez constater que l’import du fichier texte ne s’est pas déroulé comme l’on pouvait s’attendre, le programme a considéré le champ code postal comme une valeur numérique et a supprimé le zéro qui préfixe les codes postaux sur quatre chiffres ! Nous allons rétablir le code postal en tant qu’attribut de type texte, complété à gauche par des caractères zéro ‘0’ sur 5 caractères.

Ouvrez les propriétés de la couche sauvegardée d’un double clic sur son nom, et sélectionnez l’onglet Champs.Cliquez sur l’icône de crayon pour basculer en mode édition : vous pouvez alors accéder à l’icône de boulier qui permet de calculer un champ.Ouvrez le calculateur de champ.

Le calculateur de champ permet de créer de nouveaux champs à partir de fonctions ou de champs existants, ou de redéfinir des champs existants. Ce qui nous importe est de redéfinir le champ de code postal afin qu’il devienne de type chaîne de caractère et soit complété à droite.

Cochez la case de création d’un nouveau champ nommé code_post de type texte et de longueur 254.
Dans la liste des fonctions vous pouvez trouver les fonctions de chaîne de caractères et plus bas les champs et valeurs, ces fonctions permettent à nouveau de construire une expression.Saisissez l’expression :
lpad("code_posta" , 5, '0')
L’expression signifie que l’on créé un nouveau champ en appliquant la fonction de chaîne de caractères complémentée à gauche sur le champ code_posta (code_postal_uai du fichier d’origine mais tronqué à 10 caractères) paramétrée pour complémenter avec des caractères ‘0’ sur une longueur de 5 caractères au total.Sélectionnez la colonne code_posta obsolète et cliquez sur l’icône de suppression à gauche du bouton de passage en édition puis désactivez le mode édition et enregistrez lorsque vous y êtes invité.

Vérifiez la modification dans la table d’attributs.

Nous allons maintenant procéder à une jointure spatiale entre deux couches de données afin de palier au manque d’informations de nos données d’établissement.

Effectuer une jointure entre 2 couches sous QGIS

Pour faire une jointure nous allons nous baser sur la position géographique des établissements et les données des fichiers IGN pour les contours administratifs des départements et communes.

Ajoutez la couche vecteur des départements récupérée lors de la préparation des données. (Faites glisser le fichier DEPARTEMENT.SHP sur la fenêtre d’application QGIS)
Rendez vous dans le menu Vecteur > Outils de gestion de données > Joindre les attributs par localisation
Paramétrez la fenêtre :

  • Indiquez une couche vecteur : indiquez la couche des établissements sur laquelle va se faire la jointure
  • Joindre la couche vecteur : indiquez la couche des données à joindre, les départements
  • Résumé de l’attribut : indiquez de prendre les attributs de la première entité au cas où plusieurs entités sont concernées par la jointure
  • Saisissez un fichier Shapefile de résultat
  • Table en sortie : lorsque les entités de la couche de départ n’ont pas de correspondance dans la couche à joindre on conserve tout de même les enregistrements

 

Après vérification dans la table attributaire, l’opération a aboutit à l’ajout des attributs de la couche département aux attributs de la couche d’établissements sauf pour une vingtaine d’établissements en bord de littoral. Cette fois recommençons l’opération en supprimant les entités de la table en sortie afin d’éliminer ces cas que nous négligerons donc parmi environ 65000 établissements.

QGIS utilise un opérateur intersection pour la jointure spatiale, je n’ai pas testé le cas où plusieurs entités seraient concernées par la jointure

Procéder à l’import

Le moment est venu d’importer les données d’établissements et départements en base. L’extension DB Manager (installée par défaut) va nous permettre de transférer ces couches vers PostGIS.

La première chose à faire avant de lancer le gestionnaire de bases de données est d’établir une connexion à la base PostGIS.

Ouvrez la fenêtre de gestion des tables PostGIS, depuis le menu
Couche > Ajouter une couche PostGIS

La fenêtre qui s’ouvre permet d’ajouter une table spatiale récupérée depuis PostGIS, c’est également à partir de cet endroit que l’on peut créer une nouvelle connexion, l’extension DB Manager ne permet pas de le faire contre toute attente.

Paramétrez une nouvelle connexion comme sur l’exemple suivant.Donnez un nom parlant à la connexion : je donne l’adresse du serveur, le type PostGIS et le nom de la base de données pour les distinguer plus tard depuis le nom.

QGIS viens d’enregistrer une nouvelle connexion à la base. Vous pouvez ensuite quitter la fenêtre d’ajout de tables PostGIS, nous reviendrons plus tard après création des tables.

Sous QGIS, ouvrez le gestionnaire de base de données :
Base de donnée > Gestionnaire de base de données > Gestionnaire de base de données

Une fois que vous avez la connexion vous pouvez charger les données d’une couche ou d’un fichier à partir du gestionnaire de base de données.

Sélectionnez la connexion dans l’explorateur, sous l’entrée PostGIS, puis cliquez sur l’icône en forme de flèche vers la gauche, elle permet de paramétrer un import.

La couche des départements est dans le système de coordonnées de référence EPSG:2154 – RGF93 / Lambert-93, l’encodage est System. (Ces informations sont visibles dans les propriétés générales de la couche). Pour importer les données nous préciserons de convertir l’encodage en UTF-8 et de passer le SCR des données en WGS 84 d’identifiant EPSG:4326.

Ce dernier point n’est pas obligatoire mais je préfère unifier les système pour faciliter les développements ultérieurs et éviter les conversions en aval entre tables de données sous PostGIS.

Paramétrez l’import de la couche des départements :

  • Saisie : vous pouvez sélectionner une couche parmi les couches du projet ouvert ou bien utiliser le bouton de navigation à droite afin de préciser le chemin vers un fichier Shapefile.
    Sélectionnez la couche DEPARTEMENT
  • Saisissez le nom de la table Departement pour la table en sortie
  • Précisez le schéma : public
  • Dans l’encart Action vous pouvez si besoin écraser la table existante
  • Précisez la clef primaire : id_geofla. Ici on réutilise l’attribut qui sert d’identifiant dans la couche, par défaut le gestionnaire créé un identifiant associé à une séquence si ce champ n’est pas renseigné
  • Précisez si vous le souhaitez la colonne de géométrie the_geom. Certaines conventions utilisent the_geom, depuis les dernières versions de PostGIS geom est utilisé comme nom de colonne par défaut
  • Précisez le SCR source : 2154
  • Précisez le SCR cible : 4326
  • Précisez le codage cible : UTF-8
  • Cochez la case afin de créer un index spatial

Une fois l’import réussi il est possible de réactualiser la liste des objets de la connexion afin de faire apparaître la table qui vient d’être crée. Les onglets du gestionnaire sur la droite permettent d’accéder aux informations sur la table, de vérifier le contenu et le rendu.

Le gestionnaire donne également accès à certaines vues, si l’on consulte la vue geometry_columns on vérifie bien la présence d’une nouvelle ligne où l’on accède aux informations sur la colonne de type Geometry que l’on a créé dans la nouvelle table. Vous pouvez à nouveau vous référer aux documents de standards sur la vue geometry_columns. La vue référence bien la colonne geom de la table Departement, de type MULTIPOLYGON et de srid 4326.

Ultérieurement j’ai rencontré des problèmes avec des requêtes spatiales sur cette table du fait que la colonne est de type MULTIPOLYGON, mais que certaines de ses entrées sont de type GeometryCollection. Une solution serait peut être de modifier dans les fichiers SQL générés les instructions de création de table. J’ai choisi par manque de temps d’ignorer (grâce à la fonction ST_IsValid()) les lignes de type GeometryCollection qui représentent un pourcentage négligeable.

Si vous observez maintenant la table sous PgAdmin vous pouvez vérifier le contenu de la colonne de géométrie sur quelques enregistrements : le contenu est au format standard WKB (Well-Known Binary), un format de représentation hexadécimal. A présent vous pouvez parcourir les fonctions spatiales de PostGIS dans l’explorateur d’objet de PgAdmin, la fonction st_astext(geometry) permet de retourner la représentation de la colonne dans le format standard WKT (Well-Known Text) que l’on utilisera ultérieurement pour les échanges d’informations entre les différents composants de l’application cartographique que l’on va mettre en place.

Un exemple de requête retournera une représentation WKT où l’on va voir apparaître des objets de type MULTIPOLYGON, le type de la colonne, avec des coordonnées en 2 dimensions (X et Y) exprimées dans le SCR de référence SRID 4326 tel que l’on peut le consulter dans la définition de la colonne dans la vue geometry_columns :

SELECT st_astext(geom) FROM "Departement" LIMIT 1;
"MULTIPOLYGON(((5.83122641362104 45.9384595782932,5.82212102507634 45.9301359535238,5.82915456688181 45.9172371235251,5.82614026745121 45.903273829068,5.81515407306268 45.8772007832312,5.80752504239684 45.8606398467483,5.80110949497983 45.8457964776072,5.79 (...)"

Procédez à l’import de la couche des établissements via DB Manager, nommez la table Etablissement et utilisez l’attribut numero_uai comme clef primaire.(Mon installation sur VPS à ressources limitées ne supporte pas le chargement de telles quantités de données au travers de la connexion au serveur de base de données. Pour les développements je travaillerai en local pour le confort d’utilisation et j’utiliserai l’utilitaire de sauvegarde et restauration pour migrer la base afin de faire fonctionner le prototype)

Attention à l’encodage des caractères… malgré les options dans DB Manager j’ai dû au préalable changer le jeu de caractères en UTF-8 en sauvegardant la couche sous un autre nom (on peut préciser le jeu de caractères lors de l’enregistrement)

Pour gagner du temps je n’ai pas supprimé d’attributs inutiles ni renommé les noms tronqués des colonnes… mais rien ne vous empêche de le faire. Lors de la sauvegarde d’une couche on peut renommer les attributs, sinon après import il suffit de passer par PgAdmin et d’effectuer un clic droit sur la table dans l’explorateur d’objets pour faire afficher les propriétés. On accède alors à la définition des colonnes dans un onglet, où l’on peut ajouter, modifier ou supprimer une colonne.

Import des données de parcelles

Traiter les parcelles une à une serait assez consommateur de temps.

Nous disposons d’une centaine de ressources sous format d’archive zip, d’en moyenne 15M, ce qui totalise environ 1,5Go.

Je fais le choix de conserver le découpage par départements plutôt que d’utiliser une table unique où l’on ajouterai les données de chaque département. Cela permettra d’interroger individuellement les tables en fonction des codes département.

Deux options se présentent alors pour interroger la France métropolitaine dans son intégralité : dans un premier temps j’utiliserai une vue, puis je couvrirai les capacités de partitionnement de tables offertes par PostgreSQL avec héritage d’une table maître pour comparer les approches.

Procéder à l’import

L’import doit se dérouler de manière automatique, on doit pour cela utiliser un script combiné à un utilitaire d’import en ligne de commande.

Pour le langage de script j’utiliserai Python qui est notamment employé sous QGIS.

Vous pouvez trouver une version embarquée sous Windows sous le répertoire d’installation de QGIS :

cd C:\Program Files\QGIS Chugiak\bin
python --version
Python 2.7.4

Pour l’utilitaire en ligne de commande j’utiliserai shp2pgsql pour la génération de fichiers SQL couplé à psql pour le chargement en base, il sont disponibles dans le répertoire d’installation de PostgreSQL :
C:\Program Files\PostgreSQL\9.3\bin

Ajouter le chemin vers ces exécutables à la variable système PATH permet de s’affranchir des chemins lorsque l’on lance une commande.

Import à l’aide de shp2pgsql

shp2pgsql convertit un fichier Shapefile en instructions SQL qui peuvent être exploitées ensuite pour alimenter une base de donnée, par psql dans notre exemple.

L’utilitaire peut être accompagné d’une interface utilisateur qui permet également le chargement (ou l’export) de plusieurs fichiers. Elle offre cependant moins de contrôle et je ne couvrirai pas son utilisation mais elle peut s’avérer pratique lorsque l’on a un nombre restreint de fichiers à importer.

Sous Windows l’utilitaire est disponible sous le répertoire d’installation de PostgreSQL :

C:\Program Files\PostgreSQL\9.3\bin\postgisgui\shp2pgsql-gui.exe

La sortie de commande de shp2pgsql peut être capturée dans un fichier SQL (ou redirigée vers un autre utilitaire sous système de type Unix)

Les paramètres de commande sont :

shp2pgsql [<options>] <shapefile> [[<schema>.]<table>]

L’ouverture d’un fichier *.shp sous QGIS nous renseigne sur le SCR et l’encodage. Un coup d’œil aux attributs permet d’ignorer les problématiques d’encodage puisque l’on travaille avec des valeurs numériques.

Au niveau des options dans notre cas de figure :

  • -s [:] Fixe le SRID en entrée et en sortie
  • -c Créé une nouvelle table et les instructions d’insertion
  • -I Créé un index spatial sur la colonne géométrie
  • -N skip Les enregistrements avec géométries vides ne seront pas importés
Si vous ne l’avez pas déjà fait, décompressez les archives de parcelles dans un répertoire !

L’usage est alors le suivant :

(Sous Windows 7 la combinaison touche SHIFT + Clic droit sur la fenêtre d’explorateur en cours permet d’ouvrir une fenêtre de commande à cet endroit, vous pouvez sinon ouvrir un terminal à l’aide de l’utilitaire cmd)

cd C:\SIG\data\parcelles\RPG_2012_004
shp2pgsql -s 2154:4326 -c -I -N skip RPG_2012_004.shp Cultures_004 > "C:\SIG\sql\Cultures_004.sql"

Le fichier SQL généré contient dans une transaction les instructions de création de table, d’indexe et de clef primaire, ainsi que les instructions d’insertion des données. La colonne géométrie est ajoutée après création de table pour être compatible avec les anciennes versions de PostGIS. Nous pourrons plus tard altérer ces instructions SQL pour tester l’implémentation avec héritage d’une table maître.

SET CLIENT_ENCODING TO UTF8;
SET STANDARD_CONFORMING_STRINGS TO ON;
BEGIN;
CREATE TABLE "cultures_004" (gid serial,
"num_ilot" varchar(12),
"cult_maj" int4);
ALTER TABLE "cultures_004" ADD PRIMARY KEY (gid);
SELECT AddGeometryColumn('','cultures_004','geom','4326','MULTIPOLYGON',2);
INSERT INTO "cultures_004" ("num_ilot","cult_maj",geom) VALUES ('004-190399','4',ST_Transform('01060000206A0800000100000001030000000100000015000000787AA5EC64362C41C9E53F4C6D195841A8A44E8015362C41BC7493087E1958417DAEB622F9352C4106F016707D195841151DC92599352C410DE02D509E195841F241CFA696352C41F697DD03A01958416519E2189C352C41D2DEE0DBA119584183C0CAE1B1352C411A2FDDE4A4195841E10B9369BB352C41EA73B565A6195841151DC965C5352C41840D4FB7A9195841AACFD556CD352C41F1F44A19AC1958416D348037E2352C4189B0E139AE19584182E2C71812362C4147E17AE4B0195841C56D34405F362C41627FD9EDA7195841499D80E673362C415E29CB20A4195841B515FB4B7C362C41D634EF20A01958416132557078362C41779CA2338E19584179C729FA7C362C41D1915C7E85195841174850BC86362C41E92631F87E195841F163CCDDA7362C41F54A590E73195841728A8EA487362C41627FD99D70195841787AA5EC64362C41C9E53F4C6D195841'::geometry, 4326));
...
CREATE INDEX "cultures_004_geom_gist" ON "cultures_004" USING GIST ("geom");
COMMIT;

Il reste à exécuter le script sur la base de données. Nous pouvons utiliser l’utilitaire psql.

psql --host=localhost --port=5432 --username=postgres --no-password --dbname=Pesticides --file="C:\SIG\sql\Cultures_004.sql"

Les options sont :

  • –host=HOTE nom d’hôte du serveur de la base de données ou répertoire de la socket (par défaut : socket locale)
  • –port=PORT port du serveur de la base de données (par défaut : « 5432 »)
  • –username=NOM nom d’utilisateur de la base de données
  • –no-password ne demande jamais un mot de passe
  • –dbname=NOM_BASE indique le nom de la base de données à laquelle se connecter
  • –file=FICHIER exécute les commandes du fichier, puis quitte

Vous pouvez vérifier l’import sous PgAdmin et supprimer la table en cascade.

Nous savons comment réaliser un import, voyons comment réaliser un traitement par lot.

Import automatisé, traitement par lot à partir d’un script

Un script très simple va permettre d’automatiser l’appel à l’utilitaire shp2pgsql avec les paramètres que nous avons validés précédemment.

Ajoutez si ce n’est pas déjà fait le chemin vers l’exécutable python à la variable système PATH

Enregistrez le script suivant dans un fichier d’extension .py placé sous le répertoire où se trouvent vos données, le script utilise le répertoire courant pour rechercher les fichiers Shapefile.

J’ai pris soin d’écrire du code portable mais vous devrez peut être procéder à des adaptations sous votre système d’exploitation.

#! /usr/bin/python
import os
import fnmatch

instructions = r'shp2pgsql -s 2154:4326 -c -I -N skip "%s" %s > "%s"'

currentdir = os.path.realpath(os.curdir)
sqldirectory = currentdir + os.sep + 'sql'
if not os.path.exists(sqldirectory):
    os.makedirs(sqldirectory)

for root, dirnames, filenames in os.walk(currentdir):
  for shapefilename in fnmatch.filter(filenames, '*.shp'):
      print shapefilename, '...'
      shapefilepath = root + os.sep + shapefilename
      tablename = 'Cultures_' + shapefilename[-6:-4]
      sqlfilepath = sqldirectory + os.sep + tablename + '.sql'
      command = instructions % (shapefilepath, tablename, sqlfilepath)
      os.system(command)

raw_input("Appuyez sur une la touche Entree pour quitter...")

Que fait le programme ?

Premièrement il créé une variable où l’on conserve un gabarit d’appel générique à la commande shp2pgsql, le nom du fichier shapefile, le nom de table et le fichier de destination sont des paramètres.

Ensuite il récupère le répertoire courant et créé si besoin un répertoire sql sous le répertoire courant.

Le programme parcours alors le répertoire courant et les sous répertoires à la recherche de fichiers d’extension .shp, lorsqu’il trouve un fichier il extrait le code du département et construit les paramètres (chemin vers le fichier, nom de table, chemin vers le fichier de destination) et appelle la commande ainsi formatée en exécution système.

Nos fichiers sql sont alors disponibles sous le répertoire sql dans le répertoire courant, il reste à les modifier à nos besoins et à les importer.

Ce deuxième script est très semblable au premier. Dans ce cas on recherche les fichiers d’extension .sql sous les dossiers du répertoire courant et lorsqu’ils sont trouvés la commande système d’appel à psql est lancée afin d’exécuter les instructions SQL contenues dans le fichier.

#! /usr/bin/python
import os
import fnmatch

instructions = r'psql --host=localhost --port=5432 --username=postgres --no-password --dbname=Pesticides --file="%s"'

for root, dirnames, filenames in os.walk(os.path.realpath(os.curdir)):
  for sqlfilename in fnmatch.filter(filenames, '*.sql'):
      print sqlfilename, '...'
      sqlfilepath = root + os.sep + sqlfilename
      command = instructions % (sqlfilepath)
      os.system(command)

raw_input("Appuyez sur une la touche Entree pour quitter...")

L’opération prend un certain temps, même en local, mais le chargement en base c’est bien déroulé.

A présent créons une vue qui regroupera l’information de toutes les tables, ou plutôt une vue matérialisée.

Une vue matérialisée, à la différence d’une vue, stocke à la fois la requête qui a permis la génération de la vue mais également les données du résultat de requête. La vue matérialisée est équivalente sur ce point à une table et il est possible de l’indexer de la même façon. Ce comportement diffère de la vue qui exécute la requête à chaque appel, ce qui dans notre cas se traduirait par des performances moindres, dans le sens où les indexes de chaque table ne seraient probablement pas utilisés au mieux.

L’inconvénient principal des vues matérialisées c’est qu’il faut rafraîchir la vue lorsque les tables impactées par la requêtes sont modifiées, ce qui ne pose pas problème par rapport à nos données qui sont des données destinées à la consultation uniquement, pas à la mise à jour. Par contre les données sont dupliquées, nous aurons donc environ 1,5Go de données en double.

Lors de la création des instruction SQL, shp2pgsql créé une colonne gid qui sert de clef primaire. Cette colonne est construite sur la base d’une séquence à partir de 1, incrémentée de 1, ce qui est problématique pour lier plusieurs tables dans une vue : nous ne devons pas utiliser l’attribut gid dans la vue, ce qui créerait des doublons de clef, mais préciser lors du chargement d’une couche sous QGIS que l’attribut de référence pour la clef est le numéro d’îlot num_ilot

Nous devons aboutir à une instruction SQL comme celle ci :

CREATE MATERIALIZED VIEW mv_cultures AS
SELECT num_ilot, cult_maj, geom FROM "cultures_01" UNION ALL
SELECT num_ilot, cult_maj, geom FROM "cultures_02" UNION ALL
(...)
SELECT num_ilot, cult_maj, geom FROM "cultures_95"

Nous possédons tous les codes département dans la table Departement, pour générer la vue il va falloir créer la requête par une instruction SQL qui récupère tous les codes département sauf les Hauts de seine et Paris pour lesquels il n’existe pas de table, puis exécuter la requête :

SELECT
 'CREATE MATERIALIZED VIEW mv_cultures AS ' ||
 string_agg(format('SELECT num_ilot, cult_maj, geom FROM "cultures_%s"', lower("code_dept")), ' UNION ALL ')
FROM
 "Departement"
WHERE
 code_dept NOT IN ('75', '92');

Vous pouvez enregistrer la requête dans un fichier et passer par psql pour générer le résultat et vérifier avant exécution.

psql --host=localhost --port=5432 --username=postgres --no-password --dbname=Pesticides --file="C:\SIG\sql\createquery.sql" --quiet --output="C:\SIG\sql\query.sql" --log-file="C:\SIG\sql\createquery.log"
psql --host=localhost --port=5432 --username=postgres --no-password --dbname=Pesticides --file="C:\SIG\sql\query.sql"

Procédez de même avec une instruction CREATE VIEW et une instruction CREATE TABLE afin de comparer les plans d’exécutions de requêtes de type SELECT.N’oubliez pas de créer clefs primaires et indexes sur la vue matérialisée et la table…

CREATE INDEX t_cultures_geom_gist ON t_cultures USING gist (geom);
ALTER TABLE t_cultures ADD PRIMARY KEY (num_ilot);

CREATE INDEX mv_cultures_geom_gist ON mv_cultures USING gist (geom);
CREATE UNIQUE INDEX ON mv_cultures (num_ilot);
Partitionnement de la table

Une autre option qui s’offre à nous est de créer une table logique à partir de plusieurs tables physiques plus petites.

PostgreSQL supporte une forme simple de partitionnement de table. Je vais l’essayer sur ce cas de figure pour le découpage départemental des données et comparer le plan d’exécution avec les autres approches.

Le fichier de configuration de PostgreSQL permet de contrôler de quelle façon le planificateur de requêtes utilise les contraintes de table pour optimiser les requêtes.

Pour modifier le paramètre d’exclusions de contraintes, il suffit d’éditer le fichier postgresql.conf (sous C:\Program Files\PostgreSQL\9.3\data) :

constraint_exclusion = partition	# on, off, or partition

Le paramètre par défaut est partition, il pourra être intéressant de modifier le paramètre pour vérifier l’impact sur les plans d’exécution.

Procédons à la création de la table logique qui sera la table maître dont les autres tables vont hériter. La table ne possède pas d’indexe, et par rapport à la définition des tables cultures, elle possède désormais un code département.

CREATE TABLE master_cultures
(
  num_ilot character varying(12),
  cult_maj integer,
  code_dept character varying(2),
  geom geometry(MultiPolygon,4326)
)
;

Il reste ensuite à créer chaque table fille avec les instructions d’héritage appropriées. Les requêtes sont construites à la volée comme précédemment, le code n’est pas très élégant mais sera à usage unique !

SELECT
 string_agg(
	 format('DROP TABLE IF EXISTS child_cultures_%s;CREATE TABLE child_cultures_%s AS SELECT num_ilot, cult_maj, (SELECT CODE_DEPT from "Departement" WHERE code_dept = ''%s''), geom FROM "cultures_%s";ALTER TABLE child_cultures_%s ADD CONSTRAINT CK_%s CHECK (code_dept = ''%s'');ALTER TABLE child_cultures_%s ADD CONSTRAINT PK_%s PRIMARY KEY (num_ilot);CREATE INDEX child_cultures_%s_geom_gist ON child_cultures_%s USING gist (geom);ALTER TABLE child_cultures_%s INHERIT master_cultures;'
	 , lower("code_dept"), lower("code_dept"), lower("code_dept"), lower("code_dept"), lower("code_dept"), lower("code_dept")
	 , lower("code_dept"), lower("code_dept"), lower("code_dept"), lower("code_dept"), lower("code_dept"), lower("code_dept")
 ), ' ; ')
FROM
 "Departement"
WHERE
  code_dept NOT IN ('75', '92');

Ces données ne sont pas destinées à être mises à jour, il n’est pas nécessaire de contrôler les opérations de mise à jour sur la table maître par des procédures stockées comme dans la documentation. (La table ne possède d’ailleurs pas de clef primaire ni d’OIDS, l’accès en édition sera interdit sous PgAdmin)

Tout ça pour ça… Et maintenant ? Contrôlons la validité de chaque vue et chaque table créées pour un usage en tant que couche vectorielle.

Contrôle du chargement des couches PostGIS sous QGIS

Afin de vérifier le chargement d’une couche PostGIS à partir de la vue, de la vue matérialisée ou de la table il faut au préalable définir une emprise pour le rendu qui soit suffisamment restreinte pour ne pas charger toutes les données depuis PostGIS sans quoi il va falloir être à nouveau très patients !

Depuis la couche GEO_FLA des communes j’ai effectué sous QGIS un zoom sur Montélimar.

Cela se fait simplement depuis la table d’attributs en sélectionnant une ligne puis en cliquant sur l’icône de zoom sur la ligne sélectionnée.

La barre de statuts en bas permet d’afficher l’emprise (icône souris à côté des coordonnées), elle s’exprime sous la forme xmin,ymin : xmax,ymax où les coordonnées sont exprimées dans le SCR du projet :

xmin,ymin : xmax,ymax EPSG:4326
4.689,44.509 : 4.803,44.601
Sous QGIS, zoomez sur une commune pour restreindre les limites d’affichage puis allez dans le menu :
Couche > Ajouter une couche PostGISSous la connexion à la base vous devez apercevoir les vues et table nouvellement crées.

Avant d’ajouter une vue, vous devez préciser à QGIS la clef primaire, le numéro d’îlot, sans quoi QGIS retournera une erreur d’invalidité de la couche.

L’ajout de la couche à partir de la table ou de la vue matérialisée est presque instantané, alors que pour la vue… eh bien, vous vous féliciterez peut être d’avoir investi dans un disque SSD dernier cri.

A l’œil nu, le rafraîchissement des polygones sur la carte prend sensiblement le même temps pour la table et la vue matérialisée lorsque l’on agrandit l’étendue représentée, il est à nouveau beaucoup plus lent en ce qui concerne la vue.

A partir de la table maître et des tables héritées l’ajout d’une couche n’est pas instantané, une douzaine de secondes sont nécessaires pour initialiser le rendu par contre le rafraîchissement est ensuite beaucoup plus réactif que pour la table et la vue matérialisée lorsque l’on représente une plus grande étendue.

Cherchons à savoir pourquoi les performances sont mauvaises avec une simple vue, quelles optimisations apporter aux autres cas et quel choix faire pour notre application.

Bilan à l’heure du choix. Explication du plan d’exécution

PostgreSQL permet de visualiser les plans d’exécution de chaque requête SQL, l’instruction EXPLAIN retourne des informations pertinentes sur le plan d’exécution qu’il va utiliser.

Pour tester les plans d’exécution dans chaque configuration je vais construire une requête spatiale afin de simplement retourner toutes les parcelles sur une étendue géographique donnée.

En effet, ce sera le mode de fonctionnement de l’application web, il importe de le tester : les librairies javascript en charge du rendu des cartes vont faire appel aux informations sur l’étendue de la carte en cours, avec possibilité d’agrandir ou rétrécir l’étendue représentée.

Lorsque l’étendue sera élevée la couche des parcelles ne sera simplement pas affichée, car elle n’apporte pas d’information particulière dans un contexte de rendu global, par contre elle sera visible dès que l’échelle de la carte sera suffisamment élevée.

Sous PostGIS, la fonction ST_MakeEnvelope créé un polygone rectangulaire à partir de coordonnées X, Y et d’un SRID.

Le format est le suivant :

geometry ST_MakeEnvelope(double precision xmin, double precision ymin, double precision xmax, double precision ymax, integer srid=unknown);

Pour la commune de CAHUZAC située dans le département de code 47, le polygone recouvrant l’étendue géographique sera donc obtenu par :

SELECT ST_AsText(ST_MakeEnvelope(0.533, 44.639, 0.589, 44.685, 4326));

L’option ANALYSE permettra de lancer l’exécution de la requête afin de disposer des temps d’exécution et nombre de lignes réels.

L’étendue géographique sera celle de l’Auvergne :

EXPLAIN ANALYSE SELECT ST_AsText(geom) FROM t_cultures WHERE geom && ST_MakeEnvelope(2, 45 , 5, 47, 4326);
EXPLAIN ANALYSE SELECT ST_AsText(geom) FROM mv_cultures WHERE geom && ST_MakeEnvelope(2, 45 , 5, 47, 4326);
EXPLAIN ANALYSE SELECT ST_AsText(geom) FROM v_cultures WHERE geom && ST_MakeEnvelope(2, 45 , 5, 47, 4326);
EXPLAIN ANALYSE SELECT ST_AsText(geom) FROM master_cultures WHERE geom && ST_MakeEnvelope(2, 45 , 5, 47, 4326);

Les résultats sur cette requête me laissent perplexe car ils semblent contradictoires avec le ressenti sous QGIS.

La méthode est certainement sujette à un problème, si quelqu’un peut m’éclairer les remarques seront bienvenues pour construire des requêtes de test plus pertinentes !

Ce article est assez long, et je m’égare. La prochaine étape sera d’installer un serveur cartographique. L’héritage de table donne des résultats corrects même si la vue semble meilleure, par rapport au ressenti sous QGIS c’est la solution que je vais retenir par défaut, je conserve toutefois la possibilité de basculer sur les autres solutions.