Charger des données depuis un CSV dans Oracle avec Liquibase

Aujourd’hui, on résous un problème très spécifique et très casse-pieds quand on se retrouve à devoir le gérer.

Liquibase est un outil très pratique qui permet de gérer les migrations de schémas de données, il est surtout utilisé avec des langaes à JVM (Java, Kotlin, etc). Il permet de charger des données directement depuis des fichiers CSV, ce qui est très pratique pour livrer des données « standard » avec l’application (configurations, référentiels, etc). Ceci se fait avec les commandes loadData ou loadUpdateData.

L’avantage, c’est que c’est très simple, ici avec un fichier de configuration XML mais la logique est la même quel que soit le format utilisé :

<loadData file="path/to/file.csv" tableName="table_name" relativeToChangelogFile="true" />

Et le système va lire simplement les en-têtes de colonnes dans le CSV, trouver les colonnes correspondantes dans la table et faire les insertions qui vont bien.

Sauf que…

Cette commande est extrêmement lente avec Oracle !

Je parle d’une commande qui peut mettre plusieurs secondes pour insérer une seule ligne d’une table avec une dizaine de colonnes, sur une base de données accessible sur le même réseau local. Et je ne parle même pas des temps de réponse qui explosent dès que vous n’êtes plus dans ce cas (au hasard, un test sur une base distante pendant que vous êtes en télétravail au travers d’un VPN  sur une ADSL, et voilà plusieurs minutes passées à simplement insérer une ligne dans une table).

La solution bourrine et illisible, c’est de remplacer les imports de CSV par des batteries de INSERT, mais on peut faire mieux.

En effet, ce qui prends aussi longtemps, c’est la récupération des métadonnées sur les colonnes à insérer (quelles colonnes existent réellement dans la table et quel est leurs types, pour que Liquibase puisse convertir correctement les données depuis le CSV vers la BDD). Et c’est cette procédure qui est particulièrement inefficace sur Oracle¹, elle nécessite énormément de requêtes avant de pouvoir faire la moindre insertion, et donc est très sensible au ping de la connexion utilisée.

L’astuce, c’est qu’ont peut définir les noms et types de colonnes à la main, ce qui évite à Liquibase de se lancer dans une introspection de la BDD pour avoir l’information. La définition de l’import devient quelque chose comme ceci – en supposant un CSV avec des headers, chaque colonne du CSV a le même nom que la colonne de la BDD :

<loadData file="path/to/file.csv" tableName="table_name" relativeToChangelogFile="true">
  <column header="ID" name="ID" type="NUMERIC"/>
  <column header="LABEL" name="LABEL" type="STRING"/>
  <column header="DATE_MAJ" name="DATE_MAJ" type="DATE"/>
  <!-- … etc. -->
</loadData>

Et le plus beau, c’est qu’on peut se contenter de faire générer toutes les balises <column> à Oracle !

select '<column header="' || col.column_name || '" name="' || col.column_name || '" type="' ||
       decode(col.DATA_TYPE,
              'VARCHAR2', 'STRING',
              'NUMBER', 'NUMERIC',
              'DATE', 'DATE',
              'BLOB', 'BLOB',
              'CLOB', 'CLOB',
              'NCLOB', 'CLOB')
              -- Il manque sans doute des conversions ici.
              -- en cas de type="" dans le résultat, ajouter la conversion à ce decode() à l’aide de 
              -- https://www.liquibase.org/javadoc/liquibase/change/core/LoadDataChange.LOAD_DATA_TYPE.html
           || '" />'
from sys.all_tab_columns col
where col.owner = 'USER_NAME'
  and col.table_name = 'TABLE_NAME'
order by col.column_id;

Et voilà, votre import de donnée est un peu moins lisible mais beaucoup plus rapide. Ça peut dépasser un facteur cent (moins de 20 ms contre plus de 2 secondes auparavant).

En réalité le problème existe peut-être avec d’autre SGBD. Mais je ne me rappelle pas avoir eu le cas avec PostgreSQL, et j’ai la flemme de tester. Si vous avez des informations à ce sujet, n’hésitez pas à les partager en commentaire.↩

« Liquibase » et le logo Liquibase sont des marques déposées de Datical, INC.

7 commentaires

artragis, mardi 11 mai 2021 à 20h55

Il me semble qu’on a aussi eu un bon facteur dix ou vingt à l’époque quand on a joué avec sqlserver.

Côté performances, par contre leurs dernières versions sont pas vraiment tip top.

11/05/21 à 20h55

+0 -0

Moté, mardi 11 mai 2021 à 22h37

Mais liquibase fait la requête pour chaque ligne à insérer ? Parce que sinon, il me semble que ça prend plus de temos de gérer à la main les différentes colonnes, non ?

11/05/21 à 22h37

Avant je m’appelais Phigger - La vie, c’est comme les mirabelles - Si vous ne deviez lire qu’un seul de mes articles - PetitMote.fr

+0 -0

Moté, mardi 11 mai 2021 à 22h50

C’est la requête sur les colonnes qui donne cette lenteur à l’insertion. Mais liquibase ne la fait qu’une seule fois pour un même CSV, non ? Donc ça ne devrait pas être si long ? Ou alors tu gères ça dans des processus automatisés ?

11/05/21 à 22h50

Avant je m’appelais Phigger - La vie, c’est comme les mirabelles - Si vous ne deviez lire qu’un seul de mes articles - PetitMote.fr

+0 -0

SpaceFox, mardi 11 mai 2021 à 23h06
Modifié

Même si ces requêtes ne sont faites qu’une seule fois par CSV, c’est quand même beaucoup trop long. L’ordre de grandeur de temps, sur un CSV, c’est : une seconde, plus 0,1 seconde par colonne (à la louche) en local, tu multiplie par ~100 pour avoir les temps quand j’essaie de passer sur la BDD distante à travers mon ADSL et le VPN.

Et j’ai une vingtaine de CSV à passer, dont un avec plus de 100 colonnes (la joie des très vieux schémas).

D’autre part, ça n’est pas un un Liquibase destiné à être lancé en one shot, loin de là. Pour ce cas précis, c’est un outil de test que je veux pouvoir lancer quand je veux, le plus vite possible.

11/05/21 à 23h06
Modifié

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+2 -0

artragis, samedi 22 mai 2021 à 09h19

A priori, cela va pas mal changer dans la prochaine version https://github.com/liquibase/liquibase/issues/1699 ils ont trouvé un fix qui permet de réduire le temps quand on ne connaît pas le type.

22/05/21 à 09h19

+1 -0

SpaceFox, mardi 15 juin 2021 à 17h41

A priori, cela va pas mal changer dans la prochaine version https://github.com/liquibase/liquibase/issues/1699 ils ont trouvé un fix qui permet de réduire le temps quand on ne connaît pas le type.

artragis

Alors, effectivement, ça a changé pas mal entre la 4.3.5 et la 4.4.0.

Dans le sens où mon astuce de contournement ne fonctionne plus…

15/06/21 à 17h41

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+0 -0

Comment éviter que loadData et loadUpdateData mettent trop longtemps…

7 commentaires

Pas encore membre ?