Création d’un jeu de données avec plusieurs fichiers

Il est possible d’ajouter plusieurs fichiers dans un jeu de données, ainsi que d’avoir plusieurs sources dans un même jeu de données.

Trois méthodes permettent d’ajouter plusieurs fichiers à un jeu de données : en les ajoutant un par un ou en ajoutant plusieurs fichiers simultanément via un fichier d’archive ou un serveur FTP.

Collecte de fichiers un par un

Cette méthode consiste à ajouter plusieurs fichiers un par un à la plateforme, de façon à créer autant de sources que le nombre de fichiers ajoutés. Dans cette situation, étant donné qu’une source différente est créée pour chaque fichier ajouté, ceux-ci peuvent être de divers formats (voir Formats pris en charge).

  1. Dans Catalogue > Jeu de données, cliquez sur le bouton Nouveau jeu de données.

  2. Cliquez sur le bouton Ajouter une source.

  3. Optez pour l’une des trois méthodes proposées pour télécharger votre premier fichier (voir Collecte de données).

  4. Après avoir ajouté le premier fichier, cliquez une nouvelle fois sur le bouton Ajouter une source.

  5. Répétez la procédure à partir de l’étape 3 autant de fois que nécessaire, c’est-à-dire jusqu’à ce que tous vos fichiers soient ajoutés dans le nouveau jeu de données.

Schéma de données lors de l’ajout des fichiers un par un

Avec cette méthode, c’est le premier fichier ajouté qui détermine le schéma de données. En d’autres termes, si les autres fichiers contiennent des champs qui ne correspondent pas à ceux du premier fichier ajouté, ils seront ignorés par la plateforme.

Collecte de plusieurs fichiers dans une archive

Cette méthode consiste à ajouter plusieurs fichiers simultanément via un fichier d’archive, de façon à créer une source identique pour tous les fichiers ajoutés. Dans cette situation, étant donné qu’une seule source est créée pour l’ensemble des fichiers, ceux-ci doivent tous avoir le même format (voir Formats pris en charge).

Schéma de données lors de d’ajout de plusieurs fichiers simultanément

Avec cette méthode, la plateforme choisira le fichier possédant la date de modification la plus ancienne pour déterminer le schéma de données.

  1. Créez un fichier d’archive (voir Formats de fichiers compressés pris en charge) avec les fichiers à ajouter au même jeu de données.

  2. Dans Catalogue > Jeu de données, cliquez sur le bouton Nouveau jeu de données.

  3. Cliquez sur le bouton Ajouter une source.

  4. Collectez le fichier d’archive grâce à l’une des trois méthodes proposées (voir Collecte de données).

Collecte d’un fichier Shapefile

Pour collecter un fichier Shapefile (contenant des formats de fichiers comme .shp, .dbf et .prj), créez un fichier d’archive avec tous les fichiers nécessaires dedans et suivez la procédure ci-dessus.

Collecte de plusieurs fichiers stockés sur un serveur FTP

Cette méthode consiste à connecter la plateforme au répertoire d’un serveur FTP (par ex. ftp://example.org/my_dir/) pour récupérer tous les fichiers de ce répertoire.

Répertoire et sous-répertoires

Tous les fichiers du répertoire doivent avoir le même format et le même schéma (par ex. des fichiers CSV avec des titres de colonnes identiques). En outre, les fichiers ne doivent pas se trouver dans des sous-répertoires : si l’URL pointe vers un répertoire contenant un fichier compressé, ce dernier est importé tel quel (non décompressé) dans la plateforme.

  1. Dans Catalogue > Jeu de données, cliquez sur le bouton Nouveau jeu de données.

  2. Cliquez sur le bouton Ajouter une source.

  3. Dans le champ Saisir une URL, saisissez l’URL du serveur FTP sur lequel les fichiers sont stockés.

Fichiers supprimés sur le serveur FTP

Lors de la synchronisation depuis un emplacement FTP distant, OpenDataSoft conserve un cache persistant et ne nettoie pas automatiquement les fichiers absents du répertoire distant. Veuillez contacter l’assistance OpenDataSoft pour tout besoin de nettoyage.