3. Import dans Excel

Le problème c’est que le fichier CSV correspondant au rapport est un ‘vrai’ fichier CSV, c’est à dire qu’il est délimité par des virgules, alors que ce caractère séparateur est utilisé dans d’autres champs, par exemple la colonne ‘Structure Author‘. Examinons le CSV produit à ce stade, sous SciTE et avec le mode ‘wrap lines’ activé :

Nous voyons la fin de chaque ligne avec un caractère LF et nous nous intéressons aux entrées 1IVO, 1M14, 1M17 (lignes 3-6, 7 et 87) qui s’affichent en début de ligne.

Concernant les auteurs c’est jouable car nous constatons que chaque champ est délimité par des doubles quotes (guillemets). Par contre, si nous observons la ligne 3 (structure 1IVO) nous constatons que les identifiants de chaines (Asym ID, chaines B, C, D …) s’étalent sur 3 lignes supplémentaires. Ces lignes ne sont pas suivies par le nombre de colonnes nécessaires pour compléter la table à droite (il faudrait au moins 4 virgules) et qu’elles sont perturbées par la colonne Entry ID, à qui il manque ‘,,,‘ pour finir la table vers la droite.

Il s’agit d’une configuration qui va poser plein de problèmes d’importation, mais Microsoft Excel (à partir de la version 2019) va très bien s’en sortir. Par contre, il ne faut pas ouvrir le fichier CSV à partir du menu Fichier/Files, il faut aller dans le ruban section Données > A partir d’un fichier Texte/CSV. Ce qui déclenche un système d’analyse du CSV :

Nous constatons que les lignes concernant les identifiants de chaines sont prises en compte, et qu’il n’y a pas de décalage. Dans ces conditions l’import dans Excel fonctionne, tout est correctement pris en charge, nous constatons que les colonnes Asym ID et Entity ID sont correctement intercalées dans le cas de 1IVO.

Maintenant il ne nous reste qu’à enregistrer sous le format Texte (separateur : tabulation) (*.txt) de manière à produire un CSV, délimité par des tabulations, compatible avec les étapes suivantes.

Une fois cela fait, nous constatons que le fichier TXT correspond bien à ce que l’on attends d’un fichier CSV. Les colonnes Chain et Entity (entre temps nous avons changé les noms des colonnes pour réduire leur largeur) sont complétées par le nombre de tabulateurs adéquat (lignes 3, 4 et 5).

Nous pourrions en rester la mais nous voulons plus : simplifier certaines colonnes, des entrées DPB, DOI, ligands cliquables de manière à ce qu’on puisse les consulter d’une manière confortable.

Pages : 1 2 3 4 5 6