Un jour, j’ai voulu voir à quel point OSM était à jour concernant les bornes de recharge électrique, et ce qu’il existait comme jeu de données à disposition. C’est alors que je me suis lancé dans un recensement, puis dans la lecture du wiki concernant les bonnes pratiques à propos de l’intégration de jeux de données ouverts.
voir qu’Enedis se vante d’avoir raccordé 110 000 points de charge à l’été 2023, mais que l’open data n’en comporte que 44 000, soit moins de la moitié. Le Gireve est censé réunir les infos, mais rien n’est ouvert par défaut. Cet organisme n’a jamais souhaité publier de jeux de données au public. L’association OSM France en a fait la demande pour en discuter dès 2015 mais n’a jamais obtenu le moindre entretien.
fouiller les jeux de données à utiliser. trouver des tas de liens morts dans des sites de documentation sur l’open data.
voir l’existant du boulot déjà réalisé et de la documentation à disposition concernant les bornes de recharge, la correspondance attendue entre les données ouvertes et les tags OSM. La conversion du fichier de données qui liste des points de charge et des stations de recharge par Jungle Bus / nlehuby. France/data.gouv.fr/Bornes de Recharge pour Véhicules Électriques – OpenStree…
fouiller les libs utilisées habituellement par les personnes dont la data scionnnnce est le métier. me décider à opter pour de la bidouille très lisible et commentée en nodejs àpartir de fichiers geojson.
découvrir qu’il est archi courant que les données ouvertes soient d’une piètre qualité, les témoignages de gens qui ont déjà bossé avec depuis longtemps en attestant. C’est assez incroyable à quel point les jeux de données sont produits sans cohérence (et de plein de façons pourries différentes) comparé à ce qui en est attendu, même quand la documentation et qu’un outil de validation sont mises à disposition. Il semble qu’ils soient produits par des tas de gens différents, mais visiblement pas des gens à l’aise avec l’informatique, qui font des tableaux dans des poweurpouaint et les envoient en screenshot dans un pdf. C’est assez impressionant d’amateurisme et étonnament compliqué.
espérer que ce ne sont pas les mêmes énergumènes qui sont aux commandes pour ce qui concerne les choses stratégiques à la survie des gens du pays.
trouver une procédure qui permette de n’ajouter que des informations dont on peut estimer qu’elles sont bonnes en s’inspirant des analyses faites par Osmose.
créer un compte dédié à l’intégration: Bender l’importateur.
faire un essai de conflation sur un seul point de recharge avec succès.
jouer avec OpenRefine et le jeu de données conseillé.
recevoir direct un commentaire qui me fait remarquer que cette contribution est pas terrible.
s’apercevoir que j’ai ajouté des tags qui n’ont rien à voir avec les tags osm, mettre encore moins d’informations dans les données à ajouter.
constater avec horreur que même les valeurs censées être booléennes ne sont pas cohérentes avec des variations dans la casse, des fois true/false, et des fois 1 ou 0.
développer des scripts pour sonder la saleté du jeu de données en rapportant des valeurs uniques par colonne, et en sortir un fichier utilisable dans l’éditeur JOSM pour comparer visuellement les données disponibles dans OSM dans deux calques différents.
aller à la pêche aux infos auprès de gens qui sont censés libérer les données mais qui font tout pour ne surtout pas remplir leurs obligations, en faire état aux autres gens qui cherchent à faire avancer les choses sur le sujet.
s’apercevoir qu’il manque près de 90 000 points de charge à la publication malgré une loi qui prévoit des sanctions à hauteur de 300€ par point de charge non publié.
avoir une procédure d’ajout de point avec un minimum d’informations valables.
faire des ajouts en comparant visuellement avec les points déjà présents dans JOSM, faire de la sélection au lasso, valider les données dans un calque « à envoyer ». Bien regarder que les nouveaux points de charge ne contiennent rien de bizarre, et zou.
faire progressivement des ajouts sur des zones de plus en plus grandes.
découvrir une option dans JOSM pour sectionner automatiquement les ajouts en plus petits envois pour faciliter le suivi des modifications par zone.
and vouala, en environ 5 jours, 11 000 points de charge ajoutés à partir du jeu de données nettoyées.
fouiller des outils libres sur le sujet des IRVE. Voir le projet cleanfrenchirve qui fait un suivi et nettoyage quotidien du jeu de données de data gouv.
https://github.com/BastienGauthier/clean_french_irve constater que l’open data a supprimé plein de points de charge « pour cause de dédoublonnage », le jeu de données IRVE sur data gouv comporte maintenant environ 20 000 points.
voir que plein de gens ont détecté des coordonnées de bornes inexistantes ou totalement aux fraises dans pas mal de cas.
avoir la joie de voir pas mal de contributeux s’emparer du sujet et faire croitre la quantité et qualité des données.
Si vous aimez ce que nous faisons à Cipher Bliss, vous pouvez nous soutenir de plusieurs façons: en faisant un micro don sur liberapay , ou en cryptomonnaies. Le plus simple nous pour nous faire connaître étant de partager cet article. Suivez moi sur Mastodon @tykayn@mastodon.cipherbliss.com. Ce site restera libre comme un gnou dans la nature et sans pubs, parce qu'on vous aime. Que la source soit avec vous!
C’est pas le tout d’avoir de la belle imagerie 360 avec sa gopro et d’en assembler les deux côtés avec un truc libre nommé fusion2sphere, ce serait bien que ça soit tagué comme le reste des fichiers pour pouvoir les retrouver facilement, tout en ne détruisant pas les séquences en renommant les fichiers.
Il existe justement un script pour ça issu de ma cuisine: gopro_rename.
mettez ce script dans un dossier où votre variable PATH pourra le trouver, puis ouvrez votre terminal préféré. Allez ensuite dans votre dossier de photos gopro qui auront leur nom séparé en fonction de leur côté front ou back, et de leur numéro de séquence.
Vous aurez ainsi un ensemble de fichiers homogènes qui vous permettent de faire des recherches sur leur date de capture.
Vous pourrez ensuite vous amuser à faire du appendfilename ( avec ou sans l’option –smart-prepend) pour ajouter une description aux fichiers correspondant à votre séquence.
Si vous aimez ce que nous faisons à Cipher Bliss, vous pouvez nous soutenir de plusieurs façons: en faisant un micro don sur liberapay , ou en cryptomonnaies. Le plus simple nous pour nous faire connaître étant de partager cet article. Suivez moi sur Mastodon @tykayn@mastodon.cipherbliss.com. Ce site restera libre comme un gnou dans la nature et sans pubs, parce qu'on vous aime. Que la source soit avec vous!
En cherchant un bon outil pour gérer mes projets j’étais tombé sur le fameux GTG: Getting things gnome, un outil local pour gérer des hiérarchies de tâches très rapidement avec une interface graphique de qualitay, mais qui souffre d’un trop grand nombre de fenêtres ouvertes assez rapidement.
ça m’a servi pendant un moment, et puis j’ai ensuite voulu migrer mes quelques 300 tâches et idées vers des fichiers Orgmode, il me suffisait d’écrire un petit convertisseur de fichier de données et tadam!
Les données de GTG sont stockées dans le dossier ~/.var/app/org.gnome.GTG/data/gtg dans des fichiers xml.
Il suffit d’utiliser une lib pour parcourir ces fichiers, récupérer les informations sur les tâches, et en faire des simples textes présentés avec la syntaxe Org dans un nouveau fichier texte. J’ai utilisé un script bash et un autre en nodejs pour cela.
ça a fonctionné très bien pour me rendre compte à quel point utiliser Orgmode dans Emacs est bien plus pratique. Je me disais que ça servira sans doute à d’autres qui veulent tenter de se mettre à Orgmode sans faire exploser leur Getting Things Gnome pour autant, enjaillez!
Si vous aimez ce que nous faisons à Cipher Bliss, vous pouvez nous soutenir de plusieurs façons: en faisant un micro don sur liberapay , ou en cryptomonnaies. Le plus simple nous pour nous faire connaître étant de partager cet article. Suivez moi sur Mastodon @tykayn@mastodon.cipherbliss.com. Ce site restera libre comme un gnou dans la nature et sans pubs, parce qu'on vous aime. Que la source soit avec vous!
Pour ranger mes archives photos selon une organisation par tags dans les noms de fichiers je me suis heurté à une organisation de mes photos qui avait des informations d’évènements situées dans le nom de dossier qui les contenaient. Pour avoir cette information dans le nom de fichier j’avais quelques options: – créer un calendrier à partir de l’arborescence des fichiers et relier ensuite les informations de date d’évènement avec les dates exif de fichier. Pour ça on peut utiliser la commande « tree » qui dessine une arborescence des dossiers. Il suffisait de rediriger la sortie de commande vers un fichier texte pour archiver ces informations dans mon système d’archives. – parcourir les dossiers, prendre l’information du nom du dossier et la placer dans le nom des fichiers. C’est de là qu’est né le petit script python « rename file folder » que j’ai ensuite invoqué derrière un alias à lancer dans mes dossiers d’archive.
Vous pouvez voir la source du fichier python qui permet de renommer les fichiers ici:
ajoutez un alias dans votre fichier ~/.bash_aliases
alias rff="python $WORKFLOW_PATH/files_management/rename_photo_folder.py"
et voilà
Si vous aimez ce que nous faisons à Cipher Bliss, vous pouvez nous soutenir de plusieurs façons: en faisant un micro don sur liberapay , ou en cryptomonnaies. Le plus simple nous pour nous faire connaître étant de partager cet article. Suivez moi sur Mastodon @tykayn@mastodon.cipherbliss.com. Ce site restera libre comme un gnou dans la nature et sans pubs, parce qu'on vous aime. Que la source soit avec vous!
This is post 6 of 7 in the series “gestion de l'information personnelle”
Décrit la gestion des fichiers et des informations personnelles que j’utilise pour tirer du sens de mes archives et les conserver de façon pérenne et découvrable, uniquement avec des outils respectueux de la vie privée
Près d’un tiers de mes archives sont des doublons. Mais ça c’était avant.
Pour savoir quel dossier prend plein de place, il existe des outils comme Ncdu en ligne de commande si vous n’avez pas d’environnement de bureau, ou Baobab, aka l’analyste d’utilisation de disque installé de base sur Debian / Ubuntu. cela vous permettra de cibler les dossiers les plus gros.
Spoiler: ce sont les vidéos et les photos qui prennent le max de place chez la plupart des gens.
Vous pouvez cibler un dossier en particulier et voir ce qui remplit votre disque. C’est une très bonne première approche. On a juste à naviguer dans le graphe, ou dans les noms de dossiers, pour voir sur quoi on doit concentrer nos efforts. On peut ouvrir les dossiers dans notre explorateur de fichier pour aller voir en détail, mais on peut aussi mettre à la poubelle des dossiers entiers depuis Baobab.
Il ne faudra pas oublier de vider votre corbeille ensuite pour vraiment bénéficier de l’espace libéré.
Repérer les doublons avec Czkawka
si vous aviez l’habitude de fslint qui n’est plus maintenu c’est pareil. Voici le site officiel pour l’installer: https://qarmin.github.io/czkawka
Vous pouvez utiliser snap pour ça, c’est le plus simple.
snap install czkawka
# et pour le lancer
snap run czkawka
Pour s’en servir on sélectionne un ou des dossiers où fouiller, via le bouton vert « add ». Puis on clique sur « search » en bas à gauche. Et au bout de quelques secondes ou minutes si vous comparez beaucoup de trucs, vous avez les résultats. Vous pouvez ensuite cocher les fichiers à dégager, et appuyer sur la touche « suppr » de votre clavier pour les mettre à la poubelle. Ou faire d’autres actions comme proposé en bas à droite. Vous pouvez désactiver l’aperçu des images au clic sur le nom de fichier dans les paramètres, bouton « outil clé » en haut à droite.
Pour accélérer les comparaisons de hashs de fichier je vous recommande d’activer cette option dans les paramètres pour ne comparer qu’une portion des fichiers au lieu de leur intégralité.
L’intérêt de cette comparaison par hash c’est que ça permet d’éliminer des doubles qui ne se nomment pas pareil.
Vous pouvez aussi exclure certains motifs de dossiers pour accélérer les recherches. ça se passe dans les onglets en haut de l’écran, section « répertoires exclus ». Dans l’onglet configuration des éléments j’ai exclus certains dossiers:
On a donc en résultat une liste des fichiers en double, triés du plus lourd au moins lourd. Vous pouvez vous amuser à les supprimer un par un 😀 ou essayer de faire des choses plus malines.
Un double clic droit sur une ligne de fichier vous permettra d’ouvrir le dossier contenant le fichier dans votre explorateur de fichier. C’est très pratique pour repérer les contenus qui ont été copiés dans plusieurs dossier, afin de couper coller le contenu de l’un dans l’autre et de fait supprimer une énorme masse de doublons.
Czkawka permet aussi de faire de la recherche d’image similaire. Je ne l’ai pas utilisé mais ça semble prometteur.
Les quelques similarités que je cherche à supprimer sont des redimensions de fichiers réduites pour publication en ligne. un filtre sur des termes comme « thumb » ou « small » suffisent à en retrouver un paquet.
Restez groupir les photos et vidéos.
Exemple avec mes photos, elles sont dans un dossier nommé stockage-syncable/photos qui contient plusieurs trucs. Notamment des dossiers d’années, qui contenaient des dossiers mensuels, avec des dossiers groupant des jours et des évènements sur plusieurs jours. Un bon moyen de dédoubler tout ça c’est de faire du renommage de masse basé sur les métadata des photos/vidéos, et de tout réunir dans un seul dossier. Reste ensuite à tout répartir par année à coup de script. Et à mettre dans un coin dédié les fichiers qui demandent un traitement ou des incertitudes de doublonnage à lever.
J’avais des doublons pour faire des sélections d’albums, certains à imprimer, certains pour désigner des étapes de chantier de maison ou des lieux de capture pour des séquences de mappage openstreetmap à 360°.
Une fois que les choses sont élaguées des parties les plus évidentes on peut se demander comment faire en sorte de mettre tout ça en qualité, et surtout, à quoi ça ressemble des archives qui seraient de très bonne qualité.
La suite au prochain épisode!
Si vous aimez ce que nous faisons à Cipher Bliss, vous pouvez nous soutenir de plusieurs façons: en faisant un micro don sur liberapay , ou en cryptomonnaies.
Le plus simple nous pour nous faire connaître étant de partager cet article.
This is post 5 of 7 in the series “gestion de l'information personnelle”
Décrit la gestion des fichiers et des informations personnelles que j’utilise pour tirer du sens de mes archives et les conserver de façon pérenne et découvrable, uniquement avec des outils respectueux de la vie privée
Imaginez y’a des gens qui s’amusent régulièrement à tenter d’exporter leurs photos, vidéos et documents récupérés depuis leur téléphone pour tenter de s’en servir sur un ordi, ou un autre, et à avoir du mal à retrouver leurs documents quand ils en ont besoin. Qui pestent contre le protocole MTP qui n’est pas capable d’utiliser pleinement la rapidité d’un cable USB. Qui finissent pas utiliser Wifi File Transfer pour copier leurs fichiers du téléphone vers leur ordi, ou qui trouvent ça trop galère et du coup se disent que refiler tout à un bon gros GAFAM est une solution pérenne, haha ! Alors que les GAFAMS n’ont de cesse de tuer les uns après les autres leurs services de surveillance.
Alors qu’il suffit d’avoir sa propre gestion de fichiers syncronisés chez soi en pair à pair, par exemple avec Syncthing, ou un nextcloud chez des CHATONS.
Pour Nextcloud
Il vous faudra:
un compte nextcloud sur un serveur
l’appli client nextcloud sur votre téléphone, connecté à votre compte serveur
avoir l’upload automatique activé depuis votre téléphone, et ce même si vous n’avez pas le wifi connecté (voir dans les paramètres d’upload automatique de l’appli mobile)
avoir le client nextcloud installé sur un ordinateur, connecté à votre compte serveur
Pour Syncthing
Il vous faudra:
faire marcher syncthing sur votre ordi
faire marcher syncthing sur votre ordiphone
configurer les dossiers à faire syncroniser
appairer les deux identifiants de syncronisation
accepter la syncronisation sur les deux appareils, choisir les dossiers concernés
et tadam, vos photos, vidéos et documents seront téléchargés sur votre ordi. Vérifiez dans les paramètres que l’envoi vers le serveur nextcloud se fait même si vous n’êtes pas connecté au wifi.
Une fois l’upload fait automatiquement vous aurez vos médias téléchargés dans votre dossier Nextcloud sur votre ordi, par défaut dans votre dossier de /home/mon_utilisateur/Nextcloud/InstantUpload. Ce dossier de destination est bien sûr modifiable, tout comme votre client Nextcloud vous permet de syncroniser plusieurs dossiers différents, de ne pas forcément tout syncroniser de ce qui se trouve sur votre serveur Nextcloud, et pas forcément dans le dossier /home/mon_utilisateur/Nextcloud. Mais bon, pour garder l’exemple simple on va prendre les paramètres par défaut.
J’ai un dossier pour mes photos et vidéos à ranger, il me suffit de déplacer automatiquement les médias récupérés depuis le dossier InstantUpload vers celui ci, de les renommer automatiquement pour suivre ma convention de nommage avec des tags, et de les déplacer dans le dossier annuel. ça se fait très simplement avec un seul fichier de script bash, qui est exécuté toutes les 5 minutes sur mon ordinateur d’archivage.
Comme le dossier InstantUpload distingue dans des sous dossiers les médias que j’ai capturé par mon téléphone et ceux que j’ai téléchargé, je peux les ranger automatiquement avec un simple couper-coller fait par la commande mv (move). Je pourrai mettre des descriptions et des tags ultérieurement avec mon gestionnaire de photos scriptable Geequie, avec mes raccourcis clavier configurés via ma procédure d’installation de gestion de fichiers.
Le meilleur moyen d’éviter que le bazar soit partout, c’est de le concentrer dans un seul dossier. Donc pour tous les autres trucs que je récupère sur mon téléphone, je peux les envoyer dans mon dossier de bazar.
Ne reste plus qu’a se consacrer un peu de temps à autre, via un rappel d’agenda par exemple ou une revue hebdomadaire (coucou la méthode GTD) à faire disparaître le bazar, soit en truc rangé, soit dans le néant comme le conseille Marie Kondo.
le fichier de crontab:
#Ansible: run nextcloud workflows of tykayn
*/5 * * * * /bin/bash ~/Nextcloud/ressources/workflow_nextcloud/cronjob_nextcloud.sh
# back pictures to ARCHIVE_SYNCABLE
logDate 'copy of Nextcloud InstantUpload photos'
mv ~/Nextcloud/InstantUpload/Camera/* "$PHOTOS_TO_DISPATCH" | tee -a $LOG_FILE_BACKUP 2>&1
mv ~/Nextcloud/inbox/instantUpload/* "$PHOTOS_TO_DISPATCH" | tee -a $LOG_FILE_BACKUP 2>&1
#mv ~/Nextcloud/inbox/instantUpload "$PHOTOS_TO_DISPATCH" | tee -a $LOG_FILE_BACKUP 2>&1
guessfilename "$PHOTOS_TO_DISPATCH/$CURRENT_YEAR*"
cd $PHOTOS_TO_DISPATCH
move2archive --archivepath=$PHOTOS_FOLDER "$CURRENT_YEAR*"
echo ' ' >> $LOG_FILE_BACKUP_DATES
echo "### ${today} medias in $ARCHIVE_SYNCABLE/photos/$CURRENT_YEAR" >> $LOG_FILE_BACKUP_DATES
ls -l "$ARCHIVE_SYNCABLE/photos/$CURRENT_YEAR" | wc -l | tee -a $LOG_FILE_BACKUP 2>&1
Secouez le tout avec une mise en archive chiffrée par borg backup, syncronisez avec des supports distants, et voilà qui est automatiquement rangé.
Si vous aimez ce que nous faisons à Cipher Bliss, vous pouvez nous soutenir de plusieurs façons: en faisant un micro don sur liberapay , ou en cryptomonnaies.
Le plus simple nous pour nous faire connaître étant de partager cet article.
This is post 4 of 7 in the series “gestion de l'information personnelle”
Décrit la gestion des fichiers et des informations personnelles que j’utilise pour tirer du sens de mes archives et les conserver de façon pérenne et découvrable, uniquement avec des outils respectueux de la vie privée
Pour se conformer à une gestion de l’information durable il faut adopter des méthodes fiables sur le long terme, voici donc quelques outils respectueux de la vie privée qui vont nous permettre de mettre tout ceci en place. Mais avant cela, on doit définir ce qui représente une archive propre.
Qu’est-ce qu’une archive propre?
Aucun fichier en double
des noms de fichiers uniques, et qui ont du sens
un système d’étiquetage flexible qui permette des recherches ultra rapides
des automatismes pour ranger et renommer les choses
les données sont chiffrées
Les difficultés courantes pour avoir des archives cohérentes et propres telles que définies ci-dessus sont les suivantes:
on a plusieurs supports de taille différentes, datant d’époques différentes
on a à notre disposition les données de plusieurs personnes différentes, qui ont donc chacun leur façon de ranger leurs archives
des informations liées aux fichiers sont parfois stockées non pas dans les fichiers, mais ailleurs comme dans les dossiers qui la contiennent, ou dans des outils séparés, voire pire, en SaaS. Ce qui rend leur déplacement périlleux.
certains fichiers sont redimensionnés pour être publiés en ligne, et peuvent aussi être caché dans des archives zip
les informations de date de création sont erronées et pourrissent les données exif
les noms de fichiers ne sont pas forcément supportés par votre système d’exploitation (coucou windows)
les rythme de changement des données sont inégaux entre les sources qui les produisent. Je ne prends pas autant de photos que de médias sont publiés sur mon instance peertube par exemple.
Différentes tailles de support dans le bazar
Pour pouvoir travailler confortablement, il faut regrouper vos données dans un support de stockage le plus grand possible. On va désigner cet espace par « mon ordinateur d’archivage », en ce qui me concerne c’est une tour dans laquelle j’ai mis des disques en redondance par système de fichier ZFS pour avoir au final 10 To d’espace maximum fort bien répliqué. C’est largement suffisant pour ce que j’ai à gérer, surtout qu’avec BorgBackup les contenus que je sauvegarde sont compressés et dédupliqués. Mais commençons par le tri le plus simple, en utilisant notre explorateur de fichiers.
Nos angles d’attaque pour réduire le bazar quand on a aucun outil avancé: l’aplatissement des hiérarchies de dossier, la recherche par format de fichier, la suppression, et le couper coller. On va voir quelques façons plus efficaces bientôt.
Centralisons le bazar dans un seul dossier
Certains préféreront avoir toutes leurs archives dans leur dossier home personnel. Mais je ne le conseille pas, car j’ai des dossiers home variés sur divers ordinateurs, qui n’ont pas tous de quoi stocker l’intégralité de mes archives dans le home personnel. J’ai donc créé un volume ZFS chiffré monté dans un home séparé, le /home/poule (comme un pool de disques, haha!). Et la phrase de passe déchiffrant ce volume est stockée dans mon gestionnaire de mots de passe.
Pour commencer vous pouvez faire plus simple et tout mettre dans un sous dossier de votre home, ou dans un autre home vierge. Dedans on va regrouper des trucs à archiver, créons donc un dossier BAZAR, et un autre où on aura des fichiers proprement rangés et dédupliqués.
Couper coller les données depuis les autres supports de stockage (clé usb, disques dur externes, laptop, téléphone, gopro, autres trucs divers et variés) afin de ne pas faire le travail de regroupement en double. Certains dossiers sont identiques et faciles à identifier, surtout si vous les avez récemment rangés, vous pouvez les supprimer sans les regrouper dans le BAZAR.
On va pouvoir ensuite rechercher les doublons pour réduire le boulot de mise en qualité.
Pour comparer avec ce que l’on a actuellement on va mesurer la taille que prend tout le bazar avant qu’on s’en occupe
du -sch /home/poule/
Vous devriez voir la place prise par l’ensemble de votre dossier poule, notez la dans un coin.
Mise en qualité de notre archive
C’est bien simple, tout ce que vous n’automatisez pas, vous devrez vous le peler à un moment ou un autre, ou faire peser cette responsabilité à quelqu’un d’autre. Mais il ne faut pas se leurrer, vous aurez forcément besoin à un moment ou a un autre de retrouver vos fichier, ou des données qu’ils contiennent. Comme pour les objets physiques, plus on en accumule, plus on devra consacrer de temps à les gérer, ou a vivre avec des poubelles. Moins de corvées à faire, c’est plus de temps pour une vie plus intéressante, donc par pitié, virez des trucs, gérer vos projets de façon à savoir où vous en êtes et automatisez vos tâches. Votre futur vos-même vous en remerciera.
Commençons à voir quels outils numériques libres on peut utiliser pour se simplifier la vie.
Avant de s’attaquer à nos fichiers il faut avoir dégagé le gros des doublons, et avoir regroupé ensemble les fichiers qui ont le plus de chance d’être proches une fois rangés. Baobab et Czkawka à la rescousse.
Enfin, faites gaffe quand vous faites des modifications massives, il ne faudra pas venir chouiner que vous avez tout bousillé si vous n’avez pas fait de sauvegarde ailleurs et que vous avez cassé vos fichiers important au lieu de juste casser vos fichiers de démonstration. Un bon moyen d’éviter ça c’est d’avoir une bonne stratégie de sauvegarde. Sans oublier la partie « sauvegarde à froid, hors ligne, loin de votre ordinateur habituel, débranchée pour de vrai ».
Design de noms de fichiers retrouvables
Voilà ce à quoi on vise pour les noms de fichiers, une structure précise avec des sections optionnelles:
/home/poule/encrypted/stockage-syncable/photos/2023/2023-01-18T13.09.35 fruit du dragon -- nourriture.jpg
Il va nous falloir des outils pour ranger dans un dossier organisé, définir une date en entête du nom, une description, et des tags, avant la fin du nom de fichier contenant son format, et que tout ceci soit suffisamment fluide à utiliser pour qu’on garde ces outils dans la durée, sur des décennies, des sauvegardes qui durent des milliers d’années. Rien que ça oui. Et que l’on puisse restaurer.
Utiliser un vocabulaire contrôlé pour marquer les fichiers
Contrôler les tags à utiliser en les limitant, oui mais comment? On va utiliser un fichier qui va prédéfinir une cinquantaine de mots que l’on va pouvoir appliquer à nos fichiers. Ces tags devront être cohérents dans leur casse: bas de casse, termes au pluriel, un seul mot ou plusieurs mots reliés par des soulignés, suffisamment généraux, et ne pas se recouvrir dans leur sens.
On peut aussi les utiliser pour faire de la gestion de projet en définissant un cycle de vie des fichiers, ce qui permettra d’avoir des versions datées et d’indiquer leur état d’avancement dans un tag.
Dernier aspect utile: définir la visibilité des fichiers, privés, confidentiels, ou publics quand cette visibilité n’est pas précisée.
les brouillons, les versions d’avancement, l’état publié, ou terminé sont des états qui ne se recouvrent pas et permettent de suivre l’état des fichiers par une simple recherche sur leur nom.
Commencez par peu de termes, et faites du jardinage en renommant en masse les fichiers au fur et à mesure, mais n’allez pas mettre des tags ne correspondant pas à des cas d’usage de choses que vous aimeriez rechercher plus tard.
Avec l’outil Filetags nous allons pouvoir attribuer en masse et avec de l’autocomplétion des tags à une sélection de fichiers.
Exemple de fichier .filetags:
amis
animaux
bâtiment
carte
chantier
dodo
famille
festival
fête
gopro
gopro-back gopro-front
graph
has_no_tag
hélia
illustration
maison
manif
nourriture
papier
plan
sélection
voiture
voyage
public private
brouillon final publié
jeté
matériel
portrait
Voyons quels outils on peut utiliser, et après on verra comment les installer.
Ajouter une date au nom de fichier
Beaucoup de fichiers ont un nom qui n’est pas bien utile dans une recherche d’informations.
Pour toutes les photos et vidéos que j’ai pris avec mes smartphones et appareil photo, on retrouve un certain schéma de nommage. Je pouvais donc lancer une commande de renommage massif sur tous les fichiers qui correspondaient à ce schéma. En faisant des essais sur plusieurs jeux de fichiers de tests d’abord avant de progressivement lancer le renommage sur des portions de plus en plus grosses de mon dossier de photos.
Exiftool à la rescousse! Vous pouvez l’installer avec Apt:
sudo apt install exiftool
# renommer mes fichier DSC*.jpg en leur date et heure.jpg
alias ex="exiftool '-filename<FileModifyDate' -d \"%Y-%m-%dT%H.%I.%S%%c.%%le\" -r"
alias ex2="exiftool '-filename<DateTimeOriginal' -d \"%Y-%m-%dT%H.%I.%S%%c.%%le\" -r"
C’est un outil qui permet de lire les métadonnées, en écrire, et renommer les fichiers tout en les déplaçant si on le souhaite. Pour que ça reste assez simple, j’ai fait en sorte que mon utilisation d’exiftool ne déplace pas les fichiers, en comptant sur un autre outil présenté ci-après: move2archive.
Cependant y’a quelques soucis, certains fichiers perdent des informations exif quand on les déplace. C’est rare mais ça arrive. il faudra donc les renommer à la mano si l’info est perdue.
On peut aussi croiser le problème des informations exif entrées différemment d’un appareil photo à un autre, c’est donc aussi valable quand on change de smartphone. Donc pour les photos récalcitrantes j’ai fait une autre version du script exiftool qui se base sur un autre attribut, celui de la date de modification du fichier.
Hey mais, et si pour certains de mes fichiers j’ai déjà une description et que je souhaite la garder? Il me faut un outil qui sache détecter mon schéma de nom de fichiers et ne pas tout péter. Date2Name est là pour ça! Quelle chance!
Date2Name permet de rajouter une date avec ou sans précision de l’heure en début de nom de fichier.
Ajouter un texte de description
appendfilename est dans la place. il va aller chercher le bon endroit dans le nom de fichier pour ajouter du texte, il dispose d’une option pour aller l’ajouter avant, avec l’option prepend.
Ajouter ou enlever des tags.
filetags va lire notre fichier de vocabulaire controllé .filetags, et nous proposer de rajouter ou enlever des tags à notre sélection de fichiers dans une mini fenêtre de terminal. Pour enlever un tag on le précède d’un moins. Et on peut faire de l’ajout et de la suppression en même temps.
Remplacer les noms de fichiers en masse
Pas besoin d’outil pour cela, dans l’explorateur de fichier Nautilus ou Thunar, vous avez un choix pour rechercher-remplacer dans les noms de fichier.
Ajouter le nom du dossier parent
J’ai rangé pas mal de fichiers en donnant des informations au dossier qui les contient, pour enrichir ces fichiers il me fallait donc une façon automatique de renommer les fichiers en question. Je me suis appuyé sur append file name pour ça et ai produit un script python nommé rename file folder.
Renommer les captures gopro 360
J’ai aussi fait un script perso, mais en bash cette fois, pour le sport: gopro_rename. Celui ci détermine selon le nom original si il s’agit d’une capture du côté frontal, ou arrière, et renomme en conséquence, tout en gardant en description le nom de fichier original pour suivre la séquence. Je peux ensuite faire du appendfilename pour ajouter une description de la séquence.
Deviner le nom de fichier
un script pour les renommer tous! Si on a suffisamment d’indices dans la structure du nom de fichier, dans ses données exif, ou dans son contenu, on peut le renommer automatiquement, et le mettre au bon endroit.
guessfilename est là pour ça, il réunit plusieurs considérations précédentes et va tenter de nettoyer les noms de fichiers automatiquement.
Déplacer automatiquement les fichiers
Une fois qu’on a nos fichiers nommés proprement, on peut les déplacer automatiquement. Pour les photos, dans le dossier photos/2023/ par exemple pour les photos prises cette année. Move2archive est là pour ça.
Move2archive dispose d’un fichier de configuration auquel on doit préciser quel est notre dossier racine pour nos archives, afin de les ranger automatiquement dans celui ci. On peut aussi préciser ce dossier avec un paramètre.
En cas de fichier dont le nom est identique à l’arrivée, on écrase pas le fichier et on laisse à l’utilisateur le choix de quoi faire avec.
Avoir des alias de commande
votre terminal peut enregistrer des raccourcis de commande, c’est bien pratique et permet d’avoir toujours la flexibilité de la suite de la commande. Exemples d’alias que j’utlise dans mon fichier .bash_custom_aliases :
################ personal info management #########
alias gf="python $WORKFLOW_PATH/files_management/guessfilename_custom.py"
alias rff="python $WORKFLOW_PATH/files_management/rename_photo_folder.py"
alias m2a="move2archive --archivepath $stockage_syncable_folder/photos"
alias ex="exiftool '-filename<FileModifyDate' -d \"%Y-%m-%dT%H.%I.%S%%c.%%le\" -r"
alias ex2="exiftool '-filename<DateTimeOriginal' -d \"%Y-%m-%dT%H.%I.%S%%c.%%le\" -r"
alias exgps="exiftool '-filename<GPSDateTime' -d \"%Y-%m-%dT%H.%I.%S%%c -- has_gps.%%le\" -r"
git clone https://forge.chapril.org/tykayn/scripts
cd scripts/bash/file_management
bash install.sh
Chacun de ces outils est utilisable dans un terminal, mais ce n’est pas forcément le plus pratique. Pouvoir les utiliser en sélectionnant des fichiers dans notre explorateur de fichier favori, ou dans un gestionnaire de gallerie qui permet de lancer des scripts avec des raccourcis clavier personnalisables c’est tout de même vachement plus utilisable au quotidien.
Enjaillez!
Si vous aimez ce que nous faisons à Cipher Bliss, vous pouvez nous soutenir de plusieurs façons: en faisant un micro don sur liberapay , ou en cryptomonnaies.
Le plus simple nous pour nous faire connaître étant de partager cet article.
ça faisait un bout de temps que je me demandais si il existait de bons outils pour éviter la duplication de fichiers, qui permettraient de ranger un fichier dans plusieurs dossiers, mais sans que ça soit compliqué ou que ça dépende d’un service tiers.
Avoir une organisation de ses archives et fichiers courants quand on a – comme tout le monde – fait les choses sans méthode définie est une transition qui prend du temps. Tout comme pour sortir des GAFAM quand on baigne dedans, c’est pourtant une bonne chose à faire. Donc installez vous confortablement, ça va prendre du temps.
La méthodologie PARA permet de savoir où ranger les choses quand on en récupère de nouvelles, et où placer celles que l’on a déjà. Distinguer les fichiers que l’on utilise souvent, et ceux qui sont au repos et moins souvent consultés, que l’on qualifiera d’archivable ou de courants.
Définir un vocabulaire contrôlé pour que les tags soient suffisamment généraux et cohérents pour être utiles, et avoir de l’autocomplétion au moment de mettre ou changer les tags sur plusieurs fichiers. Faire des backups automatisés chiffrés et dédupliqués avec borg backup, afin d’éviter de gaspiller de l’espace disque et économiser en budget que je peux ainsi attribuer à des dons publics. Détecter les doublons avec Czkawka. Virer plein PLEIN de documents numériques et physiques. Utiliser un système de fichiers qui permette des gains et de la résilience, tel que le zettabyte-filesystem aka ZFS. Renommer en masse ses fichiers photos, les déplacer automatiquement dans un dossier annuel, taguer ses fichiers avec un logiciel de galerie, ou dans son explorateur de fichiers. Renommer ses fichiers de carto-photo 360 en masse pour suivre leur parcours et les appairer, puis les publier sur plusieurs sites tels que le futur géocommun Panoramax. Utiliser un moteur de recherche libre et local comme DocFetcher pour indexer et fouiller l’intérieur des documents quand on en a besoin.
Disposer d’un système de synchronisation pair à pair pour sauvegarder sur un serveur perso les documents capturés au smartphone, j’utilise Nextcloud et Syncthing.
Archiver automatiquement les documents capturés du smartphone dans nos archives.
Scripter sa façon de faire pour qu’elle soit documentée et portable. Partager le tout sous licence libre AGPLv3+ pour que chacun puisse faire le tout à sa sauce sans réinventer la roue:
Si vous aimez ce que nous faisons à Cipher Bliss, vous pouvez nous soutenir de plusieurs façons: en faisant un micro don sur liberapay , ou en cryptomonnaies. Le plus simple nous pour nous faire connaître étant de partager cet article. Suivez moi sur Mastodon @tykayn@mastodon.cipherbliss.com. Ce site restera libre comme un gnou dans la nature et sans pubs, parce qu'on vous aime. Que la source soit avec vous!
C’est assez simple de faire des bots pour Mastodon, il existe des tas de bibliothèques pour le faire dans des tas de langages différents. On peut s’en servir pour accueillir les nouveaux inscrits, stimuler les découvertes de comptes, mettre en avant certaines thématiques en particulier, parler d’actualités, se lancer des défis, publier des images de memes, faire des rapports d’activité, détecter des activités potentiellement problématiques, et répondre à des questions en se faisant passer pour une intelligence artificielle.
Avant de se lancer dans l’aventure il faut faire en sorte de respecter certaines règles pour éviter de juste produire du spam ou de harceler des comptes. Certaines entreprises sont spécialisées dans ces activités de spam à des fins politiques ou de nuisances en tout genre, tel que Cambridge Analytica et les fermes de trolls. On peut donc créer des messages de bot très simples pour avoir un flux d’actu reflétant l’activité sur un jeu de données ouvertes, faire de la veille, enrichir ses connaissances et apporter de la vie et des échanges sur son média social. Mais chacune de ces tâches ne demande pas le même niveau de compétences techniques pour se faire. Dans votre boîte à outils vous aurez besoin de: – un carnet de notes pour savoir ce que vous voulez réaliser, et de faire en sorte que les publications que vous aller engendrer apportent quelque chose. – avoir un compte Mastodon qui serve uniquement à cela. L’instance botsin.space est ouverte à ce type d’utilisation et encourage à y faire des essais, mais aussi de la mise en production. – d’enregistrer votre application de bot auprès d’un compte Mastodon. – de bibliothèques pour aller gratter des données qui vous seront utiles, dans vos langages de programmation favoris. – de sources de données utiles. Sites web, textes, images, médias, documentation d’API. – de fabriquer des utilitaires codés maison pour faire marcher tout ça ensemble et détecter les problèmes lors des publications. – de documenter le tout pour maintenir vos scripts de bots. – de pas mal de temps pour faire des essais et erreurs. – de regarder quels services vous proposent de faire des publications qui pourraient vous intéresser sans avoir à coder vous même.
À propos de complexité: Simple, basique: – dire Bonjour, Monde! – publier quelque chose à heure fixe – faire un résumé des articles d’un flux rss
Modéré: – accueillir les nouveaux inscrits depuis 24h avec un message privé mentionnant leur pseudo. – publier une image au hasard prise dans un dossier et la déplacer dans un dossier d’images catégorisées comme publiées – publier les infos de journées mondiales lors de la dite journée mondiale – republier certains posts lors de l’apparition d’un post contenant certains termes Complexe: – faire un jeu dont on est le héros dont l’histoire avance selon un sondage publié auquel les autres gens participent. – simuler la publication de quelqu’un d’autre en apprenant comment cette personne s’exprime – réagir à une question en faisant une réponse pertinente – créer un bot sur mesure ayant ses propres cycles de publication – évaluer les penchants conspirationnistes d’un compte en fonction des analyses des comptes qu’il suit (analyse-ception) – analyser les toots publiés et détecter des messages problématiques pour en faire un rapport aux modérateurs du site – jouer et gagner à snake and ladders
Quelques exemples dans lesquels vous pouvez puiser de l’inspiration et copier les sources: – Ananas en Python : ananas · PyPI
Ce que j’ai réalisé comme scripts jusqu’ici:
– Republier un article de blog wordpress au hasard parmi une liste de tous les articles d’un blog, avec son titre et son résumé, avec la première image trouvée dans le corps de l’article. Beaucoup de publications passent à la trappe car elles sont captives d’un filtre sur les sites des GAFAM qui décident à votre place de qui sont les amis dignes de votre attention. Spoil: ceux qui permettent à la plateforme de maximiser ses gains. Rien de tout cela sur Mastodon qui est designé de sorte à ne pas capter entièrement votre attention. – Un meme au hasard dans un dossier de sélection, un certain nombre de fois par jour, et sans jamais republier la même image. – Publier une page présentant un tag du wiki openstreetmap en ne sélectionnant que son premier paragraphe, parmi les pages en français, et seulement si la page du wiki est en ligne, avec l’image attitrée du tag prise dans le wiki. – Publier les articles de l’AFIS sortis au cours des 7 derniers jours. – Publier les évènements dédiés à openstreetmap qui vont se produire dans les 7 prochains jours, à partir du flux RSS de l’agenda du libre, localisés uniquement en île de France.
Chacune de ces publications m’a permis de me constituer quelques utilitaires bien pratiques. *** Quelques limites Les choses trop datées, les informations débunkées, les liens publiés morts, les sources à gratter qui changent de structure, les scripts qui plantent sont autant de points d’attention à surveiller lors de la vie de vos scripts.
** Va chercher! Un accès à un compte par script permet de publier des choses, mais aussi de récupérer des informations de ces comptes, et notamment des messages privées et des notifications.
Ayant à gérer plusieurs comptes, je me suis heurté à l’ergonomie de Mastodon qui n’est pas faite pour la gestion de multi comptes. Ainsi, le seul moyen d’avoir une vue d’ensemble des interactions de différents comptes consistait à faire le tour avec différents logins, à utiliser une application mobile, ou un proxy en ligne en faisant confiance à je ne sais qui pour gérer mes accès. Et le logiciel Rambox qui semblait faire le café n’est pas si pratique. D’ailleurs je n’apprécie pas du tout qu’il demande maintenant d’avoir un compte pour l’utiliser, alors qu’il pouvait parfaitement s’en passer l’an dernier.
Je me suis donc lancé dans un petit projet de gestion multi compte qui permet d’interagir parmi plusieurs comptes dont j’aurai défini les accès en fichier de configuration. Actuellement je peux cliquer sur l’avatar de plusieurs comptes pour changer l’identité qui publiera le message, écrire le message et l’envoyer. J’ai aussi la possibilité d’avoir un rapport de tous les messages directs destinés à ces comptes, afin d’y répondre.
** Y’a pas que pour Mastodon Développer des choses pour faire des bots c’est bien beau, mais ça vous permet de réutiliser des données ailleurs et de contribuer au cycle de vie de la donnée ouverte. C’est un enjeu crucial pour la science reproductible, pour la cueillette et le jardinage dans OSM et ailleurs, mais c’est aussi super marrant. Have fun!
Si vous aimez ce que nous faisons à Cipher Bliss, vous pouvez nous soutenir de plusieurs façons: en faisant un micro don sur liberapay , ou en cryptomonnaies. Le plus simple nous pour nous faire connaître étant de partager cet article. Suivez moi sur Mastodon @tykayn@mastodon.cipherbliss.com. Ce site restera libre comme un gnou dans la nature et sans pubs, parce qu'on vous aime. Que la source soit avec vous!
Dans un souci de transparence, voici une liste de gens à qui j’effectue ponctuellement ou régulièrement des dons dans un budget annuel de près de 1500€, soit environ 120€ mensuels pour par exemple financer des briques critiques et valoriser le travail. Les montants varient selon ce que je peux me permettre de donner au fil des différentes catastrophes sanitaires et climatiques qui nous tombent sur la tronche, mais dans l’idée ce budget de dons est représentatif. Ça peut sembler beaucoup pour un individu, ou peu pour une entreprise, mais c’est important pour mener des actions concrètes a peu d’effort. (et j’aimerais bien donner d’avantage, surtout que l’on compare rarement les coûts de ne pas faire quelque chose, comparé au coût de les faire)
Voici donc une petite liste de gens à qui je donne ou ai donné des sous pour supporter leur apport au monde, qu’il soit éthique, scientifique, artistique ou autre. Pour beaucoup j’aurais aimé qu’ils aient leur site web personnel pour ne pas dépendre de boites sans aucune éthique dont le modèle d’entreprise consiste en la pratique destructrice du capitalisme de surveillance. Si vous souhaitez avoir une présence en ligne, faites en sorte d’avoir au maximum la main sur vos propres modes de communication et vos données, plutôt que de tout confier à un GAFAM, essayez les CHATONS.
https://www.franciliens.net Je n’inclus pas le montant de mon abonnement FAI d’une quarantaine d’euros mensuels dans le budget cité au début de l’article. Franciliens.net
Tout soutien financier est bienvenue pour faire marcher les 900€ de location annuels de machines (chez OVH et chez moi) et services qui permettent à notre petite entreprise Cipherbliss.com de mettre à disposition du grand public, nous avons un compte Liberapay que vous pouvez relayer pour nous aider https://liberapay.com/cipherbliss.
Un grand merci au donateurs et donatrices qui permettent d’accompagner la mise en place et le maintien de nos services éthiques cette année encore!
Sur notre instance Mastodon, pensez à vous présenter publiquement pour que tout le monde sache un peu plus qui vous êtes, et que vous êtes une vraie personne et non un robot. Pensez aussi à mettre un avatar sur votre profil!
Je vous encourage également à montrer au monde à qui vous faites des dons, pour faire connaître les enjeux derrière, et montrer aux autres que faire des dons est important, que c’est une façon concrète de contribuer parmi d’autres, même quand on a que cinq ans, et que la donation se pratique plus largement qu’on ne le croit, pas seulement avec des dons du sang.
Bienvenue a la maison sur cipherbliss, enjoy! Et une bonne année 2023 🙂
Si vous aimez ce que nous faisons à Cipher Bliss, vous pouvez nous soutenir de plusieurs façons: en faisant un micro don sur liberapay , ou en cryptomonnaies.
Le plus simple nous pour nous faire connaître étant de partager cet article.