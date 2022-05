Btrfs (prononcez « Butter FS ») est l'un des systèmes de fichiers les plus avancés disponibles aujourd'hui sous Linux. Il est moderne, repose sur des principes qui le rendent extrêmement fiable et propose de nombreuses fonctionnalités très intéressantes. Il est même utilisé par défaut par plusieurs distributions Linux.

Malgré cela, il se traîne une mauvaise réputation qui freine son adoption. Mais cette réputation est-elle vraiment justifiée ? C'est la question à laquelle on va essayer de répondre aujourd'hui !

Comment fait Btrfs pour déterminer ce qui doit être compressé et ce qui ne doit pas l'être ? Eh bien il commence par faire une évaluation statistique (basée sur l'entropie de Shannon ) sur une portion du fichier, et s'il détermine que la compression ne sera pas efficace, il désactivera la compression pour ce fichier. Et si jamais la compression s'avère inefficace malgré l'évaluation statistique, il désactivera également la compression sur le fichier après coup.

Un point intéressant à noter : Btrfs est capable de détecter tout seul s'il est utile ou non de compresser un fichier donné. Par exemple si on écrit une vidéo sur le disque, la compresser n'aura aucun effet puisque celle-ci est déjà compressée avec des algorithmes bien plus adaptés. Btrfs ne perdra donc pas son temps à essayer de la recompresser.

Il faut en effet savoir que Btrfs conserve une somme de contrôle pour chaque bloc de données. À chaque fois que l'on va lire des données depuis le disque, Btrfs va utiliser ces sommes de contrôle pour s'assurer que ce qu'il est en train de lire n'est pas corrompu. Et lorsque c'est le cas, et que l'on est dans une configuration RAID apportant de la redondance (Btrfs RAID 1 par exemple), il sera capable d'aller récupérer la donnée sur un autre disque où elle est saine et automatiquement corriger la donnée corrompue. Et tout ça se fait de manière totalement transparente.

Une dernière fonctionnalité intéressante avec les sous-volumes et les instantanés : il est possible de les envoyer sur un autre système de fichiers Btrfs. Et il est même possible de le faire de manière incrémentale lors de plusieurs envois successifs. Cela peut être utilisé pour répliquer / synchroniser rapidement des données entre deux machines ou pour implémenter un système de sauvegarde.

Et cela permet de tout simplement utiliser les outils classiques dessus. Par exemple on peut supprimer une snapshot avec la commande rm ou la restaurer en la déplaçant avec mv :

Un point que je trouve intéressant avec la manière don Btrfs implémente les sous-volumes et les instantanés, c'est qu'ils sont exposés comme de simples dossiers. On les voit littéralement comme des dossiers dans son navigateur de fichiers.

Mais que se passe-t-il lorsque l'on modifie un fichier dans le volume ayant servi à produire une snapshot ? Et bien grâce au mécanisme de copie sur écriture évoqué précédemment, le contenu de la snapshot n'est pas altéré, et seules les données modifiées consomment de l'espace disque supplémentaire.

Par exemple, lorsque l'on installe un système GNU/Linux, on sépare souvent le système ( / ) et les données ( /home ) dans deux partitions différentes. Eh bah là on peut faire la même chose, sauf que les sous-volumes partagent l'espace de la même partition. On évite ainsi de perdre de l'espace en créant une partition système trop grosse, ou au contraire de se retrouver embêté après avoir rempli une partition système trop petite avec des containers Docker (oui, ça sent le vécu). 🙃️

Btrfs est capable de gérer des sous-volumes . Il s'agit d'un découpage logique permettant de séparer différentes parties du système de fichiers au sein d'une même partition. On peut se les représenter comme des partitions en plus souples. Ce qui s'en rapproche le plus dans la stack linuxienne « traditionnelle », c'est LVM .

Enfin, en copiant simplement les métadonnées indiquant comment sont stockés les fichiers, on peut obtenir une « image » du disque dans un état donné, qu'il sera possible de restaurer par la suite.

Ensuite, cela ouvre la voie à de la déduplication : si plusieurs fichiers sont identiques ou contiennent des parties identiques, il est possible de stocker ces données identiques au même endroit sans craindre qu'elles ne soient modifiées. On économise ainsi de l'espace disque.

La copie sur écriture offre plusieurs avantages à Btrfs. Du point de vue de l'intégrité des données tout d'abord : si une coupure brutale du système a lieu pendant la modification d'un fichier, on se retrouvera soit avec l'ancienne version du fichier, soit avec la nouvelle, mais on aura en aucun cas un fichier corrompu par une écriture non terminée.

La principale caractéristique de Btrfs est de faire du copy-on-write (ou copie sur écriture en français), plus souvent abrégée en CoW. C'est sur cette caractéristique que reposent une grande partie des fonctionnalités du système de fichiers, on va donc prendre le temps de la détailler un peu.

À l'instar de nombreux autres systèmes de fichiers, comme Ext4, XFS, ou NTFS, Btrfs effectue son allocation par extent . Il s'agit pour le système de fichiers d'allouer un extent, c'est-à-dire une zone composée de plusieurs blocs de données contiguës, pour y stocker un fichier plutôt que d'allouer les blocs individuellement au fur et à mesure. Cela permet de limiter la fragmentation et de réduire la quantité de métadonnées nécessaires au stockage des fichiers, au prix d'une occupation d'espace disque un peu plus élevée.

Btrfs est la contraction de B-TRee File System (ou « système de fichiers en arbre B » en français). Ce B-Tree est la structure de données qui sert de colonne vertébrale à Btrfs et lui garantit, en théorie, de bonnes performances lors de l'accès et de l'insertion de données (pour ceux à qui ça parle, un arbre-B a une complexité logarithmique).

Cependant pour une utilisation quotidienne, l'impact est négligeable et on ne le remarque même pas.

Il est souvent reproché à Btrfs d'être moins performant que Ext4. Si on fait un benchmark de Btrfs vs Ext4 , on peut constater qu'il est plus lent que Ext4 dans certaines situations, plus rapide dans d'autres, ça varie beaucoup d'un test à l'autre. Ces différences de performance s'expliquent en partie par l'utilisation du mécanisme de copie sur écriture, et par le fait qu'il vérifie l'intégrité des données lues (checksum).

Ensuite, et c'est le point le plus important, leur seul ingénieur qui avait une expertise sur Btrfs, puisque participant à son développement upstream, est parti chez Facebook. Et comme personne n'a repris le flambeau en interne, ne plus proposer Btrfs dans RHEL était probablement la meilleur chose à faire pour Red Hat.

En 2017 Red Hat a annoncé qu'il ne supporterait plus Btrfs. Beaucoup y ont vu un signe annonciateur de la mort de Btrfs. Si Red Hat abandonne ce système de fichiers, c'est surement qu'il doit être inutilisable non ? La réalité est bien différente.

En résumé : Btrfs était peu fiable par le passé et a très probablement été intégré trop tôt dans Linux. Mais en dehors des RAID 5 et 6, ce n'est aujourd'hui plus le cas.

Il n'est donc pas rare de croiser sur les zinterwebs des témoignages sur le manque de fiabilité de Btrfs. Mais Btrfs est un système de fichiers activement développé, et ces problèmes de fiabilité font partie du passé. Il convient donc d'être critique avec ces témoignages. Il faut bien faire attention à la date à laquelle ils ont été postés et si leurs auteurs font référence à la fois où ils ont testé Btrfs il y a 10 ans ou s'ils l'ont utilisé plus récemment.

Btrfs 1.0 a été intégré en 2009 dans Linux 2.6.29 alors qu'il n'était pas terminé. On se retrouvait d'ailleurs avec un message d'avertissement indiquant qu'il était « hautement expérimental » dès que l'on essayait de l'utiliser. Ce message a persisté pendant 4 ans. À cette époque, Btrfs était donc instable et beaucoup de ceux qui s'y sont frottés y ont perdu des données.

Le principal concurrent à Btrfs est ZFS . Il offre les mêmes fonctionnalités que Btrfs et plus encore, il est extrêmement stable et bien éprouvé. Son principal défaut est de ne pas être intégré au noyau Linux pour une bête histoire de licence.

Dans un article comme celui-ci, il me parait important d'évoquer rapidement les autres systèmes de fichiers de nouvelle génération. Mais on aura vite fait le tour puisqu'ils sont très peu nombreux !

Mon avis sur Btrfs

Je pense que Btrfs est un excellent système de fichiers pour une utilisation sur une machine de travail. Il me semble parfaitement fiable pour un usage courant, et il est d'ailleurs utilisé par défaut sur openSUSE depuis 2014 et par Fedora depuis 2020. Il est également déployé à large échelle chez Facebook et dans les NAS Synology et Netgear, ce qui me semble être un gage de maturité technique.

J'apprécie tout particulièrement son système de sous-volume et de snapshot. Ils sont très simples à utiliser et permettent de se sortir d'un mauvais pas lorsque l'on bidouille son système ou lorsqu'une mise à jour tourne mal. Il existe d'ailleurs des outils graphiques comme Timeshift qui rendent cette fonctionnalité facilement accessible à tout le monde.

Je ne suis par contre pas très fan de la manière dont il implémente les RAID. Pour monter de gros stockages de données sur des serveurs je lui préfère ZFS que je trouve plus souple et dont le fonctionnement me convient mieux.