Bonjour à tout le monde. D'abord un très gros *désolé* : nous venons de subir notre pire indisponibilité depuis un bout de temps.

Nous sommes revenus à 95%, avec encore quelques lenteurs le temps de rétablir les ressources au nominal. Ouvrez le thread pour plus d'informations.

Services impactés : Matrix, Mails, Mastodon, images, forge, Nextcloud, Seafile, TTRSS et Weblate.

Origines probables du problème (combo) : notre Nextcloud qui consomme beaucoup de RAM et CPU, plusieurs autres services qui se vautrent et spamment de logs, le stockage de logs qui ne remplit pas le disque mais crée plein de fichiers, et remplit les metadata du BTRFS.

Ce n'est pas encore complètement établi, mais le scénario réel est probablement proche de cela. S'en suit un effet boule de neige, où faute de metadata pour créer des inodes, d'autres services se vautrent et loggent, etc...

Les actions effectuées :
- redémarrage de l'hôte ;
- montage d'un device supplémentaire pour pouvoir rebalance le BTRFS ;
- redémarrage des services dès que le BTRFS est en vie, à l'exception de Nextcloud.

En résumé : nous sommes en ligne, à l'exception de quelques services qui remontent encore, et de Nextcloud en attendant la résolution de la cause racine.

Les actions restantes qui expliquent les lenteurs en cours :
- suppression du device de secours (et rebalance partiel associé) ;
- nettoyage d'un paquet de fichiers temporaires ;
- rebalance BTRFS complet, ça ne fera pas de mal.

Tout cela consomme beaucoup d'écriture disque et va ralentir un paquet de nos services ce matin.

Concernant les données : aucune perte identifiée sur nos propres données.

Sur la fédération : Matrix a fini de resynchroniser, Mastodon est en cours mais on ne devrait pas perdre grand chose, mails continuent d'arriver et on ne devrait rien perdre.

Encore une fois : désolé tout plein.

Follow

Tous les services sont à nouveau en production, à l'exception de Nextcloud et Matrix.

Nous devons terminer un nettoyage du serveur Matrix, et une analyse post-incident sur Nextcloud.

Matrix est à nouveau en ligne, même si encore très lent pendant quelques heures le temps du nettoyage.

Avec la nuit de recul pour être sûrs qu'on est sorti du bois : tout est à nouveau opérationnel avec de performances acceptables.

@tedomum Ca semble être de retour mais c'est très lent. Je pense que c'est lié au rattrapge de la mise à jour des flux ?

@angedestenebres Relancé, il met du temps à se lancer mais ça vient :)

Sign in to participate in the conversation
Mastodon

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!