Show more

Bonsoir,

Nous allons mettre à jour l'application sur

Aucune coupure de prévue mais de légers ralentissements peuvent se produire.

La mise à jour est terminée, au tour de Riot Web de passer en 1.5.2.

Nous allons mettre à jour notre serveur vers 1.5.0. Préparez-vous à environ une minute d'interruption !

En raison d'une reconfiguration de notre pare-feu, nous allons subir une interruption d'environ une minute sur plusieurs de nos services. Seuls les services HTTP sont impactés, donc cela devrait être transparent.

Re-bonjour,

Nous venons de voir que nous avons un problème avec notre

Un ticket est ouvert à ce sujet, voir : forge.tedomum.net/tedomum/seaf

La mise à jour a été faite sans souci.

Cependant, on vient de constaté un petit avec theming, voir : forge.tedomum.net/tedomum/next

On est train de la corriger et il est possible que la correction ralentisse le tout :)

Bonjour à tous et toutes,

Comme les mésaventures d'hier nous ont pas suffit, on se lance dans la mise à jour du client mail de notre 😸

Aucune coupure n'est prévue mais il est possible qu'il y ait quelques ralentissements.

Avec la nuit de recul pour être sûrs qu'on est sorti du bois : tout est à nouveau opérationnel avec de performances acceptables.

Nous ne sommes pas morts, mais notre serveur Matrix est encore en train de se relever de la veille (c'est long et coûteux de nettoyer une base plus de 300G).

Désolé pour cette longue interruption.

Matrix est à nouveau en ligne, même si encore très lent pendant quelques heures le temps du nettoyage.

Tous les services sont à nouveau en production, à l'exception de Nextcloud et Matrix.

Nous devons terminer un nettoyage du serveur Matrix, et une analyse post-incident sur Nextcloud.

Concernant les données : aucune perte identifiée sur nos propres données.

Sur la fédération : Matrix a fini de resynchroniser, Mastodon est en cours mais on ne devrait pas perdre grand chose, mails continuent d'arriver et on ne devrait rien perdre.

Encore une fois : désolé tout plein.

Les actions restantes qui expliquent les lenteurs en cours :
- suppression du device de secours (et rebalance partiel associé) ;
- nettoyage d'un paquet de fichiers temporaires ;
- rebalance BTRFS complet, ça ne fera pas de mal.

Tout cela consomme beaucoup d'écriture disque et va ralentir un paquet de nos services ce matin.

Les actions effectuées :
- redémarrage de l'hôte ;
- montage d'un device supplémentaire pour pouvoir rebalance le BTRFS ;
- redémarrage des services dès que le BTRFS est en vie, à l'exception de Nextcloud.

En résumé : nous sommes en ligne, à l'exception de quelques services qui remontent encore, et de Nextcloud en attendant la résolution de la cause racine.

Origines probables du problème (combo) : notre Nextcloud qui consomme beaucoup de RAM et CPU, plusieurs autres services qui se vautrent et spamment de logs, le stockage de logs qui ne remplit pas le disque mais crée plein de fichiers, et remplit les metadata du BTRFS.

Ce n'est pas encore complètement établi, mais le scénario réel est probablement proche de cela. S'en suit un effet boule de neige, où faute de metadata pour créer des inodes, d'autres services se vautrent et loggent, etc...

Bonjour à tout le monde. D'abord un très gros *désolé* : nous venons de subir notre pire indisponibilité depuis un bout de temps.

Nous sommes revenus à 95%, avec encore quelques lenteurs le temps de rétablir les ressources au nominal. Ouvrez le thread pour plus d'informations.

Services impactés : Matrix, Mails, Mastodon, images, forge, Nextcloud, Seafile, TTRSS et Weblate.

Bonsoir,

Nous allons faire quelques mises à jour sur et il est donc possible que cela ralentisse quelque peu notre instance.

Aucune coupure n'est prévue et cela ne devrait pas durer :)

Show more
Mastodon

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!