CentOS7 – Gestion du Raid Linux

Supervision du Raid

La supervision des volumes Raid est gérée par mdadm et nécessite la présence du fichier de configuration /etc/mdadm.conf. Si ce fichier est absent, il est possible de le générer après la création des volumes Raid de la façon suivante:

mdadm --verbose --detail --scan > /etc/mdadm.conf

le fichier devrait ressembler à ceci:

ARRAY /dev/md/localhost.localdomain:0 level=raid5 num-devices=3 metadata=1.2 name=localhost.localdomain:0 UUID=d74aa481:760d8a60:0ada2cc8:51a1f439
   devices=/dev/sda1,/dev/sdb1,/dev/sdc1

Afin de configurer les alertes mails, ajouter les informations suivantes à la fin du fichier:

MAILFROM raid@coradi.fr
MAILADDR leseb@coradi.fr

Démarrer ensuite le service de supervision du Raid:

systemctl start mdmonitor.service

Pour activer le service au démarrage du serveur, lancer la commande:

systemctl enable mdmonitor.service

Pour vérifier que le service est bien démarré, lancer la commande suivante et observer le retour de la commande:

systemctl status mdmonitor.service -l

raidgest1

Gestion de l’erreur mismatch_cnt is not 0 on /dev/md0

Si vous recevez les messages cron, ou que vous relevez la boite root, vous avez pouvez avoir des messages du type:
/etc/cron.weekly/99-raid-check:
WARNING: mismatch_cnt is not 0 on /dev/md0

Ce message indique une désynchronisation des données sur les disques du volume Raid md0 (le chiffre peut varier en fonction de la configuration et/ou du nombre de volumes Raid). Cela peut être dû à une erreur logiciel (facilement réparable) ou matériel (là, c’est la merde!).

Commencez par vérifier l’état du Raid en exécutant:

cat /proc/mdstat

Vérifier que le compteur de désynchronisation des données est toujours différent de 0:

cat /sys/block/md0/md/mismatch_cnt

Voici comment remettre les compteurs à 0.

Pour réparer le volume, lancer:

echo repair >/sys/block/md0/md/sync_action

Vous pouvez suivre l’évolution de l’action avec la commande:

watch cat /proc/mdstat

Une fois la réparation terminée, lancer une vérification du volume:

echo check >/sys/block/md0/md/sync_action

Une fois la réparation terminée, le compteur doit être de nouveau à 0:

cat /sys/block/md0/md/mismatch_cnt