Gentoo OVH R2 : MySQL crash régulièrement

Il y a quelque jours j’ai dû dépanner un serveur tournant sous la distribution Gentoo OVH R2. La cause ? Le daemon MySQLd s’arrêtait (crash) régulièrement après quelques minutes aléatoires et avec pour seul message d’erreur dans les logs :

130327 13:09:32 - mysqld got signal 11;
 This could be because you hit a bug. It is also possible that this binary
 or one of the libraries it was linked against is corrupt, improperly built,
 or misconfigured. This error can also be caused by malfunctioning hardware.
 We will try our best to scrape up some info that will hopefully help diagnose
 the problem, but since we have already crashed, something is definitely wrong
 and this may fail.

thd=0xc23dd0
 Attempting backtrace. You can use the following information to find out
 where mysqld died. If you see no messages after this, something went
 terribly wrong...
 Cannot determine thread, fp=0x41639068, backtrace may not be correct.
 Stack range sanity check OK, backtrace follows:
 0x6c2d34342e302e35
 New value of fp=0xc23dd0 failed sanity check, terminating stack trace!
 Please read http://dev.mysql.com/doc/mysql/en/using-stack-trace.html and follow instructions on how to resolve the stack trace. Resolved
 stack trace is much more helpful in diagnosing the problem, so please do
 resolve it
 Trying to get some variables.
 Some pointers may be invalid and cause the dump to abort...
 thd->query at 0xc55340 = INSERT IGNORE INTO `test`.php_index_dico (hash, dico) VALUES (0xd27edbd18c3bdf9c,'sites'),(0xbfe956f1134be5a8,'cat1'),(0x15a48c9b90862a4f,'cat2'),(0x47a282dfe68a42d3,'cat3'),(0x8275a1889c0a4b12,'cat4'),...,etc.
 thd->thread_id=138
 The manual page at http://www.mysql.com/doc/en/Crashing.html contains
 information that should help you find out what is causing the crash.

J’ai passé mal de temps à chercher ce qui pouvait provoquer ce phénomène dont voici une petite liste exhaustive des causes possibles à retenir :

  • Une partition occupée à 100%.
  • Un bug de MySQL ou d’une lib associé.
  • Le Kernel GRSEC OVH. (netboot)
  • L’utilisation d’InnoDB qui est fortement déconseillé sous Gentoo OVH.
  • Un problème hardware. (cf. mysqld got signal 11)
  • Un bordel invisible dans la BDD…

Dans mon cas il s’agissait bien « D’un bordel invisible dans la BDD. »

Pour une raison que j’ignore ma BDD « test » provoquait le crash de MySQL. J’ai bien essayé via PhpMyAdmin de réparer, optimiser, analyser, etc la BDD « test » en vain, puisque celui-ci m’affichait que tout était « OK ».

Pour résoudre le problème : j’ai donc exporté la BDD, supprimé (avec l’utilisateur associé), re-crée la BDD, re-importé les données.

Depuis, ça re-marche au poil.

Glances : Le monitoring en temps réel

screenshot-wide

Ça fait maintenant pas mal d’années que j’administre des serveurs dédiés et si il y a bien une chose dont je ne peux me passer, c’est l’utilisation d’outils de monitoring. J’aime savoir ce qu’il s’est passé, ce qu’il s’y passe et anticiper un maximum ce qu’il se passera sur la machine.

Mes outils habituels

Généralement pour surveiller l’état de mes machines j’utilise :

- Un bon Munin pour des statistiques graphiques +/- détaillées. L’avantage de cet outil est que l’on a 1 serveur maître qui récupère les informations des serveurs esclaves.

- Logwatch qui m’envoie un résumé chaque jours des évènements passés la veille.

- HTOP/Iftop & co… qui m’informent en temps réel sur l’état de la machine.

Glances

Il s’agit d’un petit script en python qui recense toutes les informations « utiles » à la manière d’un htop/iftop & co (temps réel, couleurs…) mais en bien plus complet. (cf. capture).

Le projet est régulièrement mis à jour et l’auteur du projet est à l’écoute des remarques, suggestions et problèmes des utilisateurs. Alors pourquoi s’en priver ? :-)

Liens

Site du projet Glances (Github) : http://nicolargo.github.com/glances/
Blog de l’auteur : http://blog.nicolargo.com

Apache2 & mod_fcgid 2.3.6 : Connection reset by peer

Je remarque ces lignes dans les logs, qui surviennent à des moments complètement aléatoires.

[Mon Oct 31 20:09:24 2011] [warn] [client 1.1.1.1] (104)Connection reset by peer: mod_fcgid: error reading data from FastCGI server, referer: http://domaine.tld/

[Mon Oct 31 20:09:24 2011] [warn] [client 1.1.1.1] (104)Connection reset by peer: mod_fcgid: ap_pass_brigade failed in handle_request_ipc function, referer: http://domaine.tld/

En réalité, ces erreurs apparaissent dans les logs Apache d’un blog WordPress (v3.2.1) utilisant le plugin Download Monitor. Ce plugin me sert à superviser et gérer des fichiers en téléchargement direct. Malheureusement pour certaines personnes, le téléchargement timeout au bout de X minutes. A noter que mis à part ce problème, tous les sites hébergés sur le serveur fonctionnent à merveille.

J’ai donc tenté de modifier des paramètres dans le vhost concerné, notamment le timeout, désactivé l’opcache, firewall applicatif (modsecurity) etc… mais en vain ! Le problème viendrait donc de la configuration de mod_fcgid :

/etc/apache2/mods-enabled/fcgid.conf a écrit :

<IfModule mod_fcgid.c>
AddHandler    fcgid-script .fcgi
FcgidConnectTimeout 20
</IfModule>

Après une longue recherche sur le oueb, j’ai trouvé une solution qui consiste à augmenter les valeurs par défaut afin que le script php puisse correctement terminer de s’éxecuter. (cad, jusqu’à la fin du téléchargement.)

Voilà donc un exemple de configuration à adapter et qui a résolu mon problème. A ajouter dans le(s) vhost concerné(s) ou directement dans le fichier configuration du module fcgid pour être pris en compte par l’ensemble des vhost.

Chaque directive est expliquée dans la documentation officielle.

/etc/apache2/site-enabled/domaine.tld.vhost a écrit :

<IfModule mod_fcgid.c>
AddHandler    fcgid-script .fcgi
FcgidConnectTimeout 20
IdleScanInterval 300
BusyScanInterval 300
ZombieScanInterval 60
IdleTimeout 10800
ProcessLifeTime 10800
BusyTimeout 10800
</IfModule>

Liens

http://www.moe.co.uk/2010/04/12/mod_fcg … t-headers/
http://profiles.ysn.com/supportforum/vi … t=15#p1300