Comparteix:

Fallada per altes temperatures al CPD del D6

12/06/2020

El passat dissabte dia 3 de novembre al voltant de les 9:30h, la temperatura del CPD del D6 ha començat a pujar vertiginosament, enregistrant-se valors superiors als 44 graus entre 11:45 i 12:00h. Pressumptament ha estat degut a una fallada de l'aire condicionat, però no hem rebut cap mena de notificació per part de Coordinació de Campus al respecte, i per tant no ho podem assegurar.

A partir d'aquell moment, la temperatura ha començat a recuperar-se ràpidament (pressumptament perquè ha estat solventada la incidència amb els equips de refrigeració), i a les 13h ja havia baixat més de 10 graus. Malgrat tot, no ha estat fins les 22h del mateix dissabte dia 3 que la temperatura del CPD s'ha normalitzat.

Malauradament, les elevades temperatures han malmès alguns equips, entre els quals destaca el sistema de disc centralitzat. Tot i tractar-se d'un sistema format per dos servidors en configuració redundada, tots dos servidors han acabat aturant-se per protecció enfront les altes temperatures (els seus sensors han enregistrat valors superiors als 50 graus).

El sistema de disc centralitzat dóna emmagatzematge a multitud de màquines virtuals, que són les encarregades d'oferir la pràctica totalitat dels serveis bàsics d'infraestructura i els aplicatius web. Al no estar disponible, tots els serveis que en depenen s'han vist compromesos. Destaquem-ne els següents:

  • serveis d'accés bàsic a la xarxa: autenticació d'equips a les rosetes dels despatxos, DHCP i DNS
  • accés al disc d'usuari des de Unix i SMB
  • gestió de cues al cluster
  • servei de màquines virtuals d'usuari
  • web institucional i intranet, i tots els aplicatius associats: Usuari Únic, gestió de reserves, etc.
  • pàgines web de docència i recerca

En canvi, aquests serveis no s'han vist afectats i han estat disponibles en tot moment:

  • correu electrònic (enviament, recepció i llistes de distribució)
  • accés wifi a la xarxa

Aquesta ha estat, a grans trets, la cronologia de la posada en marxa dels serveis afectats:

  • 9:45h: Reestabliment de les alarmes de temperatura i de fallada de les fonts d'alimentació d'ambdós servidors del disc centralitzat.
    Posada en marxa dels servidors.
    Reestabliment de l'accés als directoris d'usuari des de Unix i SMB

  • 11:15h: Reestabliment del servei de DHCP (la base de dades d'assignació dinàmica d'IPs havia quedat corrupta).
    Reestabliment parcial del servei de DNS.
    Reestabliment de la gestió de cues al cluster.
    Reestabliment del servei web públic.

  • 12:10h: Reestabliment del servei de DNS dinàmic (els mapes dinàmics també havien quedat corruptes).

  • 12:45h: Reestabliment de la intranet institucional.

  • 14:45h: Fallada de reconnexió dels servidors de màquines virtuals d'usuari. El servei queda inaccessible, tot i que algunes màquines virtuals continuen responent, però és impossible accedir a les seves consoles.

  • 15:45h: Reestabliment del servei de màquines virtuals d'usuari. La majoria de màquines virtuals que estaven engegades han tornat a ser iniciades. Tots aquells que administreu alguna d'aquestes màquines, sisplau verifiqueu que funcionen amb normalitat.
Keywords
blog