Comparteix:

Manteniment del disc dels clusters

12/06/2020

El proper dilluns dia 10 de setembre a les 11h durem a terme una actuació sobre el disc dels clusters per a resoldre una incidència amb alguns dels discs SSD de cache dels servidors.

L'horari de l'actuació es deu a que será conduida per enginyers d'Oracle que realment són al Regne Unit. El temps estimat és de 15 minuts, però pot allargar-se a 1h.

L'actuació precisa de la desconnexió completa del disc dels clusters. No aturarem els nodes del clusters arvei i boada. Si els enginyers d'Oracle aconsegueixen solucionar el problema en un curt periode de temps, és possible que tots els treballs en execució es recuperin. En el pitjor dels casos, aquests treballs es perdran i caldrà que els torneu a llencar. Tots els treballs encuats que encara no hagin començat a executar-se romandran a la cua, i seran executats quan es reestableixi el disc.

Addicionalment, com ja haureu vist, estem patint problemes de rendiment també amb aquest disc. Els enginyers d'Oracle estan recopilant dades sobre aquesta altra incidència, i de moment estem realitzant importants avenços, però encara no tenim una solució definitiva al problema. Us en mantindrem puntualment informats.

 

Actualització 7 setembre, 13:55h: L'actuació es durà a terme finalment a partir de les 12h per requeriments d'ús del cluster docent boada.

 

Actualitzacions 10 setembre durant l'actuació:

  • 12:00h: Iniciem el procediment: aturem un dels servidors de disc, de moment no hi haurà desconnexió del disc NFS.
  • 12:05h: Reiniciem el segon dels servidors de disc; ara sí que hi haurà desconnexió.
  • 12:10h: Comencem la re-importació dels pools d'emmagatzematge; ha estat necessari eliminar-los provisionalment per a reassignar els discs SSD de cache de lectura que no eren usables.
  • 12:19h: Finalitza la importació dels pools d'emmagatzematge; el servei NFS queda reestablert.
  • 12:25h: Assignem els nous discs SSD de cache als pools d'emmagatzematge.
  • 12:38h: Restaurem pools al servidor natiu; ambdós servidors estan en funcionament, el servei funciona amb normalitat.
Keywords
blog