Santander, desembre de 2019 — Entrevista realitzada a David Del Prado Secadas, tècnic de suport i xarxes de l’IHCantabria.

Pregunta: Des de quan utilitzeu a l’IHCantabria les noves eines de control de l’eficiència de la feina que HPCNow! va implementar?

Resposta: Nosaltres considerem que el monitoratge és vital en una infraestructura i hem apostat per ella en tots els nostres sistemes. Per això ens va semblar que els panells d’eficiència d’HPC que ens oferia HPCNow! eren perfectes per implementar en la nostra solució de monitorització. A més, aquesta solució té un valor afegit molt important, i és que és totalment personalitzable a les necessitats de cada infraestructura. Per això després d’unes reunions de necessitats i unes setmanes de treball es van aconseguir posar en producció i integrar-lo en el nostre sistema de monitorització des de maig del 2019.

Pregunta: Quins problemes heu pogut identificar gràcies a aquestes eines?

Resposta: El principal objectiu d’aquests panells és detectar jobs mal dimensionats per evitar la pèrdua de recursos computacionals. Amb aquests dashboards hem aconseguit cobrir aquest principal objectiu en poder detectar de manera ràpida l’ús incorrecte de recursos de CPU i RAM. Però, a més, gràcies a la informació que recollim en el procés de monitorització, també tenim capacitat per optimitzar la configuració del planificador (Slurm) detectar problemes d’emmagatzematge, relacionar accounting amb eficiència, o fer-nos un perfil del tipus de treball de cada un dels projectes i usuaris. Tota aquesta informació ens ajuda a ser més eficients estalviant en costos, recursos i temps.

Pregunta: Quin és l’impacte en els recursos computacionals en termes de temps d’espera, eficiència, treballs realitzats amb èxit, etc. que heu notat?

Resposta: Gràcies a la monitorització som capaços de detectar problemes i corregir-los amb informació objectiva. D’aquesta manera, hem aconseguit optimitzar l’ús dels recursos computacionals i usar els recursos prop del 100 % d’eficiència quan abans estàvem molt lluny d’aquest valor. Algunes altres tasques que fem és generar informes reflectint la diferència de costos i temps aplicant les configuracions recomanades un cop analitzats els panells d’eficiència. Amb això obtenim una millora molt important en els costos i temps d’execució dels projectes, aconseguint ser més eficients en l’ús dels recursos del clúster.

Pregunta: Creieu que aquesta eina us ajudarà en els propers processos d’aprovisionament?

Resposta: Com més informació tens de la teva infraestructura, millor serà la decisió presa a l’hora de realitzar un procés d’aprovisionament. Per tant, serà una peça clau a l’hora de poder iniciar qualsevol procés futur d’aprovisionament ja que ens dóna una visió real de la situació actual de la nostra infraestructura així com les necessitats que tenim a nivell de supercomputació.

Pregunta: Esteu exposant aquests dashboards als vostres usuaris? (maduresa de l’usuari, una millor comprensió de les necessitats reals, etc..)

Resposta: La manera d’oferir aquests dashboards als usuaris ha estat esglaonada. En recollir tanta informació, no volíem que es veiessin desbordats i finalment deixessin d’usar els panells per no entendre tot el que es veu en ells. Per això, en una primera fase ens vam reunir amb ells i els vam explicar tot el que l’eina era capaç d’oferir-los-hi, i posteriorment els vam anar oferint a poc a poc a cada un dels panells sempre amb l’ajuda dels administradors del clúster per explicar-los-hi qualsevol dubte que els pogués sorgir. També els vam crear informes personalitzats amb les dades exposades en els dashboards per facilitar la comprensió i les recomanacions en la configuració dels treballs.

Pregunta: Quins resultats (amb alguns exemples) heu aconseguit fins ara gràcies a aquestes noves eines?

Resposta: Principalment hem aconseguit ser més eficients en l’ús dels recursos del clúster. Quan vam implementar els dashboards d’eficiència, vam veure que la majoria dels jobs estaven molt lluny del 100 % d’eficiència. Teníem casos per sota del 50 %. Gràcies a aquests panells ara som capaços de detectar aquests casos ràpidament i corregir aquest problema aconseguint una eficiència el més propera possible al 100 %. També, en fer un ús eficient dels recursos de CPU i RAM, hem aconseguit allargar computacionalment la vida del nostre clúster al deixar de malgastar recursos. Com més eficients són els jobs, més capacitat disponible tenim al clúster i més oportunitat de computació tenim disponible per als usuaris.

Pregunta: Algun altre comentari rellevant?

Resposta: Un clúster de supercomputació HPC, pot ser un gran forat negre en relació al que passa per ell. Per això considerem que és molt important disposar d’una eina d’aquestes característiques de monitoratge. A més, és molt important el valor afegit de poder ajustar-la a les necessitats de cada entorn com és en aquest cas amb la solució que ens ha proporcionat HPCNow!. Ara mateix és una peça clau en el nostre funcionament diari i ens facilita molt totes les tasques d’administració i presa de decisions actuals i futures.

Moltíssimes gràcies per les teves respostes, David!

Oficines centrals

Parc Tecnològic
Marie Curie, 8 08042 Barcelona
+34 931640488
info@hpcnow.com
Veure localització


Oficina NZ

61 Kahawairahi Drive
Beachlands
2018 - Auckland (New Zealand)
+64 (0) 22 344 2801
info@hpcnow.com

Contacte

Posa’t en contacte amb nosaltres i t’ajudarem.


    Accepto els termes i les condicions