Santander, diciembre de 2019 — Entrevista realizada a David Del Prado Secadas, técnico de soporte y redes en IHCantabria.

Pregunta: ¿Desde cuándo utilizáis en IHCantabria las nuevas herramientas de control de la eficiencia del trabajo que HPCNow! implementó?

Respuesta: Nosotros consideremos que la monitorización es vital en una infraestructura  y hemos apostado por ella en todos nuestros sistemas. Por eso nos pareció que los paneles de eficiencia de HPC que nos ofrecía HPCNow! eran perfectos para implementar en nuestra solución de monitorización. Además, esta solución tiene un valor añadido muy importante,  y es que es totalmente personalizable a las necesidades de cada infraestructura. Por eso después de unas reuniones de necesidades y unas semanas de trabajo se consiguieron poner en producción e integrarlo en nuestro sistema de monitorización desde mayo del 2019.

Pregunta: ¿Qué problemas habéis podido identificar gracias a estas herramientas?

Respuesta: El principal objetivo de estos paneles es detectar jobs mal dimensionados para evitar la pérdida de recursos computacionales. Con estos dashboards hemos conseguido cubrir este principal objetivo al poder detectar de manera rápida el uso incorrecto de recursos de CPU y RAM.  Pero, además, gracias a la información que recogemos en el proceso de monitorización, también tenemos capacidad para optimizar la configuración del planificador (slurm) detectar problemas de almacenamiento, relacionar accounting con eficiencia, o hacernos un perfil del tipo de trabajo de cada uno de los proyectos y usuarios. Toda esta información nos ayuda a ser más eficientes ahorrando en costes, recursos y tiempo.

Pregunta: ¿Cuál es el impacto en los recursos computacionales en términos de tiempo de espera, eficiencia, trabajos realizados con éxito, etc. que habéis notado?

Respuesta: Gracias a la monitorización somos capaces de detectar problemas y corregirlos con información objetiva. De esta manera, hemos conseguido optimizar el uso de los recursos computacionales y usar los recursos cerca del 100 % de eficiencia cuando antes estábamos muy lejos de este valor de eficiencia. Algunas otras tareas que hacemos es generar informes reflejando la diferencia de costes y tiempo aplicando las configuraciones recomendadas una vez analizados los paneles de eficiencia. Con ello obtenemos una mejora muy importante en los costes y tiempo de ejecución de los proyectos consiguiendo ser más eficientes en el uso de los recursos del clúster.

Pregunta: ¿Creéis que esta herramienta os ayudará en los próximos procesos de aprovisionamiento?

Respuesta: Cuanta más información tienes de tu infraestructura, mejor será la decisión tomada a la hora de realizar un proceso de aprovisionamiento. Por lo tanto, va a ser una pieza clave a la hora de poder iniciar cualquier proceso futuro de aprovisionamiento ya que nos da una visión real de la situación actual de nuestra infraestructura así como las necesidades que tenemos a nivel de supercomputación.

Pregunta: ¿Estáis exponiendo estos dashboards a vuestros usuarios? (madurez del usuario, una mejor comprensión de las necesidades reales,etc.)

Respuesta: La manera de ofrecer estos dashboards a los usuarios ha sido escalonada. Al recoger tanta información, no queríamos que se vieran desbordados y finalmente dejaran de usar los paneles por no entender todo lo que se ve. Por eso, en una primera fase nos reunimos con ellos y les explicamos todo lo que la herramienta era capaz de ofrecerles, y posteriormente les fuimos ofreciendo poco a poco a cada uno de los paneles siempre con la ayuda de los administradores del clúster para explicarles cualquier duda que les pudiera surgir. También les creamos informes personalizados con los datos expuestos en los dashboards para facilitar la compresión y recomendaciones en la configuración de los trabajos.

Pregunta: ¿Qué resultados (con algunos ejemplos) habéis logrado hasta ahora gracias a estas nuevas herramientas?

Respuesta: Principalmente hemos conseguido ser más eficientes en el uso de los recursos del clúster. En cuanto implementamos los dashboards de eficiencia, vimos que la mayoría de los jobs estaban muy lejos del 100 % de eficiencia. Teníamos casos por debajo del 50 %. Gracias a estos paneles ahora somos capaces de detectar estos casos rápidamente y corregir este problema consiguiendo una eficiencia lo más cercana posible al 100 %. También al hacer un uso eficiente de los recursos de CPU y RAM, hemos conseguido alargar computacionalmente la vida de nuestro clúster al dejar de desperdiciar recursos. Cuanto más eficientes son los jobs, más capacidad disponible tenemos en el clúster y más oportunidad de computación tenemos disponible para los usuarios.    

Pregunta: ¿Algún otro comentario relevante?

Respuesta: Un clúster de supercomputación HPC, puede ser un gran agujero negro en relación a lo que pasa por él. Por eso consideramos que es muy importante disponer de una herramienta de estas características de monitorización. Además, es muy importante el valor añadido de poder ajustarla a las necesidades de cada entorno como es en este caso con la solución que nos ha proporcionado HPCNow!. Ahora mismo es una pieza clave en nuestro funcionamiento diario y nos facilita mucho todas las tareas de administración y toma de decisiones actuales y futuras.

¡Muchísimas gracias por tus respuestas, David! 

Oficinas centrales

Parc Tecnològic
Marie Curie, 8 08042 Barcelona
+34 931640488
info@hpcnow.com
Ver localización


Oficina NZ

61 Kahawairahi Drive
Beachlands
2018 - Auckland (New Zealand)
+64 (0) 22 344 2801
info@hpcnow.com

Contacto

Ponte en contacto con nosotros y te ayudaremos.


    Acepto los términos y condiciones