Guía rápida para someter "jobs" en el Cluster Xiuhcóatl
RESUMEN: La guía está orientada para aquellos nuevos usuarios “sin experiencia” donde se muestran los comandos necesarios para someter jobs, revisar su estado y eliminar un job en caso de ser necesario, en el cluster Xiuhcóatl o infraestructuras similares, que utilizan SLURM para el control de los jobs,
PRE-REQUISITOS:
Para someter jobs en el cluster Xiuhcóatl se entiende que:
-
Ya se sometió y fue aprobado un proyecto en el cluster Xiuhcóatl en la convocatoria actual.
-
Se cuenta con los datos de acceso que fueron enviados por el responsable del Área de Supercómputo.
-
Ya se está conectado en el nodo de login asignado.
-
Cuenta con una aplicación existente, en caso de que no exista debe solicitarse la instalación.
PASO1:
Una vez cumplidos los pre-requisitos vamos a ocupar un “nombre-script.slrm” que contiene las tareas/comandos a ejecutar en el cluster, si el usuario cuenta con este archivo puede pasar al PASO2, pero si el usuario no se cuenta con este “nombre-script.slrm” debe solicitar el apoyo para su creación:
Solicitando se genere el script correspondiente para la aplicación a utilizar, mandando los detalles por correo electrónico a holiver@cinvestav.mx
Posteriormente el responsable del Área de Supercomputo de la CGSTIC se pondrá en contacto con el usuario para saber cuál es la aplicación que requiere ejecutar en el cluster, generar el script y lo pondrá a disposición del usuario para la prueba de funcionamiento, una vez superada la prueba de funcionamiento se hará una prueba de escalamiento en caso de ser paralelo el aplicativo, con lo cual se definirá el número máximo de nodos de cómputo a utilizar en el cluster para el aprovechamiento adecuado de los recursos del cluster, así como la cola/partición de ejecución.
PASO2:
El usuario una vez que tenga el script “nombre-script.slrm“ de su aplicación, ejecutará el siguiente comando para someter el job ene l cluster:
sbatch nombre-script.slrm
Si todos los pasos anteriores fueron exitosos, este comando le regresara un “#JOBID” (EL ID del job).
Para revisar el estado del job una vez sometido debe ejecutar:
PASO3:
squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
2299 amd TEST nombreusuario R 25-22:45:48 1 node262
Le pedimos a los usuarios revisen los archivos de salida para verificar que el programa en cuestión se está ejecutando de manera correcta.
Para borrar un job
En caso de que el usuario detecte un error o por alguna otra situación desee cancelar el job deberá ejecutar lo siguiente (tomando en cuenta que el job sometido en el paso anterior es el que se requiere cancelar):
scancel 2299
937