Guía rápida para someter "jobs" en el Cluster Xiuhcoatl
RESUMEN: La guía está orientada para aquellos nuevos usuarios “sin experiencia” donde se muestran los comandos necesarios para someter jobs, revisar su estado y eliminar un job en caso de ser necesario, en el cluster o infraestructuras similares, que utilizan Torque PBS y MAUI para el control de los jobs,
PRE-REQUISITOS:
Para someter jobs en el cluster Xiuhcoatl se entiende que:
-
Ya se sometió y fue aprobado un proyecto en el cluster Xiuhcoatl en la convocatoria actual.
-
Se cuenta con los datos de acceso que fueron enviados por el responsable del Área de Supercpomputo.
-
Ya se está conectado en el nodo de login asignado.
-
Una aplicación existente, en caso de que no exista debe solicitarse la instalación.
PASO1:
Una vez cumplidos los pre-requisitos vamos a ocupar un script.pbs que contiene las tareas/comandos a ejecutar en el cluster, si el usuario cuenta con este archivo puede pasar al PASO2, pero si el usuario no se cuenta con este “script.pbs” debe solicitar el apoyo mediante el sistema SAS para su creación:
https://tic.cinvestav.mx/Sistemas/SAS
Solicitando se genere el script correspondiente para la aplicación a utilizar, mandando los detalles por correo electrónico a holiver@cinvetsav.mx
Posteriormente el responsable del Área de Supercomputo de la CGSTIC se pondrá en contacto con el usuario para saber cuál es la aplicación que requiere ejecutar en el cluster, generar el script y lo pondrá a disposición del usuario para la prueba de funcionamiento, una vez superada la prueba de funcionamiento se hará una prueba de escalamiento en caso de ser paralelo el aplicativo, con lo cual se definirá el número máximo de nodos de cómputo a utilizar en el cluster para el aprovechamiento adecuado de los recursos del cluster, así como la cola de ejecución.
PASO2:
El usuario una vez que tenga el script “archivo.pbs“ de su aplicación, ejecutará el siguiente comando para someter el job ene l cluster:
qsub archivo.pbs
Si todos los pasos anteriores fueron exitosos, este comando le regresara un “PBS_JOBID” (EL ID del job).
Para revisar el estado del job una vez sometido debe ejecutar:
PASO3:
qstat
Job ID Name User Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
1084988.xiuhcoatl TEST nombreusuario 1074:51: R CGPUK80
No recomendamos el uso de qstat, le pedimos a los usuarios mejor revisen los archivos de salida para verificar que el programa en cuestión se está ejecutando de manera correcta.
En caso de que el usuario detecte un error o por alguna otra situación desee cancelar el job deberá ejecutar, tomando en cuenta que el job sometido en el paso anterior es el que se quiere cancelar:
qdel 1084988.xiuhcoatl
825