Guías y tutoriales

En esta sección le presentamos guías y tutoriales para realizar las configuraciones más comunes y resolver los problemas más frecuentes que presentan nuestros usuarios de acuerdo a la experiencia de nuestra área de soporte. Para visualizar una guía haga clic en el título. Agregamos guías constantemente de acuerdo a la necesidad. Revise ésta página con frecuencia.


Categorías

Seleccione una categoría para filtrar las guías y tutoriales:

Buscar en las guías:

Hector Manuel Oliver Hernandez
/ Categorías: Soporte

Guía rápida para someter "jobs" en el Cluster Xiuhcóatl

RESUMEN: La guía está orientada para aquellos nuevos usuarios “sin experiencia” donde se muestran los comandos necesarios para someter jobs, revisar su estado y eliminar un job en caso de ser necesario, en el  cluster Xiuhcóatl o infraestructuras similares, que utilizan SLURM para el control de los jobs,  

PRE-REQUISITOS: 

Para someter jobs en el cluster Xiuhcóatl se entiende que: 

  • Ya se sometió y fue aprobado un proyecto en el cluster Xiuhcóatl en la convocatoria actual. 

  • Se cuenta con los datos de acceso que fueron enviados por el responsable del Área de Supercómputo. 

  • Ya se está conectado en el nodo de login asignado. 

  • Cuenta con una aplicación existente, en caso de que no exista debe solicitarse la instalación. 

PASO1: 

Una vez cumplidos los pre-requisitos vamos a ocupar un “nombre-script.slrm” que contiene las tareas/comandos a ejecutar en el cluster, si el usuario cuenta con este archivo puede pasar al PASO2, pero  si el usuario no se cuenta con este “nombre-script.slrm” debe solicitar el apoyo para su creación:

Solicitando se genere el script correspondiente para la aplicación a utilizar, mandando los detalles por correo electrónico a holiver@cinvestav.mx  

Posteriormente el responsable del Área de Supercomputo de la CGSTIC se pondrá en contacto con el usuario para saber cuál es la aplicación que requiere ejecutar en el cluster,  generar el script y lo pondrá a disposición del usuario para la prueba de funcionamiento, una vez superada la prueba de funcionamiento se hará una prueba de escalamiento en caso de ser paralelo el aplicativo, con lo cual se definirá el número máximo de nodos de cómputo a utilizar en el cluster para el aprovechamiento adecuado de los recursos del cluster, así como la cola/partición de ejecución. 

PASO2: 

El usuario una vez que tenga el script “nombre-script.slrm“  de su aplicación, ejecutará el siguiente comando para someter el job ene l cluster: 

sbatch nombre-script.slrm

Si todos los pasos anteriores fueron exitosos, este comando le regresara un “#JOBID” (EL ID del job). 

Para revisar el estado del job una vez sometido debe ejecutar: 

PASO3: 

squeue  

JOBID PARTITION     NAME     USER       ST       TIME  NODES   NODELIST(REASON) 

              2299       amd          TEST    nombreusuario  R        25-22:45:48      1   node262 

Le pedimos a los usuarios revisen los archivos de salida para verificar que el programa en cuestión se está ejecutando de manera correcta.  

 

Para borrar un job 

En caso de que el usuario detecte un error o por alguna otra situación desee cancelar el job deberá ejecutar lo siguiente (tomando en cuenta que el job sometido en el paso anterior es el que se requiere cancelar): 

scancel  2299 

Artículo anterior Agregar usuario a aplicación de directorio telefónico
Siguiente artículo Teléfonos CISCO: Conferencias telefónicas
Print
922