Работа с очередью задач
На текущий момент доступен раздел blade2
для вычислительных задач (учебные задачи, биоинформатический анализ…)
sinfo
- команда показывает состояние кластера
[mukhin@slurmctl-250 sf]$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
blade2* up infinite 4 idle blade2-1-250,blade2-2-250,blade2-3-250,blade2-4-250
[mukhin@slurmctl-250 sf]$ # Подробная информация для каждого сервера поотдельности
[mukhin@slurmctl-250 sf]$ sinfo -N -l
Thu Jan 14 14:59:21 2021
NODELIST NODES PARTITION STATE CPUS S:C:T MEMORY TMP_DISK WEIGHT AVAIL_FE REASON
blade2-1-250 1 blade2* idle 40 2:10:2 124274 0 1 (null) none
blade2-2-250 1 blade2* idle 40 2:10:2 124274 0 1 (null) none
blade2-3-250 1 blade2* idle 40 2:10:2 124274 0 1 (null) none
blade2-4-250 1 blade2* idle 32 2:8:2 124274 0 1 (null) none
Получить подробную информацию - man sinfo
Для начала в любом случае Вы должны попросить кластер выделить ресурсы для выполнения задачи
Если Вам нужно запустить консоль в кластере, выполните
salloc -N1 <далее - требуемые ресурсы>
srun --pty bash
# Выходить нужно дважды через Ctrl-D или команду "exit"
Для запуска программых решений на кластере ЦКП “Биоинформатика” следует написать скрипт (файл с раcширением *.sh
, и первая строка в ней является строка #!/bin/bash
) в текстовом редакторе (для новичков - nano, mc, для продвинутых - vim, Emacs) или пересылать скрипт по SFTP протоколу
Текст скрипта состоит из двух частей: параметры задачи (все строки с параметрами начинаются с #SBATCH
) и список комманд и программ, которые должны выполняться на класере.
Пример скрипта:
#!/bin/bash
#
#SBATCH --job-name=test # Название задачи
#SBATCH --output=res.txt # Название файла с выводами и ошибками
#
#SBATCH --ntasks=1 # Количество запущенных задач
#SBATCH --time=10:00 # Время
srun hostname
srun sleep 60
За подробностями - man sbatch
Выполните: sbatch script.sh
squeue
- команда показывает список выполняющихся задач
Пример:
# squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
12345 debug job1 dave R 0:21 4 node[9-12]
12346 debug job2 dave PD 0:00 8 (Resources)
12348 debug job3 ed PD 0:00 4 (Priority)
Получить подробную информацию - man squeue
scancel <номер задачи>
- отмена задачи (читать подробнееman scancel
)