Основная страница / Работа с кластером / Работа с очередью задач

Работа с очередью задач

Обзор кластера

На текущий момент доступен раздел blade2 для вычислительных задач (учебные задачи, биоинформатический анализ…)

  • sinfo - команда показывает состояние кластера
[mukhin@slurmctl-250 sf]$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST 
blade2*      up   infinite      4   idle blade2-1-250,blade2-2-250,blade2-3-250,blade2-4-250
[mukhin@slurmctl-250 sf]$ # Подробная информация для каждого сервера поотдельности
[mukhin@slurmctl-250 sf]$ sinfo -N -l
Thu Jan 14 14:59:21 2021
NODELIST      NODES PARTITION       STATE CPUS    S:C:T MEMORY TMP_DISK WEIGHT AVAIL_FE REASON               
blade2-1-250      1   blade2*        idle 40     2:10:2 124274        0      1   (null) none                 
blade2-2-250      1   blade2*        idle 40     2:10:2 124274        0      1   (null) none                 
blade2-3-250      1   blade2*        idle 40     2:10:2 124274        0      1   (null) none                 
blade2-4-250      1   blade2*        idle 32      2:8:2 124274        0      1   (null) none

Получить подробную информацию - man sinfo

Выполнение задач на кластере

Для начала в любом случае Вы должны попросить кластер выделить ресурсы для выполнения задачи

Если Вам нужно запустить консоль в кластере, выполните

salloc -N1 <далее - требуемые ресурсы>
srun --pty bash 
# Выходить нужно дважды через Ctrl-D или команду "exit" 

Написание задачи

Для запуска программых решений на кластере ЦКП “Биоинформатика” следует написать скрипт (файл с раcширением *.sh, и первая строка в ней является строка #!/bin/bash) в текстовом редакторе (для новичков - nano, mc, для продвинутых - vim, Emacs) или пересылать скрипт по SFTP протоколу

Текст скрипта состоит из двух частей: параметры задачи (все строки с параметрами начинаются с #SBATCH) и список комманд и программ, которые должны выполняться на класере.

Пример скрипта:

#!/bin/bash
#
#SBATCH --job-name=test     # Название задачи
#SBATCH --output=res.txt    # Название файла с выводами и ошибками
#
#SBATCH --ntasks=1          # Количество запущенных задач
#SBATCH --time=10:00        # Время

srun hostname
srun sleep 60

За подробностями - man sbatch

Запуск задачи на кластере

Выполните: sbatch script.sh

Управление задачей в очереди

  • squeue - команда показывает список выполняющихся задач

Пример:

# squeue
JOBID PARTITION NAME USER ST  TIME  NODES NODELIST(REASON)
12345     debug job1 dave  R   0:21     4 node[9-12]
12346     debug job2 dave PD   0:00     8 (Resources)
12348     debug job3 ed   PD   0:00     4 (Priority)

Получить подробную информацию - man squeue

  • scancel <номер задачи> - отмена задачи (читать подробнее man scancel)