RARFAXで長時間Job(process)の走らせ方
29-May-2000 (updated) 放射線研究室 市原 卓
RARFAXP/RARFAX1/RARFAX2 の 加速器研究施設のDigital UNIXの 3ノード に
は LSF 3.2.4 が導入されており、batch queue が以下のように設定されています。
1時間以上の JOBは必ず LSFを使用して実行してください。 LSFを使用せずに直接
RARFAXP等で shell から Job (process)を実行した場合は、priority(nice)の変更、
あるいは場合により process の消去(kill)等もありますがら御了承ください。
本件に関する質問、ご要望等は system @ rarfaxp までお願いします。
[使用例 1]
簡単なLSFの jobの投入例は、job を実行する scritpを 例えば run.simとして
run.simの中味を以下のようなものとすると、
#!/bin/tcsh
/rarf/u/myname/super/sim.osf1
exit
rarfaxp で bsub -q axp_long -o sim.o.%J -e sim.e.%J run.sim
といれると、JOBが submitされ、実行後の結果の標準出力、エラー出力は
sim.o.ジョブ番号、sim.e.ジョブ番号 でファイルにおちます。(script
の最後に exitを書く必要があります)
[使用例 2]
さらに上記の jobを rarfaxp (のみ)で実行させたいときは
bsub -q axp_long -m rarfaxp -o sim.o.%J -e sim.e.%J run.sim
と実行ホストを制限することもできます。
queueは CPUの制限が 2時間、24時間、7日間の axp_short, axp_long, axp_bg
の3つを定義しています。(詳しくは下を参照)
良く使うと思われるコマンド (詳細は man でご覧ください)
========================================================
lsid Local LSF名と現在の master ホストの表示
lsload LSF nodeの負荷状況の表示
lsload -l LSF nodeの負荷状況の表示(最後 に /workのfree (GB)表示)
lsrun 低負荷のホストでコマンドを実行
lstcsh tcshの lsf版。
bsub jobの投入
bkill Jobの取り消し
bswitch 実行前、実行中の Jobの QUEUEの変更
bjobs 実行中の Jobの状態表示
bqueues queueの設定の表示
bhosts hostの状態表示
xlsf LSF関連の GUI i/fの起動。
RARFAXP UNIX Cluster LSF queue setting
=========================================================
queueの設定、条件
queue名 MAX CPU Nice 実行可能ホスト 合計実行ジョブ数
ーーーーーーーーーーーーーーーーーーーーーーーーーーーー-------------
axp_short 2 hours 1 axp ax1 ax2 5
axp_long 24 hours 10 axp ax1 ax2 4
axp_bg 7 days 19 ax1 ax2 2
ホストごとの最大実行ジョブ数
rarfaxp:0 rarfax1:3 rarfax2:3
Queueの priority axp_short = axp_long > axp_bg
実行可能JOBスロットがでたとき、実行をさせる queue の priority
一人あたりの最大の実行可能 JOB数 : 2
(大量に submintしてもこの数以上は同時に実行されない)
scheduling policy : fcfs (2000.5.26現在)
fcfs (fast come fast serve) 先に投入された順に実行される(default)
fareshare 一定時間(設定可能)に使用したリソースを考慮して公平
にリソースが利用できるように、schedulingを決める)
Qeueueごと、ホストレベル、階層型等色々なレベルで設定可