RARFAXで長時間Job(process)の走らせ方


 29-May-2000 (updated)			放射線研究室	市原 卓

   RARFAXP/RARFAX1/RARFAX2 の 加速器研究施設のDigital UNIXの 3ノード に 
は LSF 3.2.4 が導入されており、batch queue が以下のように設定されています。
1時間以上の JOBは必ず  LSFを使用して実行してください。 LSFを使用せずに直接 
RARFAXP等で shell から Job (process)を実行した場合は、priority(nice)の変更、
あるいは場合により process の消去(kill)等もありますがら御了承ください。 
本件に関する質問、ご要望等は system @ rarfaxp までお願いします。

[使用例 1]

  簡単なLSFの jobの投入例は、job を実行する scritpを 例えば run.simとして 
run.simの中味を以下のようなものとすると、

	#!/bin/tcsh
	/rarf/u/myname/super/sim.osf1
	exit

rarfaxp で   bsub -q axp_long  -o sim.o.%J -e sim.e.%J run.sim

といれると、JOBが submitされ、実行後の結果の標準出力、エラー出力は 
sim.o.ジョブ番号、sim.e.ジョブ番号  でファイルにおちます。(script
の最後に exitを書く必要があります)

[使用例 2]

さらに上記の jobを rarfaxp (のみ)で実行させたいときは

    bsub -q axp_long  -m rarfaxp -o sim.o.%J -e sim.e.%J run.sim

と実行ホストを制限することもできます。

  queueは CPUの制限が 2時間、24時間、7日間の axp_short, axp_long, axp_bg
の3つを定義しています。(詳しくは下を参照)   

良く使うと思われるコマンド (詳細は man でご覧ください)
========================================================

lsid		Local LSF名と現在の master ホストの表示
lsload  	LSF nodeの負荷状況の表示
lsload -l	LSF nodeの負荷状況の表示(最後 に /workのfree (GB)表示)
lsrun		低負荷のホストでコマンドを実行
lstcsh          tcshの lsf版。

bsub		jobの投入
bkill		Jobの取り消し
bswitch		実行前、実行中の Jobの QUEUEの変更
bjobs           実行中の Jobの状態表示
bqueues		queueの設定の表示
bhosts		hostの状態表示

xlsf		LSF関連の GUI i/fの起動。



RARFAXP UNIX Cluster LSF queue setting
=========================================================

queueの設定、条件

  queue名        MAX CPU       Nice    実行可能ホスト  合計実行ジョブ数
 ーーーーーーーーーーーーーーーーーーーーーーーーーーーー-------------
  axp_short       2  hours      1       axp ax1 ax2        5      
  axp_long       24  hours     10       axp ax1 ax2        4     
  axp_bg          7  days      19           ax1 ax2        2     


ホストごとの最大実行ジョブ数
     rarfaxp:0  rarfax1:3  rarfax2:3
               
Queueの priority   axp_short = axp_long > axp_bg
  実行可能JOBスロットがでたとき、実行をさせる queue の priority

一人あたりの最大の実行可能 JOB数  : 2
  (大量に submintしてもこの数以上は同時に実行されない)

scheduling policy : fcfs  (2000.5.26現在)
   fcfs       (fast come fast serve) 先に投入された順に実行される(default)
   fareshare  一定時間(設定可能)に使用したリソースを考慮して公平
               にリソースが利用できるように、schedulingを決める)
               Qeueueごと、ホストレベル、階層型等色々なレベルで設定可