29-May-2000 (updated) 放射線研究室 市原 卓 RARFAXP/RARFAX1/RARFAX2 の 加速器研究施設のDigital UNIXの 3ノード に は LSF 3.2.4 が導入されており、batch queue が以下のように設定されています。 1時間以上の JOBは必ず LSFを使用して実行してください。 LSFを使用せずに直接 RARFAXP等で shell から Job (process)を実行した場合は、priority(nice)の変更、 あるいは場合により process の消去(kill)等もありますがら御了承ください。 本件に関する質問、ご要望等は system @ rarfaxp までお願いします。 [使用例 1] 簡単なLSFの jobの投入例は、job を実行する scritpを 例えば run.simとして run.simの中味を以下のようなものとすると、 #!/bin/tcsh /rarf/u/myname/super/sim.osf1 exit rarfaxp で bsub -q axp_long -o sim.o.%J -e sim.e.%J run.sim といれると、JOBが submitされ、実行後の結果の標準出力、エラー出力は sim.o.ジョブ番号、sim.e.ジョブ番号 でファイルにおちます。(script の最後に exitを書く必要があります) [使用例 2] さらに上記の jobを rarfaxp (のみ)で実行させたいときは bsub -q axp_long -m rarfaxp -o sim.o.%J -e sim.e.%J run.sim と実行ホストを制限することもできます。 queueは CPUの制限が 2時間、24時間、7日間の axp_short, axp_long, axp_bg の3つを定義しています。(詳しくは下を参照) 良く使うと思われるコマンド (詳細は man でご覧ください) ======================================================== lsid Local LSF名と現在の master ホストの表示 lsload LSF nodeの負荷状況の表示 lsload -l LSF nodeの負荷状況の表示(最後 に /workのfree (GB)表示) lsrun 低負荷のホストでコマンドを実行 lstcsh tcshの lsf版。 bsub jobの投入 bkill Jobの取り消し bswitch 実行前、実行中の Jobの QUEUEの変更 bjobs 実行中の Jobの状態表示 bqueues queueの設定の表示 bhosts hostの状態表示 xlsf LSF関連の GUI i/fの起動。 RARFAXP UNIX Cluster LSF queue setting ========================================================= queueの設定、条件 queue名 MAX CPU Nice 実行可能ホスト 合計実行ジョブ数 ーーーーーーーーーーーーーーーーーーーーーーーーーーーー------------- axp_short 2 hours 1 axp ax1 ax2 5 axp_long 24 hours 10 axp ax1 ax2 4 axp_bg 7 days 19 ax1 ax2 2 ホストごとの最大実行ジョブ数 rarfaxp:0 rarfax1:3 rarfax2:3 Queueの priority axp_short = axp_long > axp_bg 実行可能JOBスロットがでたとき、実行をさせる queue の priority 一人あたりの最大の実行可能 JOB数 : 2 (大量に submintしてもこの数以上は同時に実行されない) scheduling policy : fcfs (2000.5.26現在) fcfs (fast come fast serve) 先に投入された順に実行される(default) fareshare 一定時間(設定可能)に使用したリソースを考慮して公平 にリソースが利用できるように、schedulingを決める) Qeueueごと、ホストレベル、階層型等色々なレベルで設定可