トップ 新規 編集 差分 一覧 Farm ソース 検索 ヘルプ PDF RSS ログイン

近藤研クラスタの管理情報

[管理情報]

管理情報

近藤先生の居室(521)とサーバルーム(520)の前に並んでいる白や黒のマシンの管理情報です.

マシン数が多くて紙のメモでは管理しにくいのでこちらに書かせていただきます.

講座全体で、管理します。(事実上の管理者の久米は2010年3月末日をもってこの講座からいなくなるので,近藤研のみなさんはこれを見て引き続き管理をお願いします.)

注意

  • 全てのマシンを同時に起動するとブレーカが落ちるので使うマシンだけ電源を入れるようにしましょう.
  • k010はサーバですので電源はなるべく落とさないようにしましょう.
    • いわば講座内のred,whitebase,bluebaseです.落とすと全てのマシンが使用不能になります.

queueコマンドを仕様する前に -$PATH追加-

qsub、qstat、qdelコマンドを使用するために、k010マシン上で環境変数$PATHに上記コマンドのパスを追加して下さい。

#vi .bash_profile  /*エディタでhomeディレクトリ直下で.bash_profileを変更*/
/*以下を.bash_profileに記述*/
export PATH=$PATH:/usr/local/torque/bin:/usr/local/maui/bin

torqueのマニュアル

qsub, qstat, qdelなどの各種コマンドのマニュアルtorque.pdf(98)

クラスタへのジョブ投入方法

シミュレータ等の大きなプログラムを動かす際は、複数人数で k011〜k020 のマシンパワーを等しく享受するために、ジョブ投入コマンドを使用して下さい.(詳しくはqsub等でGoogle検索して下さい.)

qsub: ジョブの投入コマンド

(例にあるtest.shには、各自が作成したシェルスクリプトファイルを入力して下さい.)

#qsub test.sh

qstat: ジョブの状態確認コマンド

(以下はqstatの使用した際の例)
オプション 説明
-q システムの全てのキューを表示
-a システムの全てのジョブを表示
-s 全てのジョブをステータスコメント付きで表示
-r 実行中のジョブを表示

#qstat
Job id           Name             User             Time Use S Queue
---------------- ---------------- ---------------- -------- - -----
78.k012          test.sh          www                     0 R dque
79.k012          test.sh          www                     0 R dque
80.k012          test.sh          www                     0 R dque

qdel: ジョブの削除依頼コマンド

#qstat -a    ←Job idの確認を行う.
 Job id           Name             User             Time Use S Queue
 ---------------- ---------------- ---------------- -------- - -----
 78.k012          test.sh          www                     0 R dque
 79.k012          test.sh          www                     0 R dque
 80.k012          test.sh          www                     0 R dque
#qdel 78   ←Job id【78.k012】を削除する.
#qstat -a    ←Job id【78.k012】が削除されたか確認を行う.

pbsnodes: pbs node manipulation

# pbsnodes -a   ← クラスタの状態確認  

新しいマシンの追加

新しいマシンを近藤研クラスタの仲間入りさせる場合に参考にしてください.

諸注意

  • 講座全体のNIS(hpclab)に統合されましたので、管理情報を参照してください。(20100715)
  • IPアドレスは近藤先生の192.168.17.*にしてください.でないとhomeディレクトリをマウントできません.
  • 計算用マシンではpbs_mom(/etc/init.d/torque-mom)を実行させる
  • /var/spool/torque/server_nameをk010にする
  • openbsd-inetd, rsh-client, rsh-serverをインストールしておく
  • NFSでホームをマウントしているときは、JOB間でファイル名が重なって互いのファイルを消してしまうことのないよう気をつける
  • ファイルはsshを介してやりとりされるので、パスワードなしで相互にファイルをコピーできなければならない。
  • ユーザごとに秘密鍵、公開鍵を作成し、公開鍵をサーバと計算ノードで交換する。
$ ssh-keygen
$ ssh-copy-id k010

NISの引き方

NISサーバに192.168.17.10を指定する

(ubuntu 11.10を仮定)

# apt-get install -y nis

Enter your NIS domain
  hpclab

# vi /etc/yp.conf
+ ypserver 192.168.208.46

# vi /etc/nsswitch.conf
- passwd:         compat
+ passwd:         compat files nis
- group:          compat
+ group:          compat files nis
- shadow:         compat
+ shadow:         compat files nis
- hosts:          files mdns4_minimal [NOTFOUND=return] dns mdns4
+ hosts:          files nis mdns4_minimal [NOTFOUND=return] dns mdns4
- networks:       files
+ networks:       files nis 

# /etc/init.d/nis restart

Automountの仕方

(ubuntu 11.10を仮定)

NISの設定後に

# apt-get install -y autofs nfs-common
# vi /etc/auto.master
+ /home /etc/auto.home --timeout=60

auto.homeが無い場合

# touch /etc/auto.home
+ *          blackbase:/home/&
# vi /etc/nsswitch.conf
+ automount:      nis files

# /etc/init.d/nis restart
# /etc/init.d/nfs-common restart
# /etc/init.d/autofs restart

rsh

rsh, rlogin, rexecを使えるようにする

$ sudo apt-get install -y openbsd-inetd rsh-client rsh-server
$ echo "rsh" >> /etc/securetty
$ echo "rlogin" >> /etc/securetty
$ echo "rexec" >> /etc/securetty

インストールが完了したら/etc/pam.d/rsh, /etc/pam.d/rlogin, /etc/pam.d/rexecを次のように書き換える

  • /etc/pam.d/rsh
auth    required        pam_nologin.so
auth	required	pam_env.so
#auth   required        pam_rhosts_auth.so
auth	required	pam_rhosts.so
# @include common-account
# @include common-session
  • /etc/pam.d/rlogin
auth		required	pam_nologin.so
#auth		required	pam_securetty.so
#auth           required        pam_rhosts_auth.so
auth		sufficient	pam_rhosts.so 
auth            required        pam_unix.so nullok
account         required        pam_unix.so
password        required        pam_unix.so nullok use_authtok obscure \
                                min=4 max=8
session         required        pam_unix.so 
#@include common-auth 
#@include common-account
#@include common-session
#@include common-password
  • /etc/pam.d/rexec
auth	required	pam_nologin.so
auth	required	pam_env.so
auth    required        pam_rhosts.so
auth    required        pam_unix_auth.so shadow nullok
account required        pam_unix_acct.so
#@include common-auth
#@include common-account

torqueのインストール

k010から送られてきたジョブを受け取るためには、torque-clientとtorque-momが必要

$ sudo apt-get install -y torque-mom torque-client

インストール完了後、/var/spool/torque/server_nameの中身を'k010'に変更する

クライアントの登録

新たに追加したマシンをサーバ側(k010)で登録する。プロセッサ数が4のk040というマシンを追加したい場合は以下の通り

$ qmgr
Qmgr: create node k040:ts np=4

登録後、/var/spool/torque/server_priv/nodesにマシン名を追記する

+ k040 np=4

うまくいかないときは

(ubuntu 8.04を仮定)

# vi /etc/rc.local
+ /etc/init.d/nis restart
+ /etc/init.d/nfs-common restart
+ /etc/init.d/autofs restart
(exit 0 の前)

k010 (k010.hpc.is.uec.ac.jp, 192.168.17.10)

全てのマシンを統べるサーバ.NIS,NFS,Sambaサーバ.

ハードウェア環境

部品 品名
CPU Intel Core i7 965 3.20GHz
Memory DDR3-1333 2.0GB x3 = 6.0GB (Triple-Channel (Kingston KVR1333D3N9K3/6G))
M/B 未調査
G/B 未調査
電源 未調査
ケース Antec SOLO

ソフトウェア情報など

  • OS
    • Ubuntu
  • NIS (kondo.hpc.is.uec.ac.jp)
    • NISドメイン: kondo.hpc.is.uec.ac.jp
    • ユーザアカウント:
      • kondo(近藤先生)
      • kume(久米)
  • NFS export
    • /home
    • 192.168.17.*のIPアドレスを持つマシンからのマウントを許可
  • Samba
    • /home

SAMBAアカウントの追加

# smbpasswd -a -U {USER_NAME}
# /etc/init.d/samba restart

k011 (k011.hpc.is.uec.ac.jp, 192.168.17.11)

ハードウェア環境

部品 品名
CPU Intel Core i7 940 2.93GHz
Memory DDR3-1333 2.0GB x3 = 6.0GB (Triple-Channel (Kingston KVR1333D3N9K3/6G))
M/B 未調査
G/B 未調査
電源 未調査
ケース Antec SOLO

ソフトウェア情報など

  • OS
    • Ubuntu

k012 (k012.hpc.is.uec.ac.jp, 192.168.17.12)

ハードウェア環境

部品 品名
CPU Intel Core i7 940 2.93GHz
Memory DDR3-1066 2.0GB x3 = 6.0GB (Triple-Channel (Kingston KVR1066D3N7K3/6G))
M/B Intel DX58SO
G/B 未調査
電源 未調査
ケース Antec SOLO

ソフトウェア情報など

  • OS
    • Ubuntu

k013 (k013.hpc.is.uec.ac.jp, 192.168.17.13)

ハードウェア環境

部品 品名
CPU Intel Core i7 940 2.93GHz
Memory DDR3-1066 2.0GB x3 = 6.0GB (Triple-Channel (Kingston KVR1066D3N7K3/6G))
M/B Intel DX58SO
G/B 未調査
電源 未調査
ケース Antec SOLO

ソフトウェア情報など

  • OS
    • Ubuntu

k014 (k014.hpc.is.uec.ac.jp, 192.168.17.14)

ハードウェア環境

部品 品名
CPU Intel Core i7 940 2.93GHz
Memory DDR2-800 1.0GB x2 = 2.0GB (Single Channel)
M/B Intel DX58SO
G/B 未調査
電源 未調査
ケース Antec SOLO

ソフトウェア情報など

  • OS
    • Ubuntu

k015 (k015.hpc.is.uec.ac.jp, 192.168.17.15)

ハードウェア環境

部品 品名
CPU AMD Phenom X4 9950 2.6GHz
Memory DDR2-800 1.0GB x2 = 2.0GB (Dual Channel Unganged)
M/B 未調査
電源 未調査
ケース Antec SOLO White

使用状況

  • 全て: 穂園使用

k016 (k016.hpc.is.uec.ac.jp, 192.168.17.16)

ハードウェア環境

部品 品名
CPU AMD Phenom X4 9950 2.6GHz
Memory DDR2-800 1.0GB x2 = 2.0GB (Single Channel)
M/B 未調査
電源 未調査
ケース Antec SOLO White

ソフトウェア情報など

  • OS
    • Ubuntu

使用状況

  • メモリ2枚: 穂園使用

k017 (k017.hpc.is.uec.ac.jp, 192.168.17.17)

ハードウェア環境

部品 品名
CPU Intel Core 2 Quad Q8400 2.66GHz
Memory DDR2-800 1.0GB x2 = 2.0GB (Dual Channel)
M/B GIGABYTE EG41MF-US2H
電源 アビー ZUMAX ZU-520W
ケース Antec SOLO Black

ソフトウェア情報など

  • OS
    • Ubuntu

k018 (k018.hpc.is.uec.ac.jp, 192.168.17.18)

ハードウェア環境

部品 品名
CPU Intel Core 2 Quad Q8400 2.66GHz
Memory DDR2-800 1.0GB x2 = 2.0GB (Single Channel)
M/B GIGABYTE EG41MF-US2H
電源 アビー ZUMAX ZU-520W
ケース Antec SOLO Black

ソフトウェア情報など

  • OS
    • Ubuntu

k019 (k019.hpc.is.uec.ac.jp, 192.168.17.19)

ハードウェア環境

部品 品名
CPU AMD Phenom II X4 810 2.6GHz
Memory DDR2-800 1.0GB x2 = 2.0GB (Dual Channel Unganged)
M/B GIGABYTE MA78GPM-DS2H
電源 アビー ZUMAX ZU-520W
ケース Antec SOLO White

ソフトウェア情報など

  • OS
    • Ubuntu

k020 (k020.hpc.is.uec.ac.jp, 192.168.17.20)

ハードウェア環境

部品 品名
CPU AMD Phenom II X4 810 2.6GHz
Memory DDR2-800 1.0GB x2 = 2.0GB (Single Channel)
M/B GIGABYTE MA78GPM-DS2H
電源 アビー ZUMAX ZU-520W
ケース Antec SOLO White

ソフトウェア情報など

  • OS
    • Ubuntu

k021 (k21.hpc.is.uec.ac.jp, 192.18.17.21)

ハードウェア環境

部品 品名
CPU Intel(R) Core(TM) i7 CPU X 980 @ 3.33GHz
Memory DDR3-1333/1066 2.0GB x3 = 6.0GB
M/B 未調査
電源 500W電源
ケース Shuttle (ベアボーンキット)

ソフトウェア情報など

  • OS
    • Ubuntu

k022 (k22.hpc.is.uec.ac.jp, 192.18.17.22)

ハードウェア環境

部品 品名
CPU Intel(R) Core(TM) i7 CPU X 980 @ 3.33GHz
Memory DDR3-1333/1066 2.0GB x3 = 6.0GB
M/B 未調査
電源 500W電源
ケース Shuttle (ベアボーンキット)

ソフトウェア情報など

  • OS
    • Ubuntu

k023 (k23.hpc.is.uec.ac.jp, 192.18.17.23)

ハードウェア環境

部品 品名
CPU Intel(R) Core(TM) i7 CPU X 980 @ 3.33GHz
Memory DDR3-1333/1066 2.0GB x3 = 6.0GB
M/B 未調査
電源 500W電源
ケース Shuttle (ベアボーンキット)

ソフトウェア情報など

  • OS
    • Ubuntu

k024 (k24.hpc.is.uec.ac.jp, 192.18.17.24)

ハードウェア環境

部品 品名
CPU Intel(R) Core(TM) i7 CPU X 980 @ 3.33GHz
Memory DDR3-1333/1066 2.0GB x3 = 6.0GB
M/B 未調査
電源 500W電源
ケース Shuttle (ベアボーンキット)

ソフトウェア情報など

  • OS
    • Ubuntu

k025 (k25.hpc.is.uec.ac.jp, 192.18.17.25)

メモ

  • qsubでジョブを投げても、Undefined Attributeというエラーが出て、実行できない

ハードウェア環境

部品 品名
CPU Intel(R) Core(TM) i7 CPU X 980 @ 3.33GHz
Memory DDR3-1333/1066 2.0GB x3 = 6.0GB
M/B 未調査
電源 500W電源
ケース Shuttle (ベアボーンキット)

ソフトウェア情報など

  • OS
    • Ubuntu

k040 (k40.hpc.is.uec.ac.jp, 192.18.17.40)

橋本が使用 (2012年9月時点)

ハードウェア環境

k041 (k41.hpc.is.uec.ac.jp, 192.18.17.41)

橋本が使用 (2012年9月時点)

ハードウェア環境

k042 (k42.hpc.is.uec.ac.jp, 192.18.17.42)

橋本が使用 (2012年9月時点)

ハードウェア環境

k043 (k43.hpc.is.uec.ac.jp, 192.18.17.43)

橋本が使用 (2012年9月時点)

ハードウェア環境

k044 (k42.hpc.is.uec.ac.jp, 192.18.17.44)

橋本が使用 (2012年9月時点)

ハードウェア環境

torque.pdf[削除]

最終更新時間:2012年10月17日 14時15分14秒