close

安裝部份請參考 系統監控軟體Nagios-設定篇


上篇有說到Nagios是Clinet Server的架構,設定部份先從簡單Client端的說起

------------------------------------Client會使用的目錄與檔案為----------------------------------------------

/usr/local/nagios/etc/nrpe.cfg                                          //這是主要設定檔

/usr/local/nagios/libexec                                                 //這目錄是安裝nagios-plugins,裡面是可用偵測的程式,EXP:check_http

------------------------------------Client會使用的目錄與檔案為----------------------------------------------

------------------------------------先來看看Client端主要設定檔------------------------------------------

vi /usr/local/nagios/etc/nrpe.cfg

server_port=5666                                                            //這是Client端的PORT,Server端會連到此Port偵測,因此防火牆記得開

allowed_hosts=127.0.0.1                                                //這是設定Nagios Server的位置,假設是1.1.1.1,這裡就設1.1.1.1

//下面就是設定要監控的項目

command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10
command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20
command[check_hda1]=/usr/local/nagios/libexec/check_disk -w 20% -c 10% -p /dev/hda1
command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs -w 5 -c 10 -s Z
command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 200

對這指令說明一下

command:固定的格式

[check_users]:自訂的名稱,可以自行取好記的名字

/usr/local/nagios/libexec/check_users -w 5 -c 10:執行檢查的指令,指令可以在linux的command下執行看看有沒有錯誤訊息

基本上這些設定即可,啟動nrpe吧

/etc/init.d/nrpe start

檢查服務是否有起來

netstat -tpnl | grep ":5666"

------------------------------------先來看看Client端主要設定檔----------------------------------------------

------------------------------------再來看看Nagios Server端設定檔-----------------------------------------

會用到的設定檔如下,基本上設定檔如下面那圖

vi /usr/local/nagios/etc/nagios.cfg

nagioscfg.png 

預設只有Localhost的設定檔,如果監控的設備少,可以直接加在localhost.cfg中,如果設備很多,可以在設定檔做分類方便管理,exp:windows類,linux 類

小弟公司的linux跟switch,設定檔就設定linux跟switch啦...OK,因為預設沒有Linux的設定檔,所以要自行copy

cp  /usr/local/nagios/etc/object/localhost.cfg /usr/local/nagios/etc/object/linux.cfg

vi /usr/local/nagios/etc/object/linux.cfg

設定檔分三大部份,如下圖HOST,GROUP,SERVICE



nagiosHost.png 

HOST設定說明:

use                                    linux-server                                   //這東東定義在templates.cfg檔案裡,大家有空可以去看測試,這裡就不多說了

host_name                                                                             //主機名稱

alias                                                                                        //這裡可以打簡易說明,寄警告信時會顯示在信裡

address                                                                                  //要監控主機的IP

hostgroups                   linux-servers                                      //預設是沒有的,要自己加,如果要設群組的話要新增這個

nagiosGroup.png 

GROUP設定說明,設備不多且沒分類時,GROUP可以不用設:

hostgroup_name                                                          //如果host的hostgroups設linux,這裡也是linux,那該台設備就會被分在這群組

alias                                                                              //寫簡單說明

用hostgroups就不須要members

 nagiosService.png 

 SERVICE設定說明

use                                                                                               //看你的 設備是什麼類型就用什麼template,如:linux就用linux-service

host_name                                                                                  //假設有A,B,C,D台設備,如果只有AB要監控這服務,那這裡就打A,B(用逗號隔開),如果4台都要用,可以打*

hostgroup_name                                                                         //也可以用group的方式定義那些要設備要用這些服務,跟host_name只能存在一個

service_description                                                                      //打說明

check_command                                                                         //執行監控的指令,指令格式check_nrpe!check_users(check_nrpe是固定格式,check_users就是client端設定的那些command[]

例如:

Client端

command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10

Server端這裡就用check_users


設定完就可以重啟服務,看設定有沒有起來

/etc/init.d/nagios restart

重啟後大概要等個5分鐘左右Server端才能監控到Client狀況,所以去上個廁所,喝杯茶吧XD

點左邊services畫面就會像下圖

nagiosset.png 


------------------------------------再來看看Nagios Server端設定檔-----------------------------------------


------------------------------------如何找問題???-----------------------------------------

如果在nagios server上無法連線,可以在nagios server上下指令check,如

/usr/local/nagios/libexec/check_nrpe -H 10.10.10.10 -c check_users

狀況

1.CHECK_NRPE: Error - Could not complete SSL handshake.

        說明:這通常是client端nrpe.cfg的allowd_hosts沒設到nagios server或設錯造成,設定正確的nagios server  IP重啟nrpe即可

2.connect to address 127.0.0.1 port 5666: Connection refused

        說明:可能nrpe服務沒起來,或者nrpe不是預設的5666port,檢查nrpe設定並確認port是5666

3.CHECK_NRPE: Socket timeout after 10 seconds.

       說明:可能防火牆擋掉或IP設錯

4.NRPE: Command 'check_userd' not defined

      說明:-c的指令與Client端nrpe.cfg裡的command設定不同,例如/usr/local/nagios/libexec/check_nrpe -H 10.10.10.10 -c check_users,但nrpe.cfg裡是打command[check_user]

------------------------------------如何找問題???-----------------------------------------

這篇先到這了,有任何問題大家再討論^^


arrow
arrow
    創作者介紹
    創作者 wlhfor1975 的頭像
    wlhfor1975

    wlhfor1975的部落格

    wlhfor1975 發表在 痞客邦 留言(0) 人氣()