跳轉到內容

使用 Xymon 進行系統監控/其他文件/常見問題解答/通用監控系統功能

來自華夏公益教科書,開放世界開放書籍

監控系統的需求

[編輯 | 編輯原始碼]
  • 傳送(電子郵件/簡訊/等)
  • 確認(顯示誰正在處理問題)
  • 延遲
  • 傳送給特定組/個人
  • 升級路徑
  • 能夠為每個服務測試設定嚴重性級別(例如,生產伺服器上的磁碟與開發伺服器上的磁碟)
    • 不同級別有不同的操作,即
      • 級別 1(磁碟 95% 滿)警報幫助臺
      • 級別 2(磁碟 98% 滿)警報 IT 團隊
  • 包含或整合到即時顯示系統中(使用顏色:紅色、黃色、綠色、紫色、白色和藍色)
    • 紅色
    • 黃色
    • 綠色
    • 白色
    • 紫色
  • 顯示上次檢查時間
  • 顯示狀態的“摘要”。例如,將 Unix 盒子分組並顯示是否有任何問題
  • 能夠自定義顯示。例如,IT 幫助臺的摘要頁面、Unix 管理員的 Unix 頁面、網路團隊的網路頁面。
  • 能夠限制訪問監控系統(我們不希望普通使用者看到所有監控的內容)
  • 能夠搜尋主機
  • Microsoft Windows:Windows NT、Windows XP、Windows Vista。
    • 能夠處理 Windows 事件日誌和效能監控
  • UNIX:Solaris、AIX、HP-UX、IRIX、Linux、MacOS X、Tru64。
  • 服務(DNS/FTP/SMTP/LDAP/等)
  • 應用程式(Outlook、日曆、Exchange、證書服務、Apache、Tomcat、等)
    • HTTP 應用程式監控
      • 預期返回內容
      • 可接受的響應時間(載入網頁 10 秒不可接受)
    • 模擬 Windows 客戶端應用程式。例如,點選圖示啟動 Word。輸入一些文字。將文件儲存到驅動器。關閉 Word。確保整個過程都成功。
  • 服務級別測試
    • 例如,Web 應用程式需要 Web 伺服器、DNS、LDAP 等。如果 DNS 伺服器出現故障,那麼 Web 應用程式也會出現故障。
  • 允許進行叢集測試(例如,5 個叢集中的 1 個 Web 伺服器出現故障,通知 Web 伺服器停機,但不要通知 Web 服務停機)
  • 網路檔案共享
  • SAN 監控
  • Citrix 伺服器和服務
  • 印表機
    • 印表機錯誤,例如墨粉不足
    • 列印佇列
  • SNMP 裝置
  • 硬體(即 Dell DRAC、Sun Solaris),透過硬體卡和作業系統軟體。
  • UPS
  • 其他環境輸入(溫度、溼度等)
  • 夜間備份
    • 如果備份花費的時間比預期長,則發出警告
    • 如果某些備份失敗,則發出警報
  • 提供與 Cisco Works 的整合,或具有類似的功能
  • WAN 鏈路、LAN 鏈路、VLAN 等
    • 驗證鏈路是否已連線
    • 驗證頻寬是否未飽和
  • Cisco/網路硬體
    • CPU 負載
    • 環境,例如電源、溫度警報等
  • 能夠與探測器互動(將流量分解為型別和大小)
  • 捕獲和跟蹤對硬體配置的更改

作業系統監控

[編輯 | 編輯原始碼]
  • 磁碟
  • 記憶體
  • 程序
  • 響應時間
  • CPU 負載
  • 硬體故障
  • 作業系統警報(系統事件日誌和 syslog)

資料庫監控

[編輯 | 編輯原始碼]
  • Oracle
  • MySQL
  • MSSQL
  • Ingres

檔案監控

[編輯 | 編輯原始碼]
  • 檔案增長,如果存在等

自定義

[編輯 | 編輯原始碼]
  • 易於擴充套件/自定義自己的測試(用於整合的 API)
  • 針對趨勢發出警報,例如,1 個月內增長 10% 可能沒問題,但 2 個小時內增長就不行。
  • 為網路頻寬使用情況或任何收集的資料提供趨勢分析
  • 與幫助臺/故障單系統整合
    • 自動提交故障單
    • 自動更新現有故障單
  • 與(或包含)資產管理系統整合
    • 顯示序列號、製造商、保修期限、維修/更換歷史記錄等
  • 與其他監控系統整合,例如 Ciscoworks、Oracle Enterprise Manager、HP、Compaq Insight Manager 等
  • 與 Microsoft Operations Manager (MOM) 整合,或提供 MOM 中可用的類似功能
  • 本地安裝的代理來收集資料(並在本地暫時儲存資料)
  • 中央輪詢伺服器能夠聯絡代理以獲取收集的資料
  • 本地代理能夠將資料傳送到輪詢伺服器
  • 能夠遠端更新代理
  • 歷史保留
  • 提供報告
  • 必須能夠為每個裝置分配多個 IP 地址,並在需要時單獨測試每個 IP 地址。
  • 對正在監控的服務的影響最小
  • 監控(和管理)客戶端(遠端裝置)的努力最小
    • 不需要對現有基礎設施進行升級(例如,必須執行最新版本的軟體才能進行監控)
  • 遠端監控伺服器能夠向中央伺服器報告
  • 依賴關係感知(如果核心路由器出現故障,不要針對其後面的裝置傳送 100 個警報)
  • 允許計劃停機(在將來停用測試)
    • 需要授權
    • 需要顯示原因
  • 允許定期維護視窗(應用程式每星期日晚上重啟 - 不要發出警報)
  • 能夠將測試委託給其他裝置(例如,層級管理結構)
  • 監控系統中的審計歷史記錄(伺服器新增日期、何時停用監控以及原因等)
  • 系統必須能夠自我監控
  • 能夠監控 1000 多個裝置
  • 允許可變輪詢(某些測試每 5 分鐘一次,某些測試每 1 分鐘一次)
  • 高度可靠
  • 冗餘(如果您的主要監控伺服器出現故障,則備用第二臺伺服器)
  • 將預設閾值應用於裝置組。允許對這些閾值進行“一次性”例外。例如,所有檔案系統必須低於 90% 滿。對於伺服器 X,/opt 必須低於 94% 滿,因為它當前為 93% 並且應該不會改變。
華夏公益教科書