使用 Xymon 進行系統監控/其他文件/常見問題解答/通用監控系統功能
外觀
- 傳送(電子郵件/簡訊/等)
- 確認(顯示誰正在處理問題)
- 延遲
- 傳送給特定組/個人
- 升級路徑
- 能夠為每個服務測試設定嚴重性級別(例如,生產伺服器上的磁碟與開發伺服器上的磁碟)
- 不同級別有不同的操作,即
- 級別 1(磁碟 95% 滿)警報幫助臺
- 級別 2(磁碟 98% 滿)警報 IT 團隊
- 不同級別有不同的操作,即
- 包含或整合到即時顯示系統中(使用顏色:紅色、黃色、綠色、紫色、白色和藍色)
- 紅色
- 黃色
- 綠色
- 白色
- 紫色
- 顯示上次檢查時間
- 顯示狀態的“摘要”。例如,將 Unix 盒子分組並顯示是否有任何問題
- 能夠自定義顯示。例如,IT 幫助臺的摘要頁面、Unix 管理員的 Unix 頁面、網路團隊的網路頁面。
- 能夠限制訪問監控系統(我們不希望普通使用者看到所有監控的內容)
- 能夠搜尋主機
- Microsoft Windows:Windows NT、Windows XP、Windows Vista。
- 能夠處理 Windows 事件日誌和效能監控
- UNIX:Solaris、AIX、HP-UX、IRIX、Linux、MacOS X、Tru64。
- 服務(DNS/FTP/SMTP/LDAP/等)
- 應用程式(Outlook、日曆、Exchange、證書服務、Apache、Tomcat、等)
- HTTP 應用程式監控
- 預期返回內容
- 可接受的響應時間(載入網頁 10 秒不可接受)
- 模擬 Windows 客戶端應用程式。例如,點選圖示啟動 Word。輸入一些文字。將文件儲存到驅動器。關閉 Word。確保整個過程都成功。
- HTTP 應用程式監控
- 服務級別測試
- 例如,Web 應用程式需要 Web 伺服器、DNS、LDAP 等。如果 DNS 伺服器出現故障,那麼 Web 應用程式也會出現故障。
- 允許進行叢集測試(例如,5 個叢集中的 1 個 Web 伺服器出現故障,通知 Web 伺服器停機,但不要通知 Web 服務停機)
- 網路檔案共享
- SAN 監控
- Citrix 伺服器和服務
- 印表機
- 印表機錯誤,例如墨粉不足
- 列印佇列
- SNMP 裝置
- 硬體(即 Dell DRAC、Sun Solaris),透過硬體卡和作業系統軟體。
- UPS
- 其他環境輸入(溫度、溼度等)
- 夜間備份
- 如果備份花費的時間比預期長,則發出警告
- 如果某些備份失敗,則發出警報
- 提供與 Cisco Works 的整合,或具有類似的功能
- WAN 鏈路、LAN 鏈路、VLAN 等
- 驗證鏈路是否已連線
- 驗證頻寬是否未飽和
- Cisco/網路硬體
- CPU 負載
- 環境,例如電源、溫度警報等
- 能夠與探測器互動(將流量分解為型別和大小)
- 捕獲和跟蹤對硬體配置的更改
- 磁碟
- 記憶體
- 程序
- 響應時間
- CPU 負載
- 硬體故障
- 作業系統警報(系統事件日誌和 syslog)
- Oracle
- MySQL
- MSSQL
- Ingres
- 檔案增長,如果存在等
- 易於擴充套件/自定義自己的測試(用於整合的 API)
- 針對趨勢發出警報,例如,1 個月內增長 10% 可能沒問題,但 2 個小時內增長就不行。
- 為網路頻寬使用情況或任何收集的資料提供趨勢分析
- 與幫助臺/故障單系統整合
- 自動提交故障單
- 自動更新現有故障單
- 與(或包含)資產管理系統整合
- 顯示序列號、製造商、保修期限、維修/更換歷史記錄等
- 與其他監控系統整合,例如 Ciscoworks、Oracle Enterprise Manager、HP、Compaq Insight Manager 等
- 與 Microsoft Operations Manager (MOM) 整合,或提供 MOM 中可用的類似功能
- 本地安裝的代理來收集資料(並在本地暫時儲存資料)
- 中央輪詢伺服器能夠聯絡代理以獲取收集的資料
- 本地代理能夠將資料傳送到輪詢伺服器
- 能夠遠端更新代理
- 歷史保留
- 提供報告
- 必須能夠為每個裝置分配多個 IP 地址,並在需要時單獨測試每個 IP 地址。
- 對正在監控的服務的影響最小
- 監控(和管理)客戶端(遠端裝置)的努力最小
- 不需要對現有基礎設施進行升級(例如,必須執行最新版本的軟體才能進行監控)
- 遠端監控伺服器能夠向中央伺服器報告
- 依賴關係感知(如果核心路由器出現故障,不要針對其後面的裝置傳送 100 個警報)
- 允許計劃停機(在將來停用測試)
- 需要授權
- 需要顯示原因
- 允許定期維護視窗(應用程式每星期日晚上重啟 - 不要發出警報)
- 能夠將測試委託給其他裝置(例如,層級管理結構)
- 監控系統中的審計歷史記錄(伺服器新增日期、何時停用監控以及原因等)
- 系統必須能夠自我監控
- 能夠監控 1000 多個裝置
- 允許可變輪詢(某些測試每 5 分鐘一次,某些測試每 1 分鐘一次)
- 高度可靠
- 冗餘(如果您的主要監控伺服器出現故障,則備用第二臺伺服器)
- 將預設閾值應用於裝置組。允許對這些閾值進行“一次性”例外。例如,所有檔案系統必須低於 90% 滿。對於伺服器 X,/opt 必須低於 94% 滿,因為它當前為 93% 並且應該不會改變。