說到機架式服務器宕機,很多人都知道,一般發生宕機,很快都能知道,但是總有一些時候,機架式服務器發生宕機不能及時被發現。
像這種時候想要及時獲知機架式服務器是否宕機,就需要進行機架式服務器宕機實時檢測了。
我們知道,進行全網物理機宕機準確探測與實時發現,可以給宕機分析提供第一現場,獲取第一現場的日志。也可以盡早將宕機數據推送給業務或運營感知并處理,如自動報修,業務遷移等,從而盡可能將業務影響降到最低。
更重要的是,準確的宕機發現數據可以為宕機預測提供準確的標注數據,為后期宕機預測提供數據基礎,并且這些數據提供給運營部門進行整體分析,提升處理效率。
接下來,機架式服務器定制廠家告訴您如何可以準確發現宕機,減少誤報:
網絡干擾排除
宕機分析中,較多誤報是由于網絡問題干擾,無法準確判斷出物理機是否宕機,有可能是網絡問題。
排除上聯網絡設備異常導致的誤報,包括機房斷網演練,小面積網絡故障,上聯網絡故障,如通過探測丟包情況,使用一些邏輯初步判斷網絡問題。
目前,宕機感知是宕機分析的基礎,通過機架式服務器宕機實時檢測,會把相應的宕機原因分布整理出來,明確具體的原因,提高機架式服務器的可靠性。
異常排除
排除非物理機器,將系統中暫時不關注的VM等產生的異常信息排除掉。
排除非業務狀態的機器,如裝機狀態中的,包括生產中,維修中,遷移中,重裝中,銷毀中,重啟中,無管控狀態,只監控正常狀態的機器。
排除非正在工作的機器,如非working狀態機器。
心跳源檢測異常
顧名思義,通過心跳源,初步發現異常。通常心跳變化會有三類消息,update消息,delete消息和insert消息。
心跳邏輯在于,正常情況下SA服務端與NC建立長連接,每數秒緩存一次心跳,每幾分鐘打包上報一次,但當NC異常時,長連接感知后,立即上報異常,并修改路由表。所以心跳異常做到秒級感知。
通過以上的方式可以更好的檢測機架式服務器宕機,避免風險的進一步提升,造成更大的損失。
24小時客戶服務熱線:如果您對以上機架式服務器感興趣或有疑問,請點擊聯系我們網頁右側的在線客服,或致電:0755-23104880,服務器定制廠家——立爾訊,您全程貼心的服務器采購顧問。
文章來源: 服務器定制廠家——立爾訊(www.patantconsult.com),轉載請注明出處。
咨詢熱線:0755-28199376
傳真:0755-28199376
郵箱:sales@learsun.com
地址:深圳市龍華區大浪街道高峰社區創藝路66號億康工業園3樓