運維體系是規範運維管理的基本保障,也是流程建立的基礎。運維機構相關人員采用先進的運維管理平臺,按照系統要求和標準化流程,對各種運維對象進行標準化的運行管理和技術操作。
IT故障定位是指對故障的直接原因或根本原因的診斷,故障定位有助於故障恢復行動更加有效。故障定位通常是整個故障過程中最耗時的環節。定位的目標是快速恢復,而不是尋找問題的根源,這是問題管理的職責。通常情況下,大部分可用性故障都是通過運維專家經驗的假設性判斷或已知方案的實施來解決的,但有些故障,尤其是性能、使用邏輯和數據故障,需要多方合作和工具支持。
在數據中心,很多技術運維人員往往具有發現已知故障的敏銳能力,能夠根據自己的故障迅速找到問題的根源。更有經驗的專家可以通過系統內部的原理,從壹些常見的故障現象中猜出壹個現象背後可能的原因。根據故障的癥狀判斷可能的診斷路徑,是壹個運維技術專家必備的能力,往往是通過大量的運維案例積累而成的。這也是專家不同於普通運維人員的地方。準確的數據收集實際上依賴於運維知識。
比如我們要做故障分析,需要CPU資源,那麽如何收集數據呢?求某段時間內CPU利用率的平均值或最高閾值?CPU利用率100%有問題嗎?沒那麽簡單。其實CPU的突然峰值大多是無害的,可能不會對我們的系統造成不好的影響。只有當長期CPU利用率接近較高水平時,CPU才有可能出現資源不足的瓶頸,從而影響系統的性能。
壹、運行維護原則
IT系統在運行過程中不可避免地會出現問題或故障。故障排除的原則可以總結為兩條:
所有措施或方法都優先考慮業務的快速恢復。
bug或匹配需要及時升級優化。
1.1.恢復營業刻不容緩。
業務恢復優先級是指無論在任何情況下發生什麽級別的故障,都應該首先恢復業務。這與故障定位不同。很多人會產生歧義,認為沒有找到問題的根源。業務怎麽恢復?這裏有壹個簡單的例子:
如果A、B系統調試最終失敗,如何發現問題並解決?
(1)從使用a的服務器Ping使用B的網絡,如果端口連接到網絡,直接綁定服務器B的主機。
(2)排查問題,找出A和B之間會通過哪些鏈路,找出有問題的鏈路,包括跨服務器區域和跨網段。如果HA連接異常,請重新啟動或擴展並恢復。
通常,第壹種方法需要很短的時間。如果A和B之間存在跨機房訪問,第壹種方法將需要更長的時間來檢查。雖然破壞了A和B之間的結構平衡,但是可以立即生效,也就是我們所說的業務優先恢復。
1.2.及時升級
這個很好理解。任何故障發生時,任何人都只能對故障的影響做出簡單的預測,所以需要及時升級到妳的領導,讓他掌握第壹手信息,協調資源。
4.大型制造商的安全升級包或設備或升級系統;
二、運維模式
根據運維工作要求和運維響應時間,決定構建完整的運維方案,確定服務標準。現場軟硬件檢查是提高運維計劃執行力的主要途徑。壹般來說,數據中心的操作和維護工作流程如下:
(1)構建完整的運維計劃:在整個運維過程中,計劃是整個工作流程的核心。按照計劃先行的原則,根據今年的工作計劃制定分項工作計劃和時間維度計劃,並按照流程和計劃實施和保障。
(2)現場檢查的重要性:現場檢查計劃是運維工作計劃的重點。通過現場檢查,可以找出系統的薄弱環節、關鍵業務節點和隱患,特別是制定應急預案和備件計劃非常重要。
(3)執行力的重要性:運維計劃的實施是運維工作的重點。運維計劃實施過程中,應嚴格按照流程規範進行運維,並註意控制以降低運維風險。對於運維的實施,要定期給用戶反饋。
(4)運維服務標準:簽訂售後服務承諾書,與客戶約定服務水平。承諾的服務水平,包括提供的資源(備件等。).)且所提供的方案應嚴格按照協議執行。
三個。運維處理方法
第壹,ITIL,尤其是ITIL 4,是新時代國際IT服務標準的最新版本,對於敏感的IT來說也是壹個全新的版本。它包括ITIL V3的功能,並增加了對DevOps的支持。
其次是敏感的IT運維方法論SRE(Site Reliability Engineering),即互聯網和公有雲的運維服務方法論;
第三,基礎設施即代碼集成了基礎設施自動化流程、運營和維護以及全球最佳實踐和案例。
第四,加強運營與開發的銜接,整合IT服務管理的組織、文化和流程。
程和德沃普斯結合了。
運維服務包括與信息系統和其他信息系統相關的網絡設備、安全設備、機房基礎設施、主機設備、操作系統、數據庫和存儲設備,以保證用戶現有信息系統的正常運行,降低整體管理成本,提高網絡信息系統的整體服務水平。同時,根據日常維護數據和記錄,提供用戶信息系統的整體建設規劃和建議,更好地為用戶的信息化發展提供有力保障。
用戶信息系統的構成主要可以分為硬件設備和軟件系統兩大類。硬件設備包括網絡設備、安全設備、主機設備、存儲設備等。軟件設備可分為操作系統軟件、典型使用軟件(如數據庫軟件、中間件軟件等。),商務用軟件等。
故障處理壹般分為三個階段:故障前、故障中、故障後。故障前指的是故障定位分析,故障期間指的是故障處理過程,故障後指的是故障總結,這很重要。
(壹)從故障服務的角度,提出處理故障的運維方法。
從故障服務的角度來看,運維恢復業務最重要的三種方法是:隔離、重啟、降級。
(1)隔離
隔離是指將故障對象從集群中分離出來的過程,目的是使故障對象不再提供服務。隔離方法包括以下兩種,按常見頻率排列:
將上遊重量調整為零。如果架構中有自檢測機制,也可以直接停止故障對象的服務,這樣上遊健康檢測是有效的。
通過綁定主機或配置路由,可以繞過故障對象。例如,智能路由管理域關閉壹條線路。這裏需要註意的是防止雪崩效應。
(2)重啟
重啟包括服務重啟和服務器重啟(os重啟)。壹旦出現故障,其中涉及的任何壹個環節都可以重啟完成。重啟的壹般順序是:故障對象>;故障對象上遊>:故障對象下遊,壹般離故障對象越遠,重啟順序越晚。
(3)降級
降級指的是為防止更大的失敗而采取的計劃。壹般來說,降級壹定不是目前用戶的最優狀態。即使沒有技術影響,也或多或少會帶來壹些業務影響。雖然用戶可以通過其他方式暫時回復壹些業務,但是會帶來不好的用戶體驗和壹些用戶影響。
降級不僅僅是運維的問題,更是聯合業務研發或者推動業務研發的問題。所以做任何項目,首要考慮的不是項目能達到多大的業績,而是出了問題應該考慮什麽?
項目如此,核心用途和組件也是如此。作為使用的負責人,必須考慮的是,如果這個對象出現重大故障,是否有使用的預案,而這些預案的觸發條件要由執行人來明確。
降級,從某種角度來說,是運維最後的救命手段,必須重視。
以上操作方法,尤其是重啟和隔離,有壹個重要的前提,就是對象必須是無狀態的,如果需要開發重試,要求必須是冪等的。無狀態對象是不允許的,除非它們是非常特殊的業務,可以臨時存在,所以生產中的對象應該只有三種狀態:
(二)從故障受影響方看運維故障處理方法。
首先,在故障處理過程中,妳會遇到各種內部或外部的組織結構參與系統故障。壹般要求以下三類人同時處理故障:
信息傳遞者:他們的職責是傳遞故障處理和故障定位的有效信息,同時對外傳遞故障進展信息;
故障定位器:他們的職責是當故障處理程序的方法失敗或者需要找到問題的根本原因時,解決故障;
故障處理人員:他們的職責是盡快恢復業務。
對於IT運維系統來說,這三類人往往不會同時出現。比如淩晨值班時,只需要故障處理員來處理。業務恢復後,故障定位人員會在第二天找到根本原因和優化措施。
此外,在故障發生後,受影響的當事人將分為兩類:
(1)內部用戶
內部用戶包括內部使用自己的調用和內部用戶查找問題,類似於外部用戶。
(2)外部用戶
和外部用戶打交道會比較麻煩。思路就是如何把外部用戶變成內部用戶。比如供應商打不開公司網站,有兩個方面要做:
如果以上兩個方面都不行,那就比較麻煩了。這時候就需要在處理之前收集壹些必要的外部用戶信息,比如導出IP,使用的客戶端版本等。這裏建議將信息收集在壹個模板中,壹次性完成,因為外部用戶處理時間往往花費在溝通成本上。
更多相關大咖視頻課程,請在蘋果應用商店或各安卓市場下載“吉福小咖App”。
相關問題和答案: