小狀況先處理,免除大災難
整體事件因為此Storage組態為Raid6無Spare,且該故障硬碟只是磁區異常並非整顆死去,且客戶有裝SMTP伺服器,可遠端透過e-mail通知機器故障,因此機器在異常時有發出異常資訊,故此次故障並無造成資料損失或即時停機。
日期:111/08/20 工程師:Dash
小狀況先處理,免除大災難
於8/16上午時接獲報修,客戶為某社會福利基金會,此次維修任務為用戶在遠端接收到機器異常的通知信件,我們去進行故障排除。機型為ESDS-3012R加裝一台JB-2012R擴展櫃,從遠端接收到異常的通知信件,顯示設置在中華電信的IDC機房的某個邏輯磁碟發生磁區異常,當日上午即連繫客戶工程師導出core dump以供故障診斷,和原廠討論後決定策略並通知客戶工程師需執行硬碟抽換,於8/18下午一點前往設備放置處的5F機房,到場和工程師說明故障情形並做硬體抽換的動作後,請對方協助查看新硬碟Rebuild情形,確認重組狀態和進度正常後即可換證離開,同時也提供操作示範圖以分享如何導出core dump給用戶工程師,倘若下次再有報修情況便可縮短提供資料和診斷的時間。
*core dump,譯做磁芯傾印,系統程序因故中止執行時,將當下環境參數紀錄匯出成檔,即為core dump,用於除錯
整體事件令我印象深刻的是客戶機房環境為中華電信的IDC網路數據中心,故出入管理更為嚴謹,要進入機房必須先和一樓門衛壓證,並填寫一張包含機房管理人、合作單位等資訊的小綠單,上樓後於機房門口的系統PAD做電子申請,和機房管理人員再壓一張證件和剛剛的小綠單、領取置物櫃鑰匙,最後由機房管理人員生物辨識後才得以進入其中一個機房,並在維護完畢後須按壓玻璃防護門的通話鈴請管理協助開門,才能把今天壓駐的所有證件鑰匙和單據全數收回後才可以離開,缺一不可。
心得感想:
整體事件因為此Storage組態為Raid6無Spare,且該故障硬碟只是磁區異常並非整顆死去,且客戶有裝SMTP伺服器,可遠端透過e-mail通知機器故障,因此機器在異常時有發出異常資訊,故此次故障並無造成資料損失或即時停機。