如何做好大型數據中心的運維
作者:晨光  來源:網絡  發表時間:2016-1-29  點擊:1485

       什么叫數據中心?維基百科給出的定義是“數據中心是一整套復雜的設施。它不僅僅包括計算機系統和其它與之配套的設備(例如通信和存儲系統),還包含冗余的 數據通信連接、環境控制設備、監控設備以及各種安全裝置”。在云大行其道的今天,隨著數據中心建設規模的不斷擴大,新技術的層出不窮,數據中心變得越來越 復雜。大型數據中心往往是由很多規模龐大的集群系統組成,其運維工作需要具備方方面面的知識,包括硬件、網絡、服務器、存儲、安全以及業務上的東西,需要 上下打通地去做運維工作。

      當一個數據中心的規模非常大,面臨的挑戰和問題也比較超前,很多在小環境小體系下不是問題的問題在這樣的規模下也就凸顯出來了,所以要做好大型數據中心的 運維工作,對整個數據中心技術體系的系統學習就要花費比較長的時間,只有對這個數據中心整體非常了解,才能有針對性地制定一些運維方案,甚至可以二次開發 一些監控運維軟件,對整個數據中心進行有效管理與監控,提升整個數據中心的運行效率、減少故障的發生,從而將運維工作推向新的高度。一個大型的數據中心內 部往往都包含了很多小系統,運維工作都是圍繞著這些具體的應用系統展開的,具體的可以分為基礎運維管理、日常業務運維、網絡、服務器、存儲、安全六大部 分,本文就來說一說一般大型的數據中心應該具備的哪些運維方法和能力。

       首先從數據中心的基礎運維管理方面來說,則主要有硬件配置管理、可維護性優化、監控、報警處理、自動化運維、斷網,斷電、機房容災等運維工作。硬件配置管 理包含機柜里每臺服務器的型號和硬件配置,并清楚是哪些業務系統在使用這些服務器。即便是虛擬化運行環境,也需要知道這些虛機都在哪些物理機組成的資源池 中流動。數據中心物理機和虛機數量都很龐大,使用自動化運維是非常有必要的。自動化運維不僅能提升運維的工作效率,還可以減少人為的參與,同時讓數據中心 自己管理自己,釋放人力。并對數據中心可能發生的故障還做好監控與報警處理,以便能夠在故障發生的第一時間知曉問題,往往一次大的故障都是從開始的一點小 故障逐漸擴展最終引發整個大系統的崩潰的,所以在出現一些小的異常時一定要及時消除,而這些異常就要靠完善的監控和報警系統來檢測。

       從數據中心的日常業務運維方面考慮,則主要有資源、機器分配、資源使用、網絡吞吐、故障恢復、備份應用,集群搭建、流量,壓力,遷移擴容,升級、上下級業 務關聯情況、資源利用率、異常處理、應急預案等等。這些日常運維工作實際上要花費大量的人力和時間,是運維工作的主體,也最煩瑣,但卻最不能體現業績的部 分。一個數據中心能夠長久安全穩定運行,就是靠這些日常的工作積累,只有平時注意這些細微的變化,才能不斷優化。壓力測試、軟件升級、業務部署、異常處理 等幾乎成為了運維工作的日常必修課,只有將這些工作做好,才能避免出現大的故障,并能夠快速部署新的業務,根據資源使用情況及時擴容設備。

       從數據中心網絡方面考慮,則主要有網絡硬件設備、ACL、OSPF、LACP、VIP、流量、負載均衡、二三四七層情況、網絡監控、萬兆板卡、核心交換 等。網絡是數據中心的重要組成部分,是一切工作運行的基本保證,沒有網絡數據中心就無法運轉起來,所以保證網絡穩定是數據中心運維工作中的重中之重。這里 主要關注的就是網絡的硬件問題,ACL部署還有流量監控情況。網絡可以說是包羅萬象,涉及太多的設備和協議技術,所以也需要不斷地學習,加深對網絡技術 的理解,這樣才能做好網絡運維工作。

掃描二維碼

關注昊云訂閱號

绝地求生刺激战场怎么买皮肤: 服務項目

維保運維服務

AWM[绝地求生]肉 www.morzn.icu

信息系統集成服務

機房搬遷服務

 
 
 
AWM[绝地求生]肉
QQ 在線客服
 
電話:
0531-88818533
客服QQ
2061058957
1905215487