在今后的發(fā)展中,數(shù)據(jù)中心也將會成為企業(yè)競爭的資產(chǎn),商業(yè)模式也會因此發(fā)生改變。隨著數(shù)據(jù)中心應(yīng)用的廣泛化,人工智能、網(wǎng)絡(luò)安全等也相繼出現(xiàn),更多的用戶都被帶到了網(wǎng)絡(luò)和手機的應(yīng)用中。隨著計算機和數(shù)據(jù)量的增多,人們也可以通過不斷學(xué)習(xí)積累提升自身的能力,是邁向信息化時代的重要標(biāo)志。
或稱為服務(wù)器場(server farm),指用于安置計算機系統(tǒng)及相關(guān)部件的設(shè)施,例如電信和儲存系統(tǒng)。一般它包含冗余和備用電源,冗余數(shù)據(jù)通信連接,環(huán)境控制和安全設(shè)備。
歷史
數(shù)據(jù)中心在早期巨大房間內(nèi)的計算產(chǎn)業(yè)中是有根源的。早期的計算機系統(tǒng)操作和維護都復(fù)雜,需要一個特殊的環(huán)境來操作。連接所有的組件需要很多電纜,進而產(chǎn)生了供應(yīng)和組織的方法,例如標(biāo)準(zhǔn)支架來安放設(shè)備,提高的地板,以及電纜盤子(被安裝在頭頂上或升高的地板下)。同樣,舊的計算機需要大量的電源,不得不被冷卻以防止過熱。安全非常重要-計算機非常的貴,并且常常被用于軍事目的??刂朴嬎銠C房間訪問權(quán)限的基本設(shè)計方針因此被設(shè)計。
在繁榮的微型計算機行業(yè),尤其是在20世紀(jì)80年代,計算機開始四處發(fā)展,在很多案例中很少有或沒有操作需求。然而,隨著信息技術(shù)(IT)的發(fā)展,操作開始變得復(fù)雜,公司漸漸地認識到需要控制IT資源。隨著客戶端-服務(wù)器計算的出現(xiàn),在20世紀(jì)90年代微型機(被稱為servers)開始在舊計算機房間中尋找他們的位置。便宜的網(wǎng)絡(luò)設(shè)備的可用性,外加網(wǎng)絡(luò)電纜的新標(biāo)準(zhǔn),使得在公司內(nèi)的一個房間中,使用分層設(shè)計來放置服務(wù)器這種可能,在這個時刻被公認,并不斷流行開來。
數(shù)據(jù)中心的繁榮在dot-com泡沫中來臨了。公司需要快速的Internet連接,以及不斷的部署系統(tǒng)并出現(xiàn)在Internet上。安裝這種設(shè)備對于許多小公司是不可行的。許多公司開始建立非常大的設(shè)備,被稱為Internet數(shù)據(jù)中心(IDCs),它提供了商業(yè)上的系統(tǒng)部署和操作的解決方案。新技術(shù)和實踐被設(shè)計用來處理測量和如此巨大測量操作的操作需求。
從2007年起,數(shù)據(jù)中心設(shè)計、構(gòu)建和運作是一個眾所周知的學(xué)科。標(biāo)準(zhǔn)文檔來自于可信任的專家組,如電訊產(chǎn)業(yè)聯(lián)合會,詳細說明數(shù)據(jù)中心設(shè)計的需求。眾所周知數(shù)據(jù)中心可用性的操作韻律學(xué)能夠用來評估商業(yè)中斷的影響。有許多開發(fā)在操作實踐中被完成,并且設(shè)計了友好環(huán)境的數(shù)據(jù)中心。
現(xiàn)代數(shù)據(jù)中心的需求
IT業(yè)務(wù)是大部份組織的業(yè)務(wù)中最關(guān)鍵的一個方面。主要的一個關(guān)注點是商業(yè)連續(xù)性;公司依靠他們的信息系統(tǒng)來運作他們的業(yè)務(wù)。如果一個系統(tǒng)變的不可用,公司運作可能被削弱或被完全停止。針對IT業(yè)務(wù)保證一個可靠的基礎(chǔ)構(gòu)造組織,將破壞的可能減到最小,是很必要的。信息安全也是一個關(guān)注點,為了這個原因,一個數(shù)據(jù)中心不得不提供安全的環(huán)境以保證最小化一個安全突破口的可能性。一個數(shù)據(jù)中心為了它的主機環(huán)境的完整性和功能性,必須因此保持高標(biāo)準(zhǔn)。這個通過雙份冗余的光纖光學(xué)電纜和包含應(yīng)急備份發(fā)電電源被完成。
數(shù)據(jù)中心分類
TIA-942:Data Center Standards Overview描述了數(shù)據(jù)中心基礎(chǔ)架構(gòu)的需求。最簡易的是Tier1數(shù)據(jù)中心,他基本上是個計算機房間,有基本的計算機系統(tǒng)安裝指引。大部份迫切需求的是Tier4數(shù)據(jù)中心,被設(shè)計為主機的任務(wù)評價在于計算機系統(tǒng),這種系統(tǒng)要完全的冗余并且要被劃分安全區(qū)域,這個安全區(qū)域要由生物學(xué)測量來控制訪問。另一個考慮是數(shù)據(jù)中心地下內(nèi)容的布置,為了數(shù)據(jù)安全也為了環(huán)境考慮,例如冷卻需求。
物理布局
一個數(shù)據(jù)中心占用一幢大樓的一個房間,一層或多層,甚至整棟大樓。大部份的設(shè)備常常放在具有19英寸的隔層的機架中。這些機架成排放置,形成一個走廊。這允許人們從前面或后面訪問隔層。服務(wù)器從1U的服務(wù)器到獨立筒倉的存儲設(shè)備在尺寸上有很大的不同,存儲設(shè)備要占掉很多塊地磚。一些設(shè)備,像大型計算機和存儲設(shè)備常常像他們的機架那么大,并被放在他們的旁邊。非常大的數(shù)據(jù)中心可以使用集裝箱來放置,每個集裝箱可以放置1000或者更多的服務(wù)器;當(dāng)有維修或升級需要的時候,整個集裝箱會被替換而不是維修單個的服務(wù)器。 本地編譯的代碼可以控制最小的上升限度。
數(shù)據(jù)中心的物理環(huán)境是嚴(yán)格受控的:
空調(diào)控制數(shù)據(jù)中心的溫度和濕度。ASHRAE"s “數(shù)據(jù)處理環(huán)境的熱量指導(dǎo)” 建議溫度在20-25 °C(68-75 °F) 并且濕度在40-55%,以數(shù)據(jù)中心最佳條件17 °C作為最大露點。電源會加熱數(shù)據(jù)中心里的空氣。除非熱量被移走,否則溫度會持續(xù)上升,導(dǎo)致電源設(shè)備故障。通過控制空氣溫度,服務(wù)器組件在擱板層保持著制造商說明的溫度/濕度范圍??照{(diào)系統(tǒng)通過冷卻來回的在露點以下的空間空氣,幫助控制濕度。太濕的話,水開始在內(nèi)部組件上濃縮。假使空氣干燥,輔助潮濕系統(tǒng)會增加水蒸氣,如果濕度太低,將導(dǎo)致靜電放電問題,那將損壞組件。地下的數(shù)據(jù)中心比起常規(guī)的設(shè)計,能夠花費更少而保持計算機設(shè)備冷卻。
現(xiàn)代數(shù)據(jù)中心試圖使用節(jié)約裝置冷卻,在那里他們使用外界空氣來保證數(shù)據(jù)中心冷卻。華盛頓州現(xiàn)在有幾個的數(shù)據(jù)中心,一年11個月使用外部空氣冷卻所有的服務(wù)器。他們沒有使用冷卻機或空調(diào),他們創(chuàng)造了勢能節(jié)省了數(shù)百萬。
備份電源由一個或多個不間斷電供應(yīng)和、或者柴油機組成。
為了防止單點故障,所有的電系統(tǒng)元素,包括備份系統(tǒng),都典型的完全復(fù)制,并且關(guān)鍵服務(wù)器連接兩個電源(“A-Side" and "B-Side")區(qū)域。這種安排常常用于完成系統(tǒng)的N+1冗余。靜態(tài)電閘有時被用于在電源故障事件中保證瞬時轉(zhuǎn)換一個到另一個。
數(shù)據(jù)中心典型地使用升高60cm(2 ft)的地面,可移動的方塊磚?,F(xiàn)在的趨勢是80-100cm(31.5-39.4in),空閑區(qū)域的增加是為了更好的保證空氣流通。這種供應(yīng)是為了空氣在地下充分流通,作為條件系統(tǒng)的一部分,也是為電力電纜提供空間。在現(xiàn)代數(shù)據(jù)中心中數(shù)據(jù)電纜典型是使用架空電纜。但是,有些出于安全原因還是將他們置與地板下,并且有必要增加在架子上的冷卻系統(tǒng)。更小/更少花費的數(shù)據(jù)中心沒有升高地面而是使用相反的靜態(tài)地磚在地面上。機算計電纜常常放置在走廊中,以保證最大化的氣流效率。
數(shù)據(jù)中心的一個特征是防火系統(tǒng),包含被動的和主動的設(shè)計元素,以及在業(yè)務(wù)中防火程序的執(zhí)行。煙檢測器都會被安裝,它可以在有火焰之前檢測到燜燒產(chǎn)生的煙的源點,而發(fā)出警報。這允許調(diào)查,中斷電源,并使得能夠在火災(zāi)變大之前,讓人使用滅火器滅火。一個自動噴水滅火系統(tǒng)常常被用來控制火勢發(fā)展為大范圍的火災(zāi)。自動噴水滅火系統(tǒng)要求在噴水滅火器下的清除的18”。和噴水滅火系統(tǒng)相比,清除事件滅火氣體系統(tǒng)有時被安裝用于早期火災(zāi)。被動的消防保護元素包括在數(shù)據(jù)中心周圍的防火墻,所以大火能夠在大火保護系統(tǒng)失敗或沒有安裝的情況下較容易地控制在一定的范圍內(nèi)。
物理安全在數(shù)據(jù)中心里也表演了一個大角色。物理的訪問地點常常限制于被選擇的人員,包含安全控制系統(tǒng)。視頻監(jiān)視和永久安全警報常常用于大數(shù)據(jù)中心或者包含機密信息的數(shù)據(jù)中心。
流動數(shù)據(jù)中心
現(xiàn)時網(wǎng)上商貿(mào)、搜尋、云端運算公司需要快速部署數(shù)據(jù)中心,又或災(zāi)難恢復(fù)運用,因此廠商開發(fā)了流動數(shù)據(jù)中心(Portable Data Center)解決方案,能夠快速搬運數(shù)據(jù)中心并在短時間內(nèi)安裝操作。
生產(chǎn)流動數(shù)據(jù)中心的廠商和產(chǎn)品包括:Google的 Google Modular Data Center 、升陽計算機的 Sun Modular Datacenter 、 IBM的 Portable Modular Data Center 、思科系統(tǒng)的 Containerized Data Center、HP的 Performance Optimized Datacenter和北京天地云箱科技的云箱。
應(yīng)用
一個數(shù)據(jù)中心的主要目的是運行應(yīng)用來處理商業(yè)和運作的組織的數(shù)據(jù)。這樣的系統(tǒng)屬于并由組織內(nèi)部開發(fā),或者從企業(yè)軟件供應(yīng)商那里買。像通用應(yīng)用有ERP和CRM系統(tǒng)。
一個數(shù)據(jù)中心也許只關(guān)注于操作體系結(jié)構(gòu),或者也提供其他的服務(wù)。常常這些應(yīng)用由多個主機構(gòu)成,每個主機運行一個單一的構(gòu)件。通常這種構(gòu)件是數(shù)據(jù)庫,文件服務(wù)器,應(yīng)用服務(wù)器,中間件以及其他的各種各樣的東西。
數(shù)據(jù)中心也常常用于非工作站點的備份。公司也許預(yù)定被數(shù)據(jù)中心提供的服務(wù)。這常常聯(lián)合備份磁帶使用。備份能夠?qū)⒎?wù)器本地的東西放在磁帶上,然而,磁帶存放場所也易受火災(zāi)和洪水的安全威脅。較大的公司也許發(fā)送他們的備份到非工作場所。這個通過回投而能夠被數(shù)據(jù)中心完成。加密的備份能夠通過Internet發(fā)送到另一個數(shù)據(jù)中心,安全保存起來。
常見故障
數(shù)據(jù)中心網(wǎng)絡(luò)常見的通訊故障主要集中在:硬件故障、系統(tǒng)故障兩個類別:
?。?)硬件故障:
數(shù)據(jù)中心是通過無數(shù)計算機硬件組成的,硬件出現(xiàn)問題,就會導(dǎo)致部分功能無法正常發(fā)揮或運作。無論是設(shè)備、線路、端口,哪一點出現(xiàn)故障,都會導(dǎo)致網(wǎng)絡(luò)通訊故障的出現(xiàn)。硬件方面的故障相對比較容易查找,例如線路故障,一般的成因就是線路明顯的老化或者破損,而影響到了整體網(wǎng)絡(luò)的運營;再比如,端口故障,計算機端口作為數(shù)據(jù)中心網(wǎng)絡(luò)的重要環(huán)節(jié),若出現(xiàn)接觸不良、損壞等傳輸問題,就會影響到整體網(wǎng)絡(luò)的運行。硬件故障只要進行逐一排查,就可以及時進行更換處理,相對比較好解決。
?。?)系統(tǒng)故障:
數(shù)據(jù)中心是計算機領(lǐng)域比較熱門的研究之一,因此研究技術(shù)十分成熟。計算機網(wǎng)絡(luò)構(gòu)成主要包括TREE、FAT-TREE、BCUBE、FICONN等,主要采用模塊化、層次化、扁平化的設(shè)計思路與虛擬化的分割管理技術(shù),將成千上萬臺設(shè)備,以單元為單位進行劃分,逐一進行管理。通過分層、遞歸的結(jié)構(gòu)進行聯(lián)結(jié),盡可能的避免了所謂“關(guān)鍵節(jié)點”的存在。這樣組合也形成了良好的冗余與容錯性,如果其中出現(xiàn)故障的某一個或某幾個單元,沒有被檢測出來,也不至于影響數(shù)據(jù)中心的整體運行。但是如果超出一定比例,就會在影響數(shù)據(jù)中心網(wǎng)絡(luò)的高速運行,拉慢網(wǎng)絡(luò)通訊的速度,所以仍舊需要針對性的查找故障進行處理。
故障處理
?。?)分析故障現(xiàn)象:
一般來說由于構(gòu)成組件比較復(fù)雜,故障也呈現(xiàn)出不同的表現(xiàn)方式。因此想要對于故障進行分析,就要先了解故障的現(xiàn)象。例如,應(yīng)用方面出現(xiàn)了支付系統(tǒng)支付不了,網(wǎng)頁難以打開等問題,那么就要逐一檢查相關(guān)的故障點,有哪幾個故障是上述表現(xiàn),如,線路故障,端口故障等,就要更換線路、端口等設(shè)備。因此,需要針對數(shù)據(jù)中心網(wǎng)絡(luò)的幾種常見的故障進行收集與整理,根據(jù)現(xiàn)象,進行檢索、查找。
?。?)測試并確認故障范圍,進行故障點定位。
所有的應(yīng)用業(yè)務(wù)是在這些物理硬件正常運行的基礎(chǔ)上開展的,其中某些硬件出現(xiàn)問題就會導(dǎo)致故障。根據(jù)故障的表現(xiàn),需要針對各個部分進行篩選檢查,例如,對于服務(wù)器進行測試,檢查網(wǎng)絡(luò)設(shè)備等。針對問題表現(xiàn),進行逐一排除,最終敲定故障點所在位置。
?。?)如果以上硬件故障都已經(jīng)排除,那么就是計算機系統(tǒng)的故障,這一故障需要建立故障模型進行診斷,根據(jù)PMC模型進行定義。通過分層測試的方法,查找問題單元,即正常單元測試正常單元、正常單元測試故障單元、故障單元測試故障單元、故障單元測試正常單元等四種。其中后三種的檢測結(jié)果都是故障,因此就可以通過分層測量的方式,建立有限個單元,通過矩陣以及螢火蟲算法重點FAFD算法對于其他單元進行診斷,最終確定故障的系統(tǒng)是哪個或者哪幾個單元的。當(dāng)然也可以通過鏡像、流量統(tǒng)計、抓包等其他手段確定故障所在的設(shè)備范圍,進而縮小范圍,集中處理某一個或者幾個設(shè)備。
(4)收集重要的數(shù)據(jù)信息。
在進行故障處理時,通過收集設(shè)備的日志、診斷、操作記錄等信息資料,將這些數(shù)據(jù)資料進行匯總,條件允許的情況下,建立故障數(shù)據(jù)庫,對于常見問題可以做到“出現(xiàn)即處理”,對于沒有出現(xiàn)過的故障,可以繼續(xù)收集進數(shù)據(jù)庫??傊?,必要的信息收集,有利于日后更好的查找故障原因,確保數(shù)據(jù)中心網(wǎng)絡(luò)健康、平穩(wěn)運行。
內(nèi)容來自百科網(wǎng)