使用、功能與設(shè)置選項(xiàng)不斷演變,所以數(shù)據(jù)中心硬件經(jīng)理需要知曉當(dāng)今服務(wù)器內(nèi)存的類型以及它們?nèi)绾斡绊懹嬎恪?/p>
保障服務(wù)器可靠性
內(nèi)存存儲著每個虛擬機(jī)的鏡像與數(shù)據(jù),所以內(nèi)存的可靠性對企業(yè)服務(wù)器來說尤其重要。如果內(nèi)存故障,很可能導(dǎo)致該內(nèi)存中虛擬機(jī)奔潰,造成數(shù)據(jù)丟失或更嚴(yán)重的服務(wù)器故障。不同類型服務(wù)器內(nèi)存可以在緩解內(nèi)存故障上起到不同效果。
錯誤校正碼(ECC)是一種已知技術(shù),用于定位與校正內(nèi)存內(nèi)容中的錯誤。ECC采用某種算法來存儲內(nèi)存中一定量的數(shù)據(jù),如單64位內(nèi)存地址,接著為數(shù)據(jù)計算一個代碼,將代碼放入某個保留內(nèi)存空間。當(dāng)服務(wù)器讀取內(nèi)存內(nèi)容,并計算出一個ECC,再將其與內(nèi)存中的ECC相比較。如果兩者匹配,則被認(rèn)為是有效。如果不匹配,則ECC算法會檢測那個比特是錯誤的并修改之。ECC檢測不能修復(fù)雙位錯誤。
高級ECC通過分配多個獨(dú)立的ECC設(shè)備,而不是單個進(jìn)行內(nèi)存讀取,擴(kuò)展了ECC機(jī)制。高級ECC可以糾正單位與雙位錯誤并檢測內(nèi)存設(shè)備故障。
單設(shè)備錯誤校正(SDDC)采用混合ECC結(jié)構(gòu)檢測并修正多位錯誤,最多支持4比特;該技術(shù)同樣能夠確認(rèn)并關(guān)閉雙列直插存儲器模塊(DIMM)上失效的內(nèi)存芯片 。SDDC可以從服務(wù)器內(nèi)存映射中移除失效芯片或整個內(nèi)存模塊,讓服務(wù)器通過備用模塊恢復(fù)內(nèi)存內(nèi)容。高端服務(wù)器制造商采用交易標(biāo)簽來識別、關(guān)閉與恢復(fù)內(nèi)存故障管理,如IBM的Chipkill,Hewlett Packard Enterprise的Advanced ECC與Chipspare,還有基于Intel的鎖步內(nèi)存。
某些服務(wù)器內(nèi)存類型會犧牲性能來保護(hù)內(nèi)存完整性。配置為高可靠性的服務(wù)器,會試圖對一些相關(guān)聯(lián)的故障進(jìn)行處理,如總線頻率(速度)、溫度、電壓水平和內(nèi)存刷新率等。服務(wù)器會降低頻率與電壓,從而降低內(nèi)存組件的壓力,熱損耗和故障率。
如果你正計劃更新數(shù)據(jù)中心服務(wù)器,會發(fā)現(xiàn)有更多的服務(wù)器內(nèi)存選項(xiàng)可用,現(xiàn)在的內(nèi)存模塊使用串行存在檢測(SPD)空間,來記錄每個模塊可校正的內(nèi)存錯誤數(shù)量與位置。SPD跟蹤錯誤率并尋找可能出現(xiàn)可修正錯誤急劇增加的模塊。技術(shù)人員可以據(jù)此先發(fā)制人,如內(nèi)存熱備或?qū)⒐ぷ髫?fù)載遷移至其他服務(wù)器,然后更換有問題的DIMM。相似的技術(shù),如內(nèi)存頁退役,跟蹤可恢復(fù)的內(nèi)存錯誤到內(nèi)存頁或區(qū)域。一旦發(fā)現(xiàn)可校正錯誤變得過大,系統(tǒng)會將受災(zāi)頁面退休并禁止使用,直到問題內(nèi)存模塊被更換。
服務(wù)器內(nèi)存在性能中的角色
數(shù)據(jù)中心硬件采購者為了獲取最佳內(nèi)存與系統(tǒng)性能,應(yīng)該為每個DIMM通道購買相同區(qū)塊、容量和速度的內(nèi)存。如果DIMM容量不同時,需要確保所有DIMM兼容相同的區(qū)塊與速度,而且所有通道都采用相同大小的組合。每個可用通道都應(yīng)該在相同位置安裝邏輯唯一的DIMM。
要理解服務(wù)器級的內(nèi)存配置,最好是理解內(nèi)存的幾何形狀與特征。區(qū)塊通常是與DIMM的內(nèi)存芯片組織方式與如何實(shí)現(xiàn)硬件層交互有關(guān)。例如,一塊擁有8個8位芯片的DIMM,擁有一個區(qū)塊,而一塊在雙面都擁有8個芯片的DIMM則擁有兩個區(qū)塊。
內(nèi)存模塊容量直接與構(gòu)成模塊的內(nèi)存芯片有關(guān)。容量通常被以芯片深度x芯片寬度x區(qū)塊數(shù)方式進(jìn)行標(biāo)注。例如,擁有4個區(qū)塊的128Mbit x 16位芯片,具有的總內(nèi)存容量為128 x 16 x 4 = 8,192 Mbits或1GB內(nèi)存容量。DIMM被組織到通道中,并通過服務(wù)器內(nèi)存管理器管理。
DIMM同樣可以通過速度來分類:總線連接內(nèi)存與處理器的時鐘率。安裝了DDR4 DIMM的最新企業(yè)級服務(wù)器創(chuàng)下了每秒1866 - 2133百萬次數(shù)據(jù)傳輸(MT/s)的記錄,與此同時采用較舊的DDR3 DIMM內(nèi)存的服務(wù)器最高只能達(dá)到1600MT/s或1333MT/s。
服務(wù)器處理器必須支持所需的內(nèi)存頻率。舊的或更廉價的服務(wù)器內(nèi)存類型可能限制了內(nèi)存以較低的頻率運(yùn)行,影響性能。
并不是越多越好
增加服務(wù)器內(nèi)存容量可以簡單增加更多的DIMM,但過多的DIMM可能會降低頻率進(jìn)而影響性能。例如,裝有兩個DIMM的服務(wù)器,速度可達(dá)2133MT/s,但如果再增加一根,速度會降低為1866MT/s。建議采用較少的DIMM,而使用更大容量的內(nèi)存。低負(fù)載DIMM能夠提供最大的容量與性能。
如果服務(wù)器支持,就選擇彈性內(nèi)存取代高級ECC。高級ECC會捆綁多個內(nèi)存通道主機(jī)控制器來支持SDDC大數(shù)據(jù)帶寬(x8)內(nèi)存芯片。某些情況下,一些通道可能無法使用,而且無法被填充。多內(nèi)存控制器之間交互也同樣會阻礙內(nèi)存性能。諸如Dell PowerEdge R710提供了另一種優(yōu)化模式,以支持獨(dú)立運(yùn)行所有內(nèi)存通道和內(nèi)存控制器,但這樣可能會限制內(nèi)存集合不大于x4。
為提升數(shù)據(jù)中心技術(shù)并支持更多并發(fā)虛擬機(jī),服務(wù)器買家需要理解這些方法以提高內(nèi)存設(shè)備性能。
ot articles