您当前的位置:检测资讯 > 科研开发

服务器可靠性试验方案设计

嘉峪检测网        2021-03-27 09:22

选择好统计试验方案

 

在进行可靠性试验方案设计时,首先要选择统计试验方案,在国军标GJB899A中有:概率比序贯试验方案、定时截尾试验方案、全数试验方案;在国标中GB/T5080中有:序贯试验方案、定时/定数截尾试验方案、综合试验方案。

 

在选择方案号时,要考虑的因素有: 最低可接受值、设计值、置信度、风险率、试验时间、试验经费等,并且从这些因素中平衡。具体来说:

 

(1)设备的成熟程度及预期的寿命;对成熟度高,预期寿命长的产品,通常选择时间短的风险率高的方案;

 

(2)设备的关键与重要程度;这类产品通常选择置信度高的风险率低的试验方案;

 

(3)经费和进度;经费与时间足够时通常选择置信度高的风险率低的试验方案,否则,相反之。

 

当今市场上的服务器,MTBF值一般都说为5000h,但一般不说清楚是规定值(设计值),还是MTBF的下限值。但在军工产品可靠性设计中将其作为最低可接受值看待,在商贸中一般将其看做为设计值,但可靠性试验考核时,通常用m0=50000h设计试验方案。因为是民品,现选择在IEC61124 ED2:2006中的定时/定数截尾试验方案进行试验设计,该方案又有下列具体试验编号,见下表1。

表1 定时/定数截尾试验方案

服务器可靠性试验方案设计

按可靠性试验的要求:试验样品数至少应有两台;对十分昂贵和质量控制严格的受试设备,可允许一台。这里需进行可靠性试验服务器,其可靠性指标定为:m0=50000h,m1=10000  由于价格高,能投入的样本量比较少,但统计试验方案是建立在抽样理论基础上的,为了使试验结果更好代表母体,试验样品数为:3台。

 

由于服务器的m0=50000h,一般都选择方案号B.8 。这里:

 

有效试验时间:T­t*=50000h×1.08= 54000h, 由于样品数为: 3  每台样品的有效试验时间为:18000h,可接受的失效数c=2。

 

加速试验方案

 

在IEC 61124 ED2:2006中规定:为适应高可靠性要求和缩短产品进入市场的时间,所有标准中的试验类型都是可以加速的。

 

任何类型的加速试验都是基于加速损伤模型理论,即产品在其寿命周期内所经历的应力可对其造成渐进的累积损伤。都是通过提高试验应力来产生与产品寿命期内预期应力产生的同样累积损伤。

 

54000h有效台时,即每台18000h的有效试验时间,无论从时间还是经费上,客户都认为不可接受,希望通过加速到一个月内完成试验。对此,对可靠性试验设计,必须引入加速试验方案。

 

民用服务器是全寿命期间在环控条件下固定使用的产品,能加速的参数主要是温度和湿度。因为固定使用时,不会像在运载工具上使用那样,除温度湿度外同时存在振动,所以振动主要发生在运输过程中,而且在包装状态下。

 

01、加速试验公式

 

选用劳森(Lawson)温湿度加速模型进行加速,本研究将温度和湿度之间的“×”修正为“+”号,以提高试验结果的置信度。得出的加速系数为:

 

服务器可靠性试验方案设计

 

式中: 

 

Ea---激活能  1.0 eV ;

 

kb---波尔兹曼常数(8.617385E-5eV/k) ;

 

T1---加速前的温度;

 

RH11---加速前的湿度;

 

T2---加速后的温度;

 

RH2--加速后的湿度;

 

B---常数,本模型取5.557×10-4。

 

02、加速条件

 

①加速条件:

 

加速前的温度:25°C;

 

加速后的温度:35°C;

 

加速前的湿度:60%RH;

 

加速后的湿度:90%RH。

 

②按上述加速模型计算出放入加速系数:43。

 

03、试验时间

 

加速后平均每台的试验时间为:18000h/43=418.605 h。

 

试验剖面

 

01.循环数

 

可靠性试验方案设计时,需足够的试验循环数,因为只有这样,才能确保试验数据统计的准确性。试验循环数可设计成24h的倍数或24h的可约小时数。例如几倍的24h或12h、8h、6h和4h为一个周期。考虑到加速后的每台试验样品的有效台时数为:418.605h,本次对服务器可靠性试验设计成24h为一循环,共21循环。

 

02.环境应力

 

每一循环中:20h为高应力,采用加速后的35°C、90%RH温湿度度综合加速应力,4h为服务器在环控条件下的标准大气环境应力,即未加速前的25°C、60%RH的应力。第21循环为16h采用温湿度度综合加速应力,余下8h为标准大气环境应力。这样正好满足加速前的每台18000h的有效试验时间。

 

03.升降温速率及时间

 

每一循环中的升降温速率为5°C/min,时间时间为2min,包含在高应力的温湿度度综合加速应力中。

 

04.电应力

 

电应力采用:第一循环标称电压220V,第二循环高电压242V,第三循环低电压198V,以此循环下去,直至完成全部21个试验循环。

 

05.功能应力

 

①由于服务器是连续工作的,通常从开机正式投入后,它会不间断地工作,一直到彻底报废。所以本次服务器的可靠性试验在有效试验时间内是连续不间断开机运行,满足可靠性长期稳定工作的要求。

 

②在加电应力过程中,硬件和所有软件同时运行,改变当今许多可靠性试验实际只是硬件的可靠性试验,即仅在给定剖面点上进行性能参数测量,而不运行功能的状态。由此得出的可靠性指标实际基本是硬件的可靠性指标,这也是导致试验室试验得出的可靠性指标比实际使用统计出的可靠性水平低许多的原因,根据美国宇航局给出的数据,软件的可靠性比硬件可靠性低一个数量级。为此,本次对服务器的可靠性试验,在试验的全过程要按服务器全寿命期间各软件模块(存储,运算,数据处理,管理,数据备份、转换等)功能在实际使用中出现的概率进行运行,运行采用压力测试软件(CPU负载测试软件)进行。并以此同时给出软硬件一体的可靠性指标。因为软件测评仅相当于硬件ESS试验,它给不出软件的可靠性定量指标。

 

06.运行剖面

 

根据上述叙述,设计出的服务器可靠性试验剖面如下:

服务器可靠性试验方案设计

故障与失效判据

 

01、失效判据

 

①服务器无法启动

 

②系统需频繁重启(允许3次)

 

③服务器死机(允许3次)

 

④硬盘损坏

 

02、判断标准

 

接收试验:若在T­t*时,r≤2,则认为符合规定的要求。

 

拒收试验:若在T­t*时或在T­t*之前,r>2,则认为不符合规定的要求。

 

 

引用本文:

郑菁菁,史旭鹏,徐泽林.服务器可靠性试验方案设计研究[J].环境技术,2021,229(1):69-73.

专家简介:郑菁菁,南京信息工程大学,女,硕士,中级工程师,主要研究方向:电子信息产品、可靠性设计。

服务器可靠性试验方案设计
分享到:

来源:环境技术核心期刊