新闻  |   论坛  |   博客  |   在线研讨会
消费IC:可靠性设计
tvb2058 | 2008-07-04 16:28:15    阅读:1668   发布文章

最新的电子产品只有在能保证较长的使用寿命时,消费者才会接受。 IC 厂商必须解决好 IC 的可靠性问题,才能使其在可靠、耐用的产品中得到应用。
  要 点
  大多数公司都期望自己的设备使用寿命能够达到10年之久,因而进行多项负荷测试,以确保其IC能够实现这个目标,甚至超越这个目标。

  基于逻辑设计中软错误逐渐成为较大的问题。

  一些诸如Nvidia和Xilinx的公司最先采用了新工艺,并且开始与其晶圆代工企业的合作伙伴进行合作。

  IBM对其可靠性进行了整体分析,在技术、设备、封装和系统层面检验了其潜在的可靠性。


  当你购买一台Microsoft Xbox 360 或是Sony Playstation 3游戏机时,销售人员会建议你同时再买个风扇和游戏机一起使用。你可能很不情愿多付这30美元,尽管这个风扇能改善产品固有的设计缺陷。如果你是早期的Xbox 360 用户,可能还会接到Microsoft发来免费更换IC、IC冷却系统的召回通知,否则,这两个部件会造成系统运行缓慢甚至出现故障。就算你不是360用户,你也可能听说过这种召回事件,知道360存在某些设计缺陷,但还是义无反顾地买了回来。

  这在业内是一种愈加有趣的现象。消费者都在购买那些明知用不了多久就会出现故障的产品。在消费电子产品市场中,追求最新最酷的数字“时尚潮”冲昏了消费者的理智,这使得消费电子产品购买已经迅速成了一种冲动的行为。许多人每四年会更换一台新游戏机,每年更换一台新手机和MP3 播放器,每四到六年更换一台电视机和电脑。

  尽管现在消费者愿意为“时尚潮”买单,但如果日后手机没过合同保修期就出现故障了,他们是否还会心甘情愿?即使消费者不担心这个问题,消费产品制造商也会担心。因为,产品早期缺陷迟早会引发成本高昂的召回,甚至会让消费者和OEM 反对该品牌。在游戏机领域,消费者只有三种选择:Xbox 360、PS3和Wii。但在TV、手机及其它消费电子产品缝隙市场,消费者与 OEM的选择则比较丰富,并且能够长久记住它们。

  因此,当考虑到设计与生产为消费性电子产品提供动力的前沿IC日趋增加的复杂性时,产品寿命这样的问题就变得非常让人头疼了。当今的半导体行业主要关注于如何实现IC设计制造的高产出,并保证其IC 通过功能测试。这样就可以进行大规模生产,比竞争产品更早地投入市场。但随着IC 工艺越来越先进,消费者对性能与系统功能的需求也在增长,如果厂商不解决可靠性问题,IC 的故障会越来越普遍。

  军用、汽车及医疗IC 的提供商很久以前就已经开始应用可靠性高的技术,以保证其设备能够长久工作。针对消费者与OEM市场设计与制造IC 时,也非常注重可靠性,一般要求达到至少10 年的MTBF (平均故障间隔时间),这比多数消费者使用产品的年限还要长。专家表示,可靠性向来是半导体厂商所关注的主要问题。但要生产可靠的产品,满足客户对更快、更小、更高性能产品日益增长的需求,他们必须要克服许多困难。多数的消费性电子产品制造商雇佣可靠性工程团队为每一步的设计、制造、封装和老化测试设定指导方针,并密切监控这些步骤的进行状况。老化测试是一个重要的步骤,它通过加速寿命测试,获得设计在高温、高湿的恶劣条件下的最佳性能。在制造商开发新的硅工艺时,这些可靠性工程团队也在不断警惕着新的或重现的故障机理的出现(图1)。如今,他们必须要注意各种趋势,如栅极漏电及工艺变数,这些会使制造可靠IC 的过程更为复杂(参见附文1《移动的硅砂》)。

  “在可靠性领域没有所谓的‘老样子,老样子’的说法。” IBM系统与技术部的系统Z测试技术经理Jack Hergenrother博士说。“我们不断地深入对新故障机理的了解,也在寻找处理潜在损耗与故障机理的新方法。”Hergenrother表示,这种现象并不是IBM独有的。“这是个行业现象。”他说。“在(摩尔定律发展的)过去十年,出现了一些新的机理,我们在质量认证和设计过程中要考虑这些机理。这种需求在芯片与系统可靠性方面都适用。”

  专家表示,业内已经能够妥当而迅速地在开发的各个阶段应对可靠性问题。图形处理厂商Nvidia的技术与晶圆代工业务副总裁John Chen表示,业内将在今后几年内解决这些问题。他说:“设计师要了解这些问题,才能充分发挥技术优势并避免缺陷。” Xilinx 高级产品部的产品开发工程总监Glenn O’Rourke说,Nvidia 与Xilinx 都处在采用新逻辑工艺进行设计的前沿,他们及其晶圆代工企业合作伙伴必须了解可能出现的故障。(参见附文2《采用自己的工厂还是无工厂:可靠性仍是最主要的目标》) “由于图形引擎需要较大的处理能力,我们每18 个月就得将设计中的晶体管数量增加一倍。”Chen表示。
Nvidia的共同创始人Chris Malachowsky在1996 年设计了该公司的首个芯片,含有100万个晶体管的设计在当时是很大规模的了。而该公司最近推出的采用了65nm 技术的图形处理器中,晶体管则超过了10亿个。“我们可以使用更小、更快、性能更好的晶体管,不像某些应用存在着引线限制且不可升级的问题。”Chen说。“我们可以充分发挥摩尔定律的优势,并且我们总能保持在技术的前沿。但是作为首先采用一种新技术的企业之一,新的挑战也会随之而来。”

  IC 故障机理
  对于130 nm、90 nm、65 nm和45 nm 的工艺节点,IC可靠性团队最关注的故障机理有:NBTI (负偏压温度不稳定性)、热载流子效应、EM (电迁移)、栅极氧化层完整性及 SER (软误差率)。NBTI 与热载流子效应是两种经常出现的故障机理,都会导致失去栅极控制(参考文献 1与2)。NBTI 是一个重要的可靠性问题,也是承受负栅电压的CMOS 设备所面临的直接问题。在电子(空穴)获得足够的动能克服势垒,从而成为热载流子后,热载流子效应才会产生,然后该热载流子会迁移到设备的其它区域。在NBTI 和热载流子效应中,晶体管的驱动电流变小,会降低或锁定栅极的时序,继而可能造成故障。
  

图1,Xilinx 设备用于多种应用中,这些应用都要求有较长的寿命。Xilinx 进行使用寿命性能全面分析,该分析体现了老化测试的各个阶段的设备特性
图1,Xilinx 设备用于多种应用中,这些应用都要求有较长的寿命。Xilinx 进行使用寿命性能全面分析,该分析体现了老化测试的各个阶段的设备特性。

  NBTI 问题在90nm 节点上十分明显,但制造商很快就解决了这个问题。据Synopsys提取与电源完整性(extraction- and Power-integrity)产品研发总监Li-Pen Yuan介绍,对NBTI 的初始研究一般集中于常开型直流电设备,因为该问题在这种设备中比较严重。采用交流工作的设备与NBTI 相比问题要小一些,因为其电流是非连续的,不会对晶体管造成过大的负荷。然而NBTI 仍然是可靠性与设计团队必须注意的问题,特别是当他们的设计应用于直流电系统时,如移动计算或手持设备。

  IBM的Hergenrother说,NBTI 问题并未消失,只是暂时隐藏起来了。 “几年前,它还会造成一些问题,”他说。 “现在不会再听到这种说法了,因为我们已经知道如何解决这些问题了。 如今,我们听到更多的是与NBTI类似的PBTI (正偏压温度不稳定性),只不过它是出现在PFET而不是NFET中。 PBTI与NBTI差别很大,在以后的技术节点中还将是个问题。而这次,业界很有可能对此做出更为充分的准备。”

  IC制造商采用应变工程技术进一步地提高晶体管的速度,最大限度地降低泄漏功率,这是一种通过调解张力或压力增强晶体管沟道性能的技术。应变调节可以增强电子流动性,进而改善沟道的传导性能。该技术的一个副作用,是可能会在设计中引发热电子效应。这些效应会改变电压阈值,缩短IC的使用寿命。Chen说,“如果采用应变工程技术,晶体管速度会更快,功率更大,但会造成更多的热电子或热载流子效应。” 他解释,应变工程技术可在晶体管的漏极一侧感应较强的电场,并使 N 沟道中的电子快速达到饱和状态。电子必须尽可能地快速移动,才能产生电流。他说,“(移动的电子)会撞击其它电子-空穴对,从而生成更多电子。”“这是个雪崩效应——碰撞电离生成了更多电子,电子得到足够的能量后,会跃迁到MOS栅极介电层并被困于此,造成阈值迁移,最终导致设备故障。但制造商已经找到方法来提高阻止电子跃迁到介电层的势垒。这样增加了热电子,但能形成一个壁垒阻止电子进入介电层,其净效应是相等或稍少的热载流子效应。”

  当过多的电流经过连接晶体管的薄金属迹线时,就会出现最常见的故障机理——EM。当两条薄金属迹线靠近,携带电流或瞬时开关时,其中一条会裂开,形成开路。裂开的迹线会接触到相邻的迹线,造成短路,进而引发设备故障。EM 通常会经过一段时间后才出现,在芯片测试很久以后造成故障。半导体与EDA 行业都早已注意到EM问题了。Synopsys的Yuan说:“EDA厂商提供了分析工具来检测易受EM影响的设计区域。”EM问题也随着新工艺的出现有所增长,但并不太严重。“10年前的一个典型设计,会有多个区域容易受到EM影响,” Yuan说。“但是今天,设计中只有10处易受到EM影响。好像该问题并未恶化。”不过由于EM仍在影响设计,EM的预防工具在主流设计师的工具中也越来越普遍了。

  另一种故障机理是栅极氧化层崩溃或其完整性问题,其中电流会造成栅极介电层的缓慢崩溃,进而导致故障。Chen指出,一些新材料,如高k值金属栅极有助于改善这方面的可靠性。Intel 在这种材料方面的研究比较领先,而其它的硅制造商也会紧随其后。Chen 指出,某些45nm和32nm 的设计可能使用含有二氧化铪的高k值金属介电层,而不是传统的栅极氧化层。制造商在制造过程中在硅片上生成栅极氧化层,这样可使表面更加平滑。但在高k值金属制造中,制造商将二氧化铪层沉积在硅上形成一个复合层。“只使用一种层是不行的,” Chen说。使用多个层,就要保证高k值介电层只有较少的针孔,因为排列多个层的针孔比较困难。使用高k值介电材料通常会改善电介质随时间变化而破坏的性能。然而与二氧化硅不同,这种复合层有更多的陷阱,会捕获更多的电子或N型、P型沟道空穴,这会导致软崩溃。这些问题会影响流动性 ,而且从长期来看,会造成阈值的不稳定。制造商已经找到了不同的工艺技巧来解决该问题。“一个方法是在高k值金属层与硅层间插入一个二氧化硅层。”Chen说 。

SER是另一种故障机理 ,它长期影响军用及航空IC及存储器市场,如今在逻辑设备中的影响也越来越突出(参考文献 3)。封装材料中的α粒子或自然产生的中子撞击现象,是软错误出现的典型原因。实际上,α粒子或中子会撞击设备而产生噪声,触发存储器位,甚至触发电路中的闩锁。“该问题对每一代技术都造成了很大的挑战,” IBM的 Hergenrother说。“在设备的敏感区、关键区域的设备数量在不断减少,这就意味着只堆积少量的电荷就会对晶体管的工作造成干扰。”因为很难将α粒子从封装材料中消除,所以,必须加强系统对宇宙粒子及a粒子的抗干扰能力。可以在多个层面解决软错误。“(IBM)在技术级别解决SER问题,使晶体管具有容纳软错误的能力;而在电路级别将晶体管设置在闩锁及双稳态多谐振荡器处, 这样即使有一个晶体管触发了,也能保证其稳健的特性,”他说。“然后,在芯片级别寻找错误检测及校正机理,所以即使出现错误,也可找到并予以校正,防止其传播任何无用的数据。除了上述机理外,还有系统级别保护,这是另一层的错误检测与校正机制。”

  几种故障机理会产生可靠性问题。半导体行业一直都在寻找并校正这些故障机理,以把完善的产品交给消费者。但随着设备越来越接近物理特性与CMOS的极限,可靠性问题会越来越难以解决。

  参考文献

  1. Peters, Laura, “NBTI: A Growing Threat to Device Reliability,” Semiconductor International, March 1, 2004,
  www.semiconductor.net/article/ CA386329.

  2. Peters, Laura, “Strained Silicon: Essential for 45 nm,” Semiconductor International, March 1, 2007, 2007,
www.semiconductor.net/article/CA6418539.
  
  3. Santarini, Michael, “Cosmic radiation comes to ASIC and SOC design,” EDN, May 12, 2005, pg 46,
www.edn.com/article/CA529381.

*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客