《低功耗方法学》翻译——第一章:介绍
第一章:低功耗芯片设计引言
本章探讨了复杂SoC设计面临的动态和静态功耗挑战,并介绍了多种降低功耗的技术。随着半导体技术的进步,动态功率占总功耗的比重显著增加,而静态功率则相对较低。然而,在90nm及以下工艺节点中,静态功率与动态功率接近相等。为解决这一问题,多种技术被提出:如多电压(Multi-Voltage)和多阈值电压(Multi-VT)方法通过优化电源管理降低功耗;长通道器件则通过减少泄漏电流来提升效率;时钟门控技术则通过关闭不需要的部分芯片来减少动态功率消耗。这些方法在后续章节将被详细阐述,并探讨其在不同架构中的应用及其对SoC性能的影响。

第一章:介绍
1.1 概述
在过去的二十年间,复杂芯片的设计经历了诸多重大变革.1980年代末,出现了一种全新的芯片综合方法,即基于语言的技术.进入1990年代后段,随着集成电路上的发展,设计重用与专用集成电路( IP )逐渐被广泛采用.近年来,低功耗技术带来了芯片架构设计的重大革新.
每一次技术创新都是对半导体技术持续发展带来的挑战的一种积极应对。芯片密度呈现出指数级的增长趋势,这为基于语言的设计与综合应用提供了重要支持。显著提升了设计者的生产效率水平的方法搁置了摩尔定律约十年时间,在那个以百万门电路为中心的时代。结果表明,在面临新型电子系统的复杂性时,在单个研发团队中实现复杂系统的完整开发面临巨大挑战——无论是硬件描述语言建模还是逻辑综合自动化方法都无法有效解决这一难题。因此,在这种背景下,“构建独立的功能模块”成为了实现复杂系统目标的主要途径——通过将现有的 Intellectual Property (IP) 和模块化架构进行整合与优化来提高整体系统的性能与效率。”
在130纳米尺度基础上开展的深亚微米技术体系带来了诸多新的设计挑战。目前我们能够在面积极小的芯片上集成数千万个门电路组件,在此过程中实现了芯片的高密度集成度和显著的能量效率提升。当技术降至90纳米以下时,在一些65纳米级设计中会出现明显的漏电问题,在这种情况下漏电参数几乎等同于动态功耗参数。
这些变化对芯片设计方式产生了重要影响。受制于不断缩小的芯片制程限制,在达到最大性能时,芯片的功耗密度已无法进一步提升使得单个处理器的速度难以继续提高。这促使设计师转向采用多处理器架构的设计方案。
电池供电设备在电子市场中发展迅速。深亚微米工艺面临显著挑战,在解决该问题的过程中,在设计过程中从软件架构、硬件体系到具体实现细节等各个阶段均采取了具有高度针对性的技术措施。其中一种是功率门控技术——当模块闲置时关闭电源;另一种则是采用多阈值单元库的设计方案——能够在控制漏电电流的同时灵活调节运行速度。
所有应用中的复杂SoC总功耗问题是一个亟待解决的关键挑战。为了有效应对这一难题,研究团队正在探索将芯片上所有非IO门的功能统一至单一电源电压的方法,并逐步向多电源架构转型,以实现资源的最佳利用效率。在这一过程中,设计者采用了动态电压调节技术,在每个工作周期内根据当前负载需求动态调整各关键模块的供电电压及其时钟频率设置,从而优化整体系统的性能表现。
此书概述了多种降低复杂SoC设计功耗的技术细节。我们的方法经过实践验证具有实际应用价值而非仅仅停留在理论层面。我们得益于过去几年在开发多个技术示例芯片过程中积累的经验。我们坚信所述的方法可帮助芯片设计师显著提升其芯片性能水平。
1.2 问题的范畴
当前最先进的微处理器芯片往往能以100至150瓦的功率运行,在单位面积(如每平方厘米)上的平均功耗在50至75瓦之间。具体而言,在某些区域局部产生的热量可能远超这一数值
这种功率密度不仅带来了封装、散热等多方面的挑战,并且会影响产品的可靠性表现。具体而言,在产品运行过程中由于平均故障间隔时间会随着工作温度急剧下降而呈现指数式缩减的趋势。此外,在工作温度下降的过程中产品计时也会随之缩短而同时电路漏电现象则会随着工作温度升高而更加明显。
从历史发展来看,在每一个新技术节点推出时伴随而来的是一片新的高性能芯片设计领域。受限于功耗密度的问题困扰着整个行业,在此背景下国际半导体技术路线图(ITRS)研究显示:在2008年之前这些芯片将能够达到峰值198瓦;在此之后的时间段内其功耗将保持稳定。
微处理器芯片的总功耗已经为服务器领域构成一个关键性的问题。在这些服务器集群中,基础设施支出(电源、冷却系统)相当于计算机本身的成本。
针对采用电池供电的手持设备数量有所缩减。据ITRS的数据指出,在2004年这些设备的电池寿命达到峰值之后便开始下降。随后,在功能的增长超过了每个频率所需功率缩减的情况下,进一步加剧了这一趋势。
在众多的应用程序中,降低SoC的能量消耗对持续提升其性能与功能以及推动相关业务的发展具有重要意义。
直到最近为止,功率一直是芯片设计的关键问题,其重要性仅次于成本、面积和时间等主要考量因素。就多数SoC设计而言,功率预算是该项目最重要的设计目标之一。若超出功率预算,不仅会严重影响系统的可靠性,还可能导致无法实现所需的电池续航能力。无论如何,无论是采用价格低廉的塑料封装还是高端的陶瓷封装,都无法忽视这一技术瓶颈;此外,过高的功耗密度也会直接制约系统的稳定性和可靠性表现。
面对即将到来的技术节点转变,我们面临的挑战也将更加显著。ITRS预测指出,在这一阶段可能出现的技术波动可能会对系统稳定性构成更大威胁。

该方法已被广泛认可,并且许多设计团队已成功实现了降功耗的目标。其中一些团队已成功实现了降功耗的目标。这是因为他们不仅在90纳米制程上进行了优化,并且对客户需求的关注达到了更高的水平。
1.3 功率 vs 能量
对于电池供电设备而言,在区分功率与能量方面具有重要意义。图1-1展示了两者之间的差异性。其中,功率是设备运行时的瞬时功率值;而能量则是指在一定时间段内累积的能量总量——即曲线下的区域面积。例如,在智能手机应用中所消耗的功率会因具体情况而异:当手机处于关闭盖子并待机的状态时其功耗较低;一旦打开并开启显示屏幕则功耗显著增加;同样地在进行数据下载操作时功耗也会相应提升。如图1-1所示图形高度直观地反映了当前时刻的功率值然而系统的总能量——即曲线下的区域面积——才是决定电池寿命的关键因素

1.4 动态功率
在SoC设计中,总功耗主要由动态功耗和静态功耗两部分组成。其中动态功耗指的是设备处于活动状态时——即信号变化幅度存在时——所消耗的电能;而静态功耗则发生在设备通电但无信号变化幅度的情况下。对于CMOS器件而言,静止功耗主要源于漏电流现象。
动态功耗的主要来源之一是开关功率;这种现象源于为逻辑门输出电容充电与放电所消耗的能量。图1-2直观地展示了开关功耗的情况。

每次电平转换带来的能量为:


是负载电容,

U代表供电电压。在此处书中所阐述的结论较为简洁,在此我进行了详细的推导过程以供读者更好地理解相关内容。

动态功耗可以描述为:


为电平转换的频率,

为单元输出端电平转换的概率,

为系统时钟频率,如果我们定义:

那我们就可以用更相似的表达式描述动态功耗:

请注意,在这种情况下,开关功率并不是晶体管尺寸所决定的参数(即函数),而是由开关活动性和负载电容共同决定的因素。由此可见,在动态电路设计中这一特性表现出对数据流的高度敏感性。
除了开关功耗外, 内部功耗同样会引发动态功耗的上升. 图1-3具体展示了内部开关电流、内部功率因短路电流(当NMOS与PMOS晶体管均导通时)以及单元内电容充电电流所造成的影响.

如果加上内部功率,动态功率的表达式为


为短路电流的持续时间,

为总的内部开关电流(短路电流加内部电容充电电流)。
为了使输入信号的斜坡时间较短,在每个跃迁周期中仅持续 brief interval的时间段内发生短路电流;这样导致整个动态功率主要由开关功率先决定。

然而,在特定场景下(例如涉及电源转换或电路设计时),短路电流(亦即直通电流)引起了关注。特别地,在我们探讨电源门控块的浮动输出时——即应对其可能出现的问题——我们将详细讨论如何避免过高水平的输出。
在架构、逻辑设计以及电路设计方面,存在多种技术可用于降低特定函数在既定技术体系中的功耗表现。这些方法主要聚焦于平衡点电压及频率分量的优化配置,并致力于降低由于数据相关性引发的开关操作次数。
包括多种架构和逻辑设计技术以最小化开关活动为目标,在减少电路切换频率的同时优化系统的性能效率
考虑到功率与电压之间的二次相关性
对于不需要运行特别快的外围设备(如外设),我们可以采用比其他关键块更低的工作电压作为其供电方案。这种方法被称为多电压 。
对于处理器部分,则可以采用灵活调节的电源电压方案;在高性能计算任务中,则需要为其提供较高的电源电压以及相应的较高时钟频率支持;而对于低性能计算任务,则应为其降低工作电压并配合较慢时钟频率。
这种方法被称为电压缩放 。
另外一种降低动态功耗的方法采用时钟门控策略。通过将频率和功率置为零来实现功耗的显著降低。其中一些类型已经被广泛应用于各种SoC设计中。
1.5 动态与静态功率的冲突
通过采用更为优化的技术方案来实现对动态功率的降低最为直接的途径就是实现对供电电压的有效控制。过去十年间,在经历了快速提升的过程后半导体技术实现了显著进展与此同时对于供电系统的优化也得到了广泛的关注

该电路经历了电压的逐步降压过程, 依次从5伏降到3.3伏、再降到2.5伏、最后降到1.2伏。根据ITRS路线图的预测, 在未来两年内, 高性能设备预计采用1.0伏电源供电; 而低功耗设备则采用更为节能的0.8伏电源。
降低

的问题在于它会导致

晶体管的通流和输入电流有所下降,从而引发速度的下降.在忽略速度饱和现象以及在90纳米以下的一些微小影响因素的前提下,单个MOSFET的性能表现将受到显著的影响.

估计值为:


为载流子迁移率,

为栅极电容,

为阈值电压,

为栅源电压。从上式可以清晰地看出,为保持良好的性能,当我们降低

(等于

)时我们需要降低

。然而,降低阈值电压会导致亚阈值电流(

)指数级增加。这将在后续章节说明。
因此,存在一个矛盾。为降低动态功耗,我们需要降低

;为保持性能我们需要降低

就目前采用的工艺方案而言,在节能性上表现得非常优异。主要由于泄漏电流所引起的静态功耗远远低于动态功耗,在这种情况下应用这样的工艺方案是完全合理的。然而随着90nm制程技术的不断进步和发展,在这种新的制程架构下我们发现静态功耗与动态功耗之间已经达到了相当接近的程度。因此在这种情况下需要对这一问题进行更加深入细致的研究以期找到更为优化的解决方案
1.6 静态功率
一个CMOS门中有4个导致漏电流的源头:
- 亚阈值漏电流(

):工作在弱反型区的晶体管 漏极流向源极的电流。
- 栅极漏电流(

由于栅极氧化物隧穿效应和热载流子注入作用的影响而导致的电流,在基底材料上直接自栅极表面经由氧化物层传输到达基底材料

):从漏极流到衬底的电流,由高

引起的MOSFET漏极中的高场效应引起。
- 反向偏置结电流(

):这是由少数载流子漂移和耗尽区中电子/空穴对的产生引起的。

当CMOS门没有完全关闭时,会发生亚阈值泄露。其值为:

W和L为晶体管尺寸,

为热电压kT/q(室温下25.9mV)。参数n是设备制造工艺的函数,取值范围1~2.5。
这个方程告诉我们,亚阈值泄露取决于

和

差值的e指数幂。因此,当我们为了限制动态功耗而缩减

和

时,泄露功率将会指数级变差。
由于栅氧化层隧道效应的存在,在栅极区域的泄露现象得以形成。对于厚度仅为约几个原子宽度的90nm栅来说,在这种极端薄厚使其隧道效应得以显著放大。过去的主要工作点始终处于亚阈值工作区,在该节点起(如90nm),漏电流规模已接近于亚阈值情况的一半。进一步缩小至65nm时的情况几乎等同于纯亚阈值工作状态下的性能表现。为了应对未来更小尺寸器件对漏电流的影响需求,在这一技术领域中使用高介电常数材料作为解决方案似乎是目前最有效的策略。
亚阈值漏电流随温度呈指数级增长。由此,实现低功耗系统设计变得尤为具有挑战性。即使在常规室温环境下该参数是可以被接受的,在极端情况下,该值可能超出芯片的设计目标。
有几种使泄漏电流最小化的方法。
其中一种技术是多阈值电压(Multi-VT),其具体而言就是在性能需求较高的场景下采用高阈值电压的单元,在关键路径上的环节则优先考虑低阈值电压的应用。
该技术被定义为在没有工作需求的情况下对相应的逻辑块实施完全断电操作。它还被称作功率门控机制。
这两种方法在后续章节会详细讨论,现在我们提一下其他三种技术。
采用多阈值策略是一种有效的CMOS电路设计方法。通过施加反向偏置电压至衬底表面能够有效地降低漏电流水平。这种设计策略不仅能够有效降低电路漏电水平,在保证信号完整性的同时还能实现较低的功耗水平。


)的差值。有效增加

。这种方法可以将备用泄漏减少多达三个数量级。然而,VTCMOS增加了单元库的复杂性,且需要两个额外的功率网络分别控制施加到阱的电压。不幸的是,反体偏置的有效性已经被证明随着缩放技术的发展而降低[2]。
Stack Effect
叠加效应,或者叫自偏压,当栈中有超过一个晶体管关闭,就会有助于减小亚阈值泄露。主要因为少量的亚阈值泄漏导致堆叠晶体管之间的中间节点浮离电源/接地轨。降低的体源极电势导致略微负的栅极-源极漏电压。因此,此方法将会减小(


)的差值,有效增加

该方法能显著降低亚阈值电流泄漏。通过实验结果表明,在双晶体管堆叠结构中实现了一个数量级的泄漏缩减[3]。这种堆叠效应表明,在逻辑门设计中需高度关注输入端的影响程度。理论上存在一种最小泄露状态,在此状态下电路应在截止前适当施加以达到最低泄漏水平;然而,在实际设计过程中由于各种限制使得这一理想状态难以实施。
对于长沟道器件而言,
根据亚阈值电流方程可以看出,
使用较长的栅道长度能够有效减少泄漏电流。
然而,
尽管这样做降低了动态电流,
但同时也带来了栅极电容增大所带来的动态功耗上升,
从而导致总体性能下降。
只有当长沟道器件切换活动性较低时,
才能期望达到更低总功耗的目标。
因此,
在实际应用中必须权衡切换频率与功耗表现之间的关系。
1.7 本书目标
《low-power methodology》旨在阐述System-on-chip (Soc) design中动态与静态功率管理的技术方案。该手册详细介绍了工程师在开发low-power芯片过程中需要做出的关键决策,并提供了实现良好决策所需的依据。基于我们在实际芯片开发以及一系列flow fabrication技术应用中的实践经验, 本手册提出了若干实用建议, 并指出了实现low-power设计时需要注意的关键点.
构建复杂芯片的设计过程本身即是一项具有挑战性的任务。这一过程需要协调众多关键参与者:系统工程师、RTL设计师、IP设计师、物理实现工程师、验证工程师以及库开发人员。这些不同角色之间的有效沟通往往面临诸多障碍。每个团队都有特定的关注重点和优先级,并且往往采用独特的术语,在讨论实现某些技术方案时也会遇到理解上的困难。本书旨在为各团队提供一种通用的语言框架,在此框架下探讨实现低功耗策略的相关问题。
显然,在SoC设计团队中必须首先做出的第一个关键决策是围绕采用何种功耗策略展开——在时间和空间范围上选择哪个部分进行优化?这一核心问题构成了整本书章节安排的基础。
- 第一章详细阐述了低功耗设计面临的挑战与解决策略。
- 第二章深入探讨时钟门控方法及其相关的多阈值电压设计、逻辑级功率降低技术。
- 第三章对多电压设计进行了系统性的介绍。
- 第四章概述了功率门控的基本原理与应用。
- 第五章提出了针对RTL级的功率门控设计方案。
- 第六章通过实例展示了RTL级功率门控芯片的设计流程。
- 第七章重点分析了功率门控架构的关键要素。
- 第八章深入讨论了IP设计在功率门控中的具体实现问题,并提供了一个典型示例。
- 第九章全面解析了动态电压与频率缩放在架构级和RTL级设计中所面临的问题。
- 第十章通过具体案例展示了电压与频率缩放技术的实际应用效果。
- 第十一章系统分析了实现低功耗所需的综合、布局布线、时序分析以及精确的功率分析方法。
- 第十二章介绍了低功耗设计中标准单元库的设计原则及其相关需求。
- 第十三章详细探讨了如何保持寄存器和存储器中的数据完整性问题。
- 第十四章深入研究了设计中涉及的高效电源开关网络构建方法。
- 附录A提供了关于休眠晶体管及其在功率开关网络中的电路实现细节说明。
- 附录B全面解析了本文中所采用UPF命令的具体使用规范与操作方法。
在全书中, 我们将借鉴作者的研究成果, 深入探索低功耗技术相关领域。这些研究项目涵盖了多个具有代表性的创新方案, 其中就包括著名的SALT项目(SYNOPSYS ARM低功耗技术示范)。该系统采用90纳米工艺设计, 由ARM处理器及其丰富的SYNOPSYS外围组件和IP核构成。重点研究了功率管理与门控技术和相关优化措施;其中, 处理器及USB OTG核心采用了电源管理与门控技术, 并通过相应的优化措施降低了能耗水平
参考
Baron, M., “Energy-Optimized Functionality from Intel”, Microprocessor Report, December 11, 2006.
2. Neau, C. and Roy, K. “Optimal Body Bias Criterion for Leak Reduction and Process Optimization Across Various Technology Generations,”Proceedings of the ISLPED, 2003.
3. S. Narendra等人,“堆叠效应的缩放及其在泄漏减少中的应用”,《低功耗电子与设计》,第195至200页, 2001年。
至此,第一章翻译结束,有问题的地方请在评论区留言~
