从零开始设计一种处理器的机会并不经常发生,不过,IBM高级研究员Jim Kahle正在努力创造一种革命性的计算系统工作方式。
作为Cell处理器的首席架构设计师,Kahle是全球顶尖芯片制造商里为数不多的优秀设计师之一,这些设计师正致力于将并行结构引入到消费电子领域的产品设计中。
早在2000年,IBM、索尼和东芝的工程师们就曾讨论过合作的可能性。IBM曾是率先设计出千兆级处理器的公司之一,参与讨论的工程师曾“考虑更加传统的组织架构,”Kahle说,“不过,我们发现它们并没有给我们带来索尼和东芝所需要的计算效率。”
于是三方决定从零开始,利用IBM的对称多处理经验。该计划小组“着眼于如何获得更高的效率。”Kahle强调。
随着目前一些主流视频游戏公司陆续推出十几款基于Cell处理器的工作站,对效率的期望日益高涨。我们的计划是让视频游戏市场富有经验的软件开发人员(他们习惯于并行图形处理)尝试多处理Cell设计。
Cell设计的目标是从游戏机扩展到数字娱乐中心,甚至到需要图形处理能力的非消费应用,如生命科学领域。
Cell设计队伍的规模已成倍增长。除IBM外,索尼和东芝的工程师也驻扎在IBM于德州Austin的三层楼上。Cell设计项目还启用了IBM远程站点的工程师,包括美国明尼苏达州的Rochester、纽约的Yorktown Heights、德国的Boebingen以及以色列的Haifa。
同时,位于俄勒冈州Intel Hillsboro厂微处理器技术实验室主任Stephan Pawlowski也正在尝试一种革新技术。Pawlowski的实验室面临的挑战是如何利用Intel的基本架构平台设法解决数字消费方面的难题。与移动电脑或游戏系统相比,消费电子产品的热预算(thermal budgets)更有限,因为前两者内部都可以装一个小型风扇。
“我们想推出大量可以利用X86平台基础架构优势的新应用,”Pawlowski表示。但是,125颗英特尔效率最好的移动X86处理器在同一块裸片上将产生250瓦的功耗,这是不能接受的。
“X86架构不存在阻碍其在功率受限应用中使用的不利因素。有一些结构,寄存器稍有不同,但从功率的角度来看,你能在ARM内核中做的与你能在X86中能做的没有本质区别,”Pawlowski解释。“技术上,它没有理由不可以介入那一领域。”
如果Kahle在IBM几乎是从零起步,那么Pawlowski则是从指令集开始。“我们正试图建立一个新的范例来运行这些指令,”他补充道,“这很有意义,我们以此为傲。在功率受限条件下用高线程应用开发比较困难。从八路内核到32颗处理器内核就是一个挑战,首要问题是如何完成一个能解析并行机制的编译器。”
TI首席技术专家Gene Frantz则对ISA持一种与众不同的看法。“我们认为指令集架构正在逐渐被淘汰,”Frantz认为,随之兴起的是“异类多处理”,即利用针对特定任务的优化内核,如DSP、MCU或专用硬连线电路。
“我们有足够的ISA经验,我们需要做的是选择多个在单一任务上表现出色的专家级CPU,并且设法让它们能在一起工作。”Frantz表示。
目前,一个系统级芯片(SoC)设计团队通常被划分为数字设计师、模拟设计师,或者还有一个RF小组等。通过严格定义各功能块的界限及其接口方式,各小组各司其责,完成自己模块的设计。
问题是这种方法没有利用现代工艺技术的协同性优势,在这种协同中数字晶体管能完成模拟和RF功能,Frantz指出。我们需要更好的系统设计语言,这样设计团队在处理一个复杂的芯片设计前可以进行更好的可行性分析。
目前工程师们在设计方法上趋于保守。设计工具产业对如何发展系统设计工具也“有点让人费解。”Frantz指出。按他的观点,其目标应该是“更加面向对象,这样一个设计组就能抓取MP3模块并把它置入系统中。Matlab的工具或NI公司的LabView,就正是我考虑的工具。”
ARM 公司的市场区域营销总监David Steer声称,在Frantz描述的方向上ARM做得很好。今年8月,ARM收购了Axys设计自动化公司,这是一家集成处理器、系统建模和仿真解决方案供应商。
“在系统设计方面我们确实需要领先更多,这就意味着需要硬件和软件真正的协同开发。”Steer强调。
此外,由于新近收购了Artisan Components公司,ARM的“策略是成为一站式IP供应商,要提供的东西比MPU内核多得多。”他表示。
随着多处理内核开始流行,ARM已向对称多处理转向。它的MPCore产品允许在一个CPU子系统中有多达4个ARM内核一起工作,Steer宣称。工具可以使软件编写更简单,并提高了峰值性能和实时性能。
ARM已经为视频处理和其它数据密集任务开发了一个称为OptimoDE的可配置数据引擎。该产品允许一个可编程内核和一个硬件连线数据引擎结合在一起。ARM称,设计工程师能按应用领域的准确需求定义数据路径源单元的类型和数量、数据路径宽度、指令宽度以及I/O的数目。
另一方面,MIPS技术公司则正努力把多线程技术引入到消费领域,它与其授权人合作开发了多线程应用专用扩展(MT-ASE)架构。MT-ASE定义了多线程在MIPS环境中如何工作,并尝试确保在执行多线程时各个MIPS供应商之间软件的兼容性。
MIPS 的技术营销人员Tom Petersen,曾是PowerPC 的一名设计师,他表示,系统设计师面临严格的成本限制问题,他们正期望用多线程提高效率。
“在许多应用上,由于负载时延和缓存错误,核心处理器大约要停止50%的时间。”Petersen表示。“客户告诉我们无效率确实是一个导致成本增加的问题。通过增加多线程,我们能恢复单内核上的无效死区。”
Petersen认为Intel的超线程的实现,以及Sun与IBM的多线程的实现“做得极棒,开发培养了市场。我们前面的目标是那些高端处理器,我们所要做的是把目前高端的效率引入到消费电子领域,在他人的工作成果上进行设计,并使它可以应用在消费电子市场。”
Petersen表示,多线程“对我们而言是一项大投资。它确实是一种‘颠覆性技术’,我相信它将真正摇动某些东西。”
相较于可编程处理器在某一任务上的低效率,如运行容易导致缓存错误的音频或联网算法,多线程能将性能提高两倍甚至更高。对要求JPEG解码或图像平滑的任务来说,多线程技术允许缓存遗漏“而不会完全破坏效率。”Petersen提到。
利用运行在一个多线程内核上的Linux多处理器形式,MT-ASE架构能够支持多个操作系统。例如,该方案能分用视频处理引擎的内部环路。
“有些人喜欢把MT视作一种硬件操作系统,”Petersen谈到。“操作系统负责在一个单独的前后关系上切换多任务。而多线程则把其转入硬件,使任务切换及前后关系的选择基于CPU管线中的信息。”
在某些情况下,多线程将补充已采用MIPS架构(如飞利浦的Nexperia;ATI的Xilleon电视处理器;NEC VR处理器系列的产品)的多处理器方案的不足。
为了满足移动市场的需求,飞利浦计划推出Nexperia pnx1500处理器的低功率版本,其工作电压是1.2V的工作频率为300MHZ。飞利浦San Jose分部总经理兼多媒体处理器营销高级总监Chris Day 表示:“该VLIW处理器的一大特色是当工作电压降到0.9V时其运行频率也下降到166 MHz,所以功耗可以降到0.5W左右,而在1.2V时的功耗是1.5 W。”
“对使用电池的系统来说,1.5W有点过分了。用户在户外使用时工作电压可以为0.9V,但回到家后就可以全功率运转。”Day指出。
便携式多媒体播放器新生市场对飞利浦而言是一个推进,该公司因之推出的参考设计有基于两个或更多高密度NAND闪存的存储装置、一个LCD控制器和一个基于Nexperia pnx1500的优化SoC解决方案。
Nexperia的创新性设计是一个5个插槽的超长指令字(VLIW)引擎,它可为媒体处理应用提供的性能优于运行在相同时钟速度上的传统架构,Day表示。
“通过一个这样的超级管线内核,我们既能满足媒体播放器市场的高性能需求,同时又能使功耗不超过预算范围。”他强调。
总之,处理器设计已经“达到了功耗增加的应用极限。”Freescale半导体公司的PowerPC设计经理Dan Bouvier指出。甚至对多线程而言,即使在提供效率方面如预期的理想,也仍然会需要更多的晶体管,从而消耗更多的功率,他评论道。
随着工艺尺寸的不断缩小,以及数以亿计的晶体管增加,“业界面临着在功率和性能间进行折中的实际挑战。针对此虽然涌现出一些技巧和方法,但它们中大多数都是一次性技术,目前已被淘汰。在未来十年间,我们需要更富创新性。”Bouvier强调。
作者:来大伟