解读ARM GPU的三个发展趋势

Kevin SmithKevin Smith 作者 张国斌
随着智能手机平板电脑进入视网膜屏高清时代,GPU的重要性日益凸显,用户在使用这些电子设备时,首先关注的是高清视频、3D游戏以及flash动画的体验,而这些体验和GPU性能有直接联系,一款性能出色的GPU不但可以给用户以最佳体验,更兼顾低功耗特性,在CPU核战已无悬念的情况下,未来GPU将如何发展?近日,电子创新网总编张国斌独家采访了ARM公司媒体处理部门战略营销副总裁Kevin Smith,就ARM GPU未来发展进行了交流,归纳为ARM GPU的三个发展趋势。

趋势一:关注可扩展性,GPU核战爆发在即

在PC领域,曾经爆发过有关CPU与GPU谁更重要的口水大战,现在看来,两者都重要,因为它们架构不同、侧重不同,CPU和GPU都是具有高速运算能力的芯片,CPU更像“通才”——指令运算+数值运算,GPU更像“专才”——图形计算,不同类型的运算速度决定了它们的能力。因此CPU更擅长像操作系统、系统软件和通用应用程序这类拥有复杂指令调度、循环、分支、逻辑判断的程序任务,而GPU则擅长图形类和非图形类的高度并行数值计算。因此,在一部手机或者平板中,两者需要均衡搭配才能发挥出最大效能。

到目前为止,ARM共发布了人Mali100、Mali300、Mali400、Mali450和Mali T600等五个系列的GPU,在MaliT600以后,ARM GPU在结构上发上了很大改变,以桌面应用看齐,在性能上有很大提升。

Mali400结构功能图
Mali400结构功能图

mali-t604功能图
Mali-t604功能图

Kevin Smith介绍说实际上在发布T600系列时,ARM已经考虑到了与未来64位处理器的兼容问题,所以Mali-T600的第二代支持64位双精度,可以与ARM最新的A50系列64位处理器紧密关联。“另外,T600系列采用了这色器内核架构和三管道体系,更容易实现多核,这比其他架构GPU更有优势。” Kevin Smith强调。“未来ARM会重点优化T600系列产品,例如我们最新发布的T624\T628\T678就比T604在同等裸片面积性能提升50%!”

他解释说性能的提升源自对架构的增强,例如这三款系列GPU可在同样的内核面积下提供更高的时钟频率、更高的IPC(每时钟周期指令数)、更高的能效,所以每个型号的性能都可以提升50%。

另外,这三款GPU也首次次支持ASTC(适应性可扩展纹理压缩):这是一种由ARM开发、Khronos Group已将其纳入OpenGL ES规范的纹理压缩技术,能在系统级别提高效率,并改进纹理质量和弹性,“而且,ARM GPU也是率先支持OpenGL ES 3.0版新标准的处理器。”他指出,“我们的GPU支持OpenGL Full Profile的GPU计算,不但支持OpenGL ES 1.1/2.0/3.0、DX 11/11 FL 9_3,此外还支持Google RenderScript计算语言。实际上已经向桌面应用看齐。也向GPGPU更迈进了一步。当然,这也是增强兼容性的举措,我们的策略是就是支持公开的各类标准和API。”

Mali-T678功能框图
Mali-T678功能框图

由于GPU的并行架构更适合实现多核,因此为未来多核GPU将是一大亮点,Kevin表示依托ARM的独特优势,未来不管是16核还是24核均可以轻易实现。
ARM GPU的,扩展性示意图
ARM GPU的,扩展性示意图

在我采访Imagination时,他们也勾勒了一幅未来处理器发展的蓝图,显然,多核GPU是亮点。
未来处理器发展的蓝图
未来处理器发展的蓝图

那么2013年,主流的GPU产品将是多是核心?Kevin认为8核GPU会出现但将是高端市场,主流市场仍将是四核为主,不过他认为明年市场上GPU跨度较大,从单核到双核到四核到8核都有出现,满足市场从低到高的需求。

近日,谷歌Nexus 10平板电脑已经面市,它的真实面貌。该机采用一块10英寸屏幕,分辨率高达2560×1600像素,像素密度为300ppi,超过了iPad4和新iPad,它采用了1.7GHz主频的三星Exynos 5250双核处理器,配备2GB RAM,集成Mali T604四核GPU,Kevin强调这样高端机型足以说明ARM GPU可以支持高端应用。

在GPU的发展策略上,Kevin介绍说ARM会坚持以较小的面积实现更高的性能,即坚持高能效的策略,同时,会考虑高性能方向,向桌面GPU看齐。
以下是各类GPU的功耗对比,可以看出,ARM GPU在单位功耗方面的性能突出,能达到每瓦48GFLOPS的特性,原高于桌面GPU的能效。

处理器

类型

GFLOPS (32bit)

GFLOPS (64bit)

Watt (TDP)

GFLOPS/Watt (32bit)

FLOPS/Watt (64bit)

Adapteva Epiphany-IV

Epiphany

100

N/A

2

50

N/A

Movidius Myriad

ARM SoC: LEON3+SHAVE

15.28

N/A

0.32

48

N/A

ZiiLabs

ARM SoC

58

N/A

?

20?

N/A

Nvidia Tesla K10

X86 GPU

4577

190

225

20.34

?

ARM + MALI T604

ARM SoC

8 + 68

N/A

4?

19?

N/A

NVidia GTX 690

X86 GPU x 2

5621

234?

300

18.74

0.78

GeForce GTX 680

X86 GPU

3090

128

195

15.85

0.65

AMD Radeon HD 7970 GHz

X86 GPU

4300

1075

300+

14.3

3.58

Intel Knight's Corner (Xeon Phi)

X87?

2000?

1000

200?

10?

5?

AMD A10-5800K + HD 7660D

X86 SoC

121 + 614

?

100

7.35

?

Intel Core i7-3770 + HD4000

X86 SoC

225 + 294,4

112 + 73.6

77

6.74

2.41

NVIDIA CARMA (complete board)

ARM + GPU

? + 200

?

40

5.00

?

IBM Power A2

Power CPU

204?

204

55

3.72?

3.72

Intel Core i7-3770

X86 CPU

225

112

?

?

?

AMD A10-5800K

X86 CPU

121

60?

?

?

?

趋势二:关注一致性,与CPU融合

在PC处理器领域,AMD以融合CPU和GPU的APU开创了新的PC处理器领域,在移动处理器领域,这个趋势仍将延续,从近日Imagination对MIPS的收购已经显现端倪。Kevin也认同这个趋势,“ARM的GPU不但注重图形处理更看重通用计算,未来CPU与GPU要走融合的道路,所以ARM在布局GPU时就考虑与未来CPU的搭配,比如我们的GPU是支持64位处理器的,所以未来处理器升级到64位我们都可以支持。”他指出,“ARM考虑到是让用户用最快的方式实现低功耗高性能处理器,未来融合CPU与GPU的Soc内部会采用ARM的AMBA总线。”

实际上,在ARM的的Mali-T600 系列 GPU 内的有个作业管理器,它可以任务管理从 CPU 卸载到 GPU,并在活动着色器内核之间实现无缝负载平衡。这个功能估计已经为未来的CPU与GPU融合埋下了伏笔,通过 ARM 的一致性和互连技术,计算任务在异类系统中进行共享处理时,可以轻松跨越 CPU、GPU 和其他可用计算资源,更高效地访问数据。

他强调ARM GPU还关注通用计算,因此,未来也将压缩DSP市场,CEVA是否感受到了压力?

从支持64位处理里来看,未来采用融合CPU与GPU的处理器将是A50系列处理器,按照某些芯片厂商的估计,预计2014年此类芯片可以面市。

趋势三:工艺升级,2014年ARM处理器采用finFET技术?

很多人认为ARM处理器在传统工艺上的升级空间已经不大,在英特尔大张旗鼓地宣传3D晶体管技术的时候,ARM 其实也也已经开始了下一代工艺技术的研发,Kevin透露ARM的PIP(物理IP)部门早与TSMC以及Global Foundries合作开始了下一代工艺finFET晶体管工艺技术的研发,这是前所未有的,预计新的工艺技术将在TSMC的16nm工艺 和Global Foundries上的14nm上实现,而新工艺可能会用于ARM下一代64位处理器上。

在具体产品发展上,在ARM公布了最新的A50系列处理器后,已经有AMD、博通(Broadcom)、Calxeda、海思半导体、三星及意法半导体等七家公司获得A53与A57处理器授权,其中,STE声称将在2014年出货A53处理器,这是否意味着2014年ARM处理器将采用finFET工艺技术?

在今年1月召开的2012国际电子器件会议(IEDM)上,TSMC已经展示有关finFET晶体管工艺技术,台积电将提供的16nm工艺金属布线部分直接沿袭20nm工艺,将晶体管部分换成16nm工艺的FinFET。与20nm工艺相比,可使晶体管的工作速度提高20%~25%,使耗电量降低35%。由于金属布线部分在20nm工艺和16nm工艺间通用,因此两工艺的芯片面积相同。与intel的工艺不同,台积电的finFET晶体管掺入了锗材料。

TSMC展示有关finFET晶体管工艺技术
TSMC展示有关finFET晶体管工艺技术

以下为采用主要GPU的处理器性能对比

GPU

应用芯片

应用设备

运算能力(GFLOPS at 200 MHz

GFLOPS in SoC

PowerVR SGX543MP4+

PSVita

PlayStation Vita

25.6

25.6+

PowerVR SGX543MP2

Apple A5

Apple iPhone 4S

12.8

16
at 250 MHz*

Mali-400 MP4

Exynos 4210

Samsung Galaxy S II

7.2

9.9
at 275 MHz

"Kal-El" GeForce

Tegra 3

ASUS Transformer Prime

4.8

9.6
at 400 MHz*

PowerVR SGX540

OMAP4460

Galaxy Nexus

3.2

6.1
at 384 MHz

Adreno 220

MSM8260

HTC Sensation

N/A

N/A

ULP GeForce

Tegra 2

Motorola Xoom

3.2

5.3
at 333 MHz

PowerVR SGX540

OMAP4430

Motorola Droid Razr

3.2

4.8
at 304 MHz

ULP GeForce

Tegra 2

LG Optimus 2X

3.2

4.8
at 300 MHz

PowerVR SGX540

Hummingbird

Samsung Galaxy S

3.2

3.2
at 200 MHz

Adreno 205

MSM8255

HTC Titan

N/A

N/A

PowerVR SGX535

Apple A4

iPhone 4

1.6

1.6
at 200 MHz*

PowerVR SGX530

OMAP3630

Motorola Droid X

1.6

1.6
at 200 MHz

Adreno 200

QSD8250

HTC HD7

N/A

N/A

公司信息: