体系结构学习10-DLP

阅读量：

DLP类型

SISD、SIMD、MISD（TPU：脉动网络）、MIMD

SIMD实现形式

同一时间不同部件共同工作(Array processor)
在同一部件顺序工作(Vector processor)

Vector Processors

Vector Register
Vector Operation:多为同一种操作，若不同数据需要不同操作可能需要使用Vector Mask.

在执行时数据之间没有数据冒险，没有转发需求。

1976 Cray-1

优点：
Vector 没有数据依赖
单个指令能够承担许多工作
访问连续规整的内存
可以回避循环
缺点
要求数据操作是规整的矢量操作，否则可能花费更多时间处理
内存会成为性能瓶颈，因为计算能力常常更强而Bandwidth不够

解决内存瓶颈：

Memory Banking：将内存分成很多小块，实现内存访问上的并行来提升带宽。

加快指令执行：

Vector Chaining：无需等待所有数据读入，读入一个就可以执行一个。
forwarding：无需等待写入，提前执行

解决数据超过VLR：

Vector Stripmining：n*VLR + m(m <VLR )

代码矢量化

Masked Vector Instruction
Vector Scatter/Gatter：寄存器散布/收集数据从内存

存在无法矢量处理的标量时，需要像CRAY-1一样让标量处理很快。

现代计算机处理DLP

SIMD
Intel的多媒体扩展：64 bit -> 2*32 bit 相当于把一个寄存器拆成一个矢量寄存器。但是没有VLR，长度固定，操作单一stride总为1
Intel AVX：256-bit register
Intel的库：mkl（software.intel.com）

GPU

2006：Nvidia的CUDA -GPU编程语言，利用多线程。（还有OpenCL）

相当于一块协处理器。

当今GPU架构——2017Volta /2018Turing

编程模式：SPMD 单程序多数据
执行模式：视为SIMD机器，多线程合并同时执行。SIMT（单个指令多个线程——一个warp包含多个线程）

Warp执行
1、控制流：可以采用Mask选择线程的执行路径。
2、Thread动态重组

Tesla v100

Volta（2017）结构
GPU-GPU直连，GDDR5显存带宽更大

Acceleration for Machine Learning

GPU：通用计算，训练或推导
FPGA：灵活
ASIC：嵌入式解决方案（TPU）

全部评论 (0)

还没有任何评论哟~

体系结构学习10-DLP

DLP类型 SISD、SIMD、MISD（TPU：脉动网络）、MIMD SIMD实现形式同一时间不同部件共同工作Arrayprocessor 在同一部件顺序工作Vectorprocessor Vec...

10.结构体习题

P5740【深基7.例9】最厉害的学生 include<iostream include<string include<cmath include<vector include<algorithm u...

ARM体系结构学习

ARM体系结构体系结构最重要的是指令系统、存储器组和存储结构。指令系统：CISC（复杂指令集计算机）和RISC（精简指令集计算机）存储结构：冯·诺依曼结构和哈佛结构冯·诺依曼结构是一种将程序指...

体系结构学习14-Multiprocessor

1、Multiprocessor 同一时间多个任务同时运行在多个处理器，并行计算。降低功耗：通过多个低频处理器降低电压从而降低功耗。提高灵活性和可扩容性，降低复杂度。提高鲁棒性：在部分机器出问题...

体系结构学习13-Memory

1、Memory概述 ProcessorandCache<—Memory<—StorageSSD/HDD 速度快于外部存储系统，但是断电后丢失数据 2、现代计算机主存成为瓶颈对于一个系统来说，主存是...

体系结构学习17-Interconnections

1、通信模式同一台计算机硬件的互联 SharedMemory：紧耦合，严格考虑coherence和一致性，但不需要单独指定数据目的地址（适用于多线程共享数据） MessagePassing：松耦合，...

ACE学习(一)体系结构

ACEAdaptiveCommunicationEnvironment是一种广泛使用的主机基础设施中间件。ACE库包含24w行c++代码，500个类，ACE简化了网络应用程序的创建、组成、配置和移植，...

体系结构学习12-Cahce

1、Cache的必要性： CPU处理速度远超内存访问速度（ProcessorMemoryGap）主要体现在 latency：主存50100ns，CPU<1ns Bandwidth：指令和数据都需要访...

体系结构学习15-cache coherence

1、CacheCoherence 现代处理器的并行代码或线程共享内存，需要保证数据一致性。从软件、硬件两个角度考虑解决cache一致性。现代处理器cache一般对程序员透明，ISA一般只提供cac...

ARM学习day1--＞ARM体系结构

目录预备知识计算机的组成部分常见原理图 ARM体系结构 ARM的三层含义 ARM公司的商业模式 ARM的型号 ARM数据和指令类型 ARM（cortexA9）处理器的工作模式 cortexA9寄...

是否确定退出登录?

体系结构学习10-DLP

DLP类型

SIMD实现形式

Vector Processors

1976 Cray-1

代码矢量化

现代计算机处理DLP

GPU

Tesla v100

Acceleration for Machine Learning

全部评论 (0)

相关文章推荐

体系结构学习10-DLP

10.结构体习题

ARM体系结构学习

体系结构学习14-Multiprocessor

体系结构学习13-Memory

体系结构学习17-Interconnections

ACE学习(一)体系结构

体系结构学习12-Cahce

体系结构学习15-cache coherence

ARM学习day1--＞ARM体系结构