• 澳门威尼斯人官网:比特大陆第二代人工智能芯

    2018-12-06 16:05:02

    近来,坊间风闻良久的比特大陆第二代人工智能芯片BM1682,正式呈现在其官网页面。依据比特大陆一向奥秘务实的风格,信任依据BM1682的板卡、服务器也现已备好了。笔者在芯片职业浸

      近来,坊间风闻良久的比特大陆第二代人工智能芯片BM1682,正式呈现在其官网页面。依据比特大陆一向奥秘务实的风格,信任依据BM1682的板卡、服务器也现已备好了。笔者在芯片职业浸淫十多年,测验依据比特大陆官网发布的产品白皮书,来剖析一下这两代人工智能芯片之间的异同,测验谈一谈比特大陆在人工智能范畴的目的和野心。2017年第4季度,比特大陆正式推出了其人工智能品牌算丰(SOPHON),发布了全球首款揭露出售的TPU(Tensor Processing Unit张量核算单元)芯片BM1680,澳门威尼斯人官网专门用于人工智能中的深度学习加快。时隔缺乏一年,2018年3月,比特大陆又推出其第二款TPU芯片BM1682,依据开始发表的材料显现,BM1682是一块专门用于图画/视频处理方向的人工智能芯片。BM1682与BM1680使用了相同的深度学习算法的硬件加快模块,但比较BM1680而言,BM1682具有更强壮的深度学习算法履行才能,此外BM1682还增加了视频处理子模块,以及适用于详细使用场景的许多功用模块。下面咱们对其两者进行一个详细的比照评测:顶层架构——BM1682定位更细分从顶层架构能够看出,BM1680和BM1682均集成了深度学习算法所用到的中心模块NPUs。NPU是比特大陆自行研制的深度学习算法硬件加快器,用于加快深度学习算法的履行速度。从顶层架构图上能够看到,BM1680比BM1682额定集成了高度定制的BMDNN Chip Link Subsystem。

       该子模块能够在高速SerDes上供给安稳、灵敏、低推迟的链路。用户能够经过该链路将多个BM1680芯片衔接成一个一致的全体,使其协同作业,大大进步体系的运算才能。BM1682并没有集成此模块,这大概是依据BM1682专心化的商场使用定位,以及处理速度满意满意用户对图画/视频处理需求而考虑的。从顶层架构图上能够看到与BM1680比较,BM1682芯片的全体架构发生了不小的改变,其定位则愈加细分清晰。从右上角增加的Video Subsystem模块能够清晰看出,该款芯片定坐落图画/视频处理方向。(数据来自比特大陆官网)模块细节——BM1682规划更丰厚BM1682的深度学习加快的中心功用模块与BM1680是相同的。两款芯片均包含了深度学习的中心单元—硬件加快器NPU Subsystem。两者的NPU Subsystem均各自集成了64个NPU单元,一致由NPU Schedule Engine进行调度(BM1682架构图中未表现),最大化的进步了NPUs的功率,加快了深度学习算法inference (推演)与training (练习)的速度。依据开始材料显现,两者在MCU的装备上是有少许差异的,但由于材料不全面,故无法评断出两者的MCU处理才能的不同。除了深度学习算法硬件加快模块(NPUs)、用于高速衔接其他BM1680的Chip Link模块之外,BM1680还供给了4个独立的DDR4通道,最高支撑16GB的DDR3 或 DDR4 DRAM拓宽,用于高速数据缓存读取,以进步体系的履行速度。BM1680还加入了Global DMA模块。DMA用于供给数据搬移功用,这能够在大块数据进行读写搬移时不占用MCU的资源,如在DDR4 的RAM中搬移数据时。关于大数据量的深度学习体系,DMA能够极大的进步功率。BM1680的Peripheral Subsystem 供给了UART、SPI、IIC与GPIO等接口,用于外接传感器,或与外界进行通讯、记载、操控等操作。这些接口都归于通用接口,可见BM1680的定位就是通用深度学习芯片,在外设上没有给与太多支撑。从架构图看,BM1682显着杂乱了许多。其额定增加了AP (Application Processor) Subsystem和Video Subsystem(视频处理体系)。Video Subsystem(视频子体系)则首要专心于视频预处理的相关使命。BM1682的Video Subsystem供给了2个H.264视频解码器,1个H.265解码器。H.264 /H.265均为视频编码方法,也是比较盛行的视频编码的两种方法。相对而言,H.265视频编码比H.264具有更高的压缩比、更强的网络纠错适应才能,但考虑到现阶段在安防、智能家居和互联网视频范畴中依然仍是以H.264编码的视频和视频设备为主,两者2:1的译码器数量在视频支撑类型和解码带宽做了一个适宜的权衡。比较交心的是,BM1682供给了Video Post-Processing功用,该子模块用于对选用H.264或H.265编码的视频进行烘托处理,这些烘托处理首要包含色彩空间转化、视频取舍、缩放操作、仿射改换、多帧拼接等惯例操作。经过Video Post-Processing对外界进入的视频数据进行硬件加快预处理后,Video Subsystem会将处理后数据经过总线传输给NPUs、DRAM、AP System或外接存储设备,然后进行后续的深度学习处理等操作。BM1682供给了丰厚的外界交互接口,如高速接口PCIE、以太网、SDIO3.0、WIFI等。BM1682将数据处理完毕后能够很便利的经过PCIE接口、以太网接口、或许WIFI接口将数据传输到总服务器。若是条件约束没有网络接入点,用户能够挑选经过接入SDIO3.0的eMMC存储器或是PCIE式存储器将数据存储到本地存储设备。可见,BM1682对其或许的使用场景做了充沛的考虑并给予了硬件支撑,用户能够依据需求,灵敏便利的进行装备。Peripheral Subsystem方面,BM1682比BM1680要丰厚的多,这大大便利了用户进行体系拓宽,如增加额定传感器等。BM1682的外设包含2个SPI接口、4个UART接口、4个IIC、4路PWM生成器、一块内嵌式SPI Flash、WDG、Timer、GPIO、PVT Sensor、Top Reg、Efuse、ROM。由给出的外设能够看到,BM1682的规划考虑了装备、存储、对外界体系实时操控、以及加密维护等功用,极大进步了体系的灵敏性、安全性,省却了用户额定增加相关功用的开发本钱。功用剖析——BM1682极大进步NPU深度学习硬件加快器是人工智能的中心。两者NPUs模块集成了64个NPUs单元,经过NPU Schedule Engine进行调度。BM1682中每个NPU含有32个EUs,BM1680不知道。依据BM1680、BM1682数据手册显现,单片BM1680单精度运算速度为2TFLops;单片BM1682单精度运算速度为3TFLops。BM1682的单片运算速度高出BM1680 50%。BM1680单片的运转速度低于BM1682,但BM1680支撑级联作业形式,数个BM1680能够经过高速的Chip Link Subsystem组成一个集群式的体系,进行更高处理量的运算处理使命。BM1682不具备级联功用。下图为BM1680芯片的级联衔接示目的。图|级联方法:每个Node代表一个BM1680电学方面,依据两者的数据手册显现:满载作业时BM1680的TPD(Thermal Design Power热规划功耗)为41W;:满载作业时BM1682的TPD小于50W。从功耗视点剖析,BM1680的2TFlops的NPUs速度应该是有所保存的。(数据来自比特大陆官网)开发生态——两代芯片都很到位BM1680、BM1682均支撑的干流的CNN/RNN/DNN深度学习架构,经过这两款TPU芯片进行硬件加快,能够极大的进步深度学习算法的履行速度。当然,BM1680和BM1682也能够经过根底的矩阵运算进行深度学习的模型、架构的建立。在开发生态方面,两款芯片的支撑也是很到位的。BM1680、BM1682均对后端用户供给SDK;假如用户需求进行深度优化以获取算法最优功用,能够联络厂家取得相关教育支撑。使用范畴——BM1682更专心图画、视频处理由前述剖析可知,BM1680为通用性人工智能芯片,其使用方向没有偏向性,芯片内部首要集成了深度学习算法所需求的根本模块,使用各种人工智能的深度学习算法,经过增加相应的外围电路模块,BM1680能够建立成适用于任一个范畴的深度学习体系——像图片辨认、自然语言处理、文本处理、金融、医学等等巨细范畴均可挑选该芯片完成。BM1680愈加具有灵敏性。而且,BM1680能够进行级联,所以关于需求处理巨大数据量的人工智能深度学习体系,BM1680尤为适宜。像企业级使用、海量数据处理等方面,经过简略的级联BM1680就能够获取相匹配的核算才能,灵敏而强壮。而BM1682则是一个升级版的BM1680并装备了专门用于视频处理的集成体系,整个BM1682芯片搭载了视频处理所需求的悉数中心模块,以及对其详细使用场景适应性的辅佐模块。BM1682关于需求进行图画/视频处理的商场使用可谓是非常快捷了。BM1682的辅佐功用装备模块自带有线与无线网络功用,关于视频监控方向的商场使用非常便利,无线功用更是省掉了网线布线的繁琐施工,而且可用于完成长途监控。关于一些没有网络的场合,如科研范畴的户外视频搜集处理、闭路视频监控等,BM1682能够轻松的增加外置存储设备进行数据备份搜集。BM1682作为图画/视频方向深度学习的SoC片上体系,商场前景很是宽广,这款新品仍是很值得等待的。