Skip to content

Latest commit

 

History

History
110 lines (90 loc) · 14.4 KB

2019-11-18.md

File metadata and controls

110 lines (90 loc) · 14.4 KB
layout
default

嵌入式AI简报 (2019-11-18)

关注模型压缩、低比特量化、移动端推理加速优化、部署
注:PC端微信链接打不开请用手机打开

业界新闻

  • NVIDIA推出Jetson Xavier™NX,用于边缘的机器人和嵌入式计算设备 | 吉浦迅科技
    摘要:NVIDIA推出了Jetson Xavier™NX,这是世界上最小、最强大的人工智能超级计算机,适用于边缘的机器人和嵌入式计算设备。
    具有紧凑的外形因素比信用卡的大小,节能的Jetson Xavier NX模块提供服务器级的性能,最高可运行21个现代人工智能的工作负载,功耗低至10瓦。
    Jetson Xavier NX最多可提供14TOPS(10W)或21TOPS(15W),并行运行多个神经网络,并以NANO尺寸(70x45毫米)同时处理来自多个高分辨率传感器的数据。对于已经在构建嵌入式机器的公司,Jetson Xavier NX运行在与所有Jetson产品相同的CUDA-X AI™软件架构上,确保了快速上市和低开发成本。
    作为NVIDIA “同一套软件同一个梦想”架构方法的一部分,Jetson Xavier NX由NVIDIA JetPack™软件开发工具包支持,这是一个完整的AI软件堆栈,可以运行现代和复杂的AI网络、用于深度学习的加速库以及计算机视觉、计算机图形、多媒体等。
  • 麒麟990下放:华为nova 6曝光 | 安兔兔
    摘要:nova 6已经通过工信部入网许可,它提供4G、5G双版本,其中5G版本将搭载麒麟990 5G芯片,这是华为今年下半年推出的旗舰SOC。
    麒麟990 5G采用业界最先进的7nm+ EUV工艺制程,首次将5G Modem集成到SOC中,也是世界第一款晶体管数量超过103亿的移动终端芯片。
    规格方面,麒麟990 5G芯片采用Cortex A76架构,使用的是2+2+4的组合方案,大核CPU主频达到了2.86GHz,中核CPU主频为2.36GHz,小核CPU主频为1.95GHz,GPU为Mali-G76 MP16。nova 6可能会在12月份亮相。
  • 三星解散自研CPU团队:Exynos旗舰芯片重回ARM公版 | 安兔兔
    摘要:近日,外媒消息称,三星将解散自研CPU团队,未来将完全使用ARM公版架构。
    三星的Exynos 9830将回归到ARM A77公版大核,并且未来完全依赖ARM的核心架构来完成芯片的研发设计。
    分析师Patrick Moorhead认为,三星近几代的自研核心性能不错,但耗电问题始终没能较好的解决,尤其是对比竞品骁龙Kryo。
    有消息称三星正在和AMD密谋合作GPU架构,未来或推出一款搭载AMD GPU技术的游戏手机。
  • 高通骁龙865提前爆料:多核性能已接近苹果A13,三星7nm EUV工艺,分两个版本(附:旗舰处理器大比拼) | EETOP
    摘要:高通将在12月3日在夏威夷毛伊岛举行2019年骁龙技术峰会,不出意外的话,高通骁龙865也会跟着亮相。
    知名爆料人@Roland Qunandt曾透露,高通骁龙865拥有Kona和Huracan两个版本。其中一个版本将内置骁龙X55基带,支持mmWave和sub-6GHz 5G波段。爆料称,“骁龙865”的综合性能提升了20%。
    现在,知名数码爆料达人@数码闲聊站曝光了高通骁龙865的部分参数,它将搭载一个高频A77+3个A77+4个A55内核。
    结合此前的爆料消息,“骁龙865”有望采用三星7nm EUV工艺打造,并整合5G基带,CPU设计为1个A77定制Kryo大核,频率2.84GHz,3个A77定制Kryo中核和4个1.8GHz A55定制小核。GPU为Adreno 650,频率587MHz。芯片支持8K HDR内容,支持LPDDR5内存。
  • Achronix FPGA新动作:发布最新7nm高性能FPGA 数据中心加速卡,对标赛灵思、英特尔 | EETOP
    摘要:2019年10月31日, Achronix半导体公司与Molex旗下的FPGA加速器产品供应商BittWare在北京举办了面向高性能计算和数据加速应用,采用Speedster7t独立FPGA芯片的VectorPath加速卡新品发布会。
    专为高性能和高带宽数据应用所设计的VectorPath加速卡具有以下硬件功能:400GbE QSFP-DD和100GbE QSFP56接口;8组GDDR6存储器可提供4 Tbps的总带宽;1组带有错误检查和纠正(ECC)功能的、运行频率为2666MHz的DDR4存储器;符合PCIe的要求并获得了认证;Speedster7t FPGA芯片集成了带宽为20 Tbps的二维片上网络(NoC);692K的6输入查找表(LUT);40K Int8 MAC提供高于80 TOps的算力;OCuLink – 用于连接扩展卡的4通道PCIe Gen 4连接器。此外。VectorPath加速卡具备丰富的生态开发环境以及高性能的存储接口。
  • 20+移动端硬件,Int8极速推理,端侧推理引擎Paddle Lite 2.0 正式发布 | 机器之心
    摘要:今年 8 月,飞桨(PaddlePaddle)对外发布面向终端和边缘设备的端侧推理引擎 Paddle Lite Beta 版。经过近两个多月的迭代和发展,2019 Wave Summit+ 深度学习开发者峰会上 Paddle Lite 2.0 正式版发布。

论文

  • 谷歌提出TVN视频架构:单CPU处理1s视频仅需37ms、GPU仅需10ms | 机器之心
    摘要:谷歌机器人团队利用进化算法,获得低计算成本、高性能的视频网络架构 TVN,该网络运行高效,速度可达之前视频模型的 100 倍。
    视频理解是计算机视觉领域中的重要问题,它有很多应用,如视频自动标注、行为识别和机器人感知。视频理解对自动智能体在现实世界中的应用有重大影响,目前它仍是一道难题。现有的解决方案计算成本高昂,最快速的算法需要在强大的 GPU 上运行才能处理超过 0.5 秒的视频片段。
    为了解决该问题,谷歌机器人团队提出使用进化算法,自动设计出以原来计算成本的一部分提供相当性能的网络(即低计算成本、高性能)。具体来说,谷歌研究者提出了一种为视频理解任务设计「微」神经网络(tiny neural network)族的通用方法。
    这些微神经网络可实现相当高的准确率,且运行高效,可实时或者以更快的速度运行。它们在一块 CPU 上处理约 1 秒的视频片段需要 37-100 ms,在一块 GPU 上仅需 10 ms,速度是当前模型的 100 倍。研究者将这些网络称为 Tiny Video Networks (TVN),因为此类网络仅需要极小的运行时,这在视频模型中尚属首例。
    论文链接:https://arxiv.org/abs/1910.06961v1

开源项目

博文

  • TVM Meetup@Shanghai 见闻 | HelloGCC
    摘要:2019年11月16日周六,在上海虹桥枢的某酒店会议厅,国内第一次专业的 TVM Meetup 完满的结束。主要内容包括:自动化(调优)是未来,异构设备大一统 Runtime,虚拟机:支持动态 workload,能够裸机运行的 uTVM,支持NPU的快速设计等等……
    阿里巴巴PAI事业部的 TensorCore and Mixed-Precision Training/Inference 报告的内容。整理如下:https://mp.weixin.qq.com/s/oswwdXAkIL47mJTOU0AsGg
  • MLPerf发布首个AI芯片推理测试排行榜:阿里平头哥含光800获得多项第一 | 量子位
    摘要:MLPerf基准联盟公布了第一批AI芯片的推理测试结果,对来自19个公司机构的594种芯片在各种自然语言和计算机视觉任务中的表现进行了审核。
    来自中国、以色列、韩国、英国和美国的公司纷纷提交了测试结果,这些公司包括:阿里巴巴、戴尔EMC、谷歌、浪潮、英特尔、英伟达、米兰理工大学、高通和腾讯等等。
    MLPerf推理基准用于衡量训练过的神经网络在不同量级的设备(物联网、智能手机、PC、服务器)、各种应用(自动驾驶、NLP、计算机视觉)上处理新数据的速度。
    测试结果类似于PC硬件上的性能天梯图,覆盖了性能差异4个数量级,功耗差异3个数量级的设备,范围从嵌入式设备和智能手机到大型数据中心系统。
  • 能效优先:eyeriss CNN加速器的设计思路 | MikesICroom
    摘要:eyeriss是MIT提出的深度学习加速器,目前总共有2代芯片,v1和v2。第一代是基础结构,第二代在v1的基础上提供了稀疏化和更灵活的网络结构。eyeriss的结构和我们熟知的TPU,DLA,Thinker等有所不同,主要体现在其PE计算的方法和数据复用的结构上,应该更类似于功能弱化的DPU的PE。本文通过分析eyeriss的具体结构,探讨这种独立PE控制结构的优劣。
  • Adobe黑科技用AI帮你选滤镜,手机拍出梦幻大 | 新智元
    摘要:Adobe正在启动一个免费的AI驱动的Photoshop Camera应用程序,该app使用Adobe的人工智能平台Sensei识别照片中的对象(无论是自拍照,风景还是食物),并自动建议要应用的图像滤镜。滤镜可以在屏幕上实时使用,也可以应用于相册中的照片。
  • 单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍 | 机器之心
    摘要:2016 年底,谷歌 TPU 团队的十位核心开发者中的八位悄悄离职,创办了一家名为 Groq 的机器学习系统公司。在此后的三年里,这家公司一直很低调。但最近,他们带着一款名为 TSP 的芯片架构出现在公众视野里。
    TSP 的全称是 Tensor Streaming Processor,专为机器学习等 AI 相关需求打造。该架构在单块芯片上可以实现每秒 1000 万亿(10 的 15 次方)次运算,是全球首个实现该级别性能的架构,其浮点运算性能可达每秒 250 万亿次(TFLOPS)。在摩尔定律走向消亡的背景下,这一架构的问世标志着芯片之争从晶体管转向架构。
    250 TFLOPS 浮点运算性能是什么概念?目前的世界第一超级计算机 Summit,其峰值算力为 200,794.9 TFLOPS,它的背后是 28,000 块英伟达 Volta GPU。如果 TSP 达到了类似的效率,仅需 803 块就可以实现同样的性能。
    Groq 在一份白皮书中介绍了这项全新的架构设计。此外,他们还将在于美国丹佛举办的第 23 届国际超算高峰论坛上展示这一成果。
    白皮书地址:https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf

wechat_qrcode

Wechat ID: NeuroMem
Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai


知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。