layout
default

嵌入式AI简报 (2019-11-18)

关注模型压缩、低比特量化、移动端推理加速优化、部署
注：PC端微信链接打不开请用手机打开

业界新闻

NVIDIA推出Jetson Xavier™NX，用于边缘的机器人和嵌入式计算设备 | 吉浦迅科技
摘要：NVIDIA推出了Jetson Xavier™NX，这是世界上最小、最强大的人工智能超级计算机，适用于边缘的机器人和嵌入式计算设备。
具有紧凑的外形因素比信用卡的大小，节能的Jetson Xavier NX模块提供服务器级的性能，最高可运行21个现代人工智能的工作负载，功耗低至10瓦。
Jetson Xavier NX最多可提供14TOPS(10W)或21TOPS(15W)，并行运行多个神经网络，并以NANO尺寸(70x45毫米)同时处理来自多个高分辨率传感器的数据。对于已经在构建嵌入式机器的公司，Jetson Xavier NX运行在与所有Jetson产品相同的CUDA-X AI™软件架构上，确保了快速上市和低开发成本。
作为NVIDIA “同一套软件同一个梦想”架构方法的一部分，Jetson Xavier NX由NVIDIA JetPack™软件开发工具包支持，这是一个完整的AI软件堆栈，可以运行现代和复杂的AI网络、用于深度学习的加速库以及计算机视觉、计算机图形、多媒体等。
麒麟990下放:华为nova 6曝光 | 安兔兔
摘要：nova 6已经通过工信部入网许可，它提供4G、5G双版本，其中5G版本将搭载麒麟990 5G芯片，这是华为今年下半年推出的旗舰SOC。
麒麟990 5G采用业界最先进的7nm+ EUV工艺制程，首次将5G Modem集成到SOC中，也是世界第一款晶体管数量超过103亿的移动终端芯片。
规格方面，麒麟990 5G芯片采用Cortex A76架构，使用的是2+2+4的组合方案，大核CPU主频达到了2.86GHz，中核CPU主频为2.36GHz，小核CPU主频为1.95GHz，GPU为Mali-G76 MP16。nova 6可能会在12月份亮相。
三星解散自研CPU团队：Exynos旗舰芯片重回ARM公版 | 安兔兔
摘要：近日，外媒消息称，三星将解散自研CPU团队，未来将完全使用ARM公版架构。
三星的Exynos 9830将回归到ARM A77公版大核，并且未来完全依赖ARM的核心架构来完成芯片的研发设计。
分析师Patrick Moorhead认为，三星近几代的自研核心性能不错，但耗电问题始终没能较好的解决，尤其是对比竞品骁龙Kryo。
有消息称三星正在和AMD密谋合作GPU架构，未来或推出一款搭载AMD GPU技术的游戏手机。
高通骁龙865提前爆料：多核性能已接近苹果A13，三星7nm EUV工艺，分两个版本（附：旗舰处理器大比拼） | EETOP
摘要：高通将在12月3日在夏威夷毛伊岛举行2019年骁龙技术峰会，不出意外的话，高通骁龙865也会跟着亮相。
知名爆料人@Roland Qunandt曾透露，高通骁龙865拥有Kona和Huracan两个版本。其中一个版本将内置骁龙X55基带，支持mmWave和sub-6GHz 5G波段。爆料称，“骁龙865”的综合性能提升了20%。
现在，知名数码爆料达人@数码闲聊站曝光了高通骁龙865的部分参数，它将搭载一个高频A77+3个A77+4个A55内核。
结合此前的爆料消息，“骁龙865”有望采用三星7nm EUV工艺打造，并整合5G基带，CPU设计为1个A77定制Kryo大核，频率2.84GHz，3个A77定制Kryo中核和4个1.8GHz A55定制小核。GPU为Adreno 650，频率587MHz。芯片支持8K HDR内容，支持LPDDR5内存。
Achronix FPGA新动作：发布最新7nm高性能FPGA 数据中心加速卡，对标赛灵思、英特尔 | EETOP
摘要：2019年10月31日, Achronix半导体公司与Molex旗下的FPGA加速器产品供应商BittWare在北京举办了面向高性能计算和数据加速应用，采用Speedster7t独立FPGA芯片的VectorPath加速卡新品发布会。
专为高性能和高带宽数据应用所设计的VectorPath加速卡具有以下硬件功能：400GbE QSFP-DD和100GbE QSFP56接口；8组GDDR6存储器可提供4 Tbps的总带宽；1组带有错误检查和纠正（ECC）功能的、运行频率为2666MHz的DDR4存储器；符合PCIe的要求并获得了认证；Speedster7t FPGA芯片集成了带宽为20 Tbps的二维片上网络（NoC）；692K的6输入查找表（LUT）；40K Int8 MAC提供高于80 TOps的算力；OCuLink – 用于连接扩展卡的4通道PCIe Gen 4连接器。此外。VectorPath加速卡具备丰富的生态开发环境以及高性能的存储接口。
20+移动端硬件，Int8极速推理，端侧推理引擎Paddle Lite 2.0 正式发布 | 机器之心
摘要：今年 8 月，飞桨（PaddlePaddle）对外发布面向终端和边缘设备的端侧推理引擎 Paddle Lite Beta 版。经过近两个多月的迭代和发展，2019 Wave Summit+ 深度学习开发者峰会上 Paddle Lite 2.0 正式版发布。

论文

谷歌提出TVN视频架构:单CPU处理1s视频仅需37ms、GPU仅需10ms | 机器之心
摘要：谷歌机器人团队利用进化算法，获得低计算成本、高性能的视频网络架构 TVN，该网络运行高效，速度可达之前视频模型的 100 倍。
视频理解是计算机视觉领域中的重要问题，它有很多应用，如视频自动标注、行为识别和机器人感知。视频理解对自动智能体在现实世界中的应用有重大影响，目前它仍是一道难题。现有的解决方案计算成本高昂，最快速的算法需要在强大的 GPU 上运行才能处理超过 0.5 秒的视频片段。
为了解决该问题，谷歌机器人团队提出使用进化算法，自动设计出以原来计算成本的一部分提供相当性能的网络（即低计算成本、高性能）。具体来说，谷歌研究者提出了一种为视频理解任务设计「微」神经网络（tiny neural network）族的通用方法。
这些微神经网络可实现相当高的准确率，且运行高效，可实时或者以更快的速度运行。它们在一块 CPU 上处理约 1 秒的视频片段需要 37-100 ms，在一块 GPU 上仅需 10 ms，速度是当前模型的 100 倍。研究者将这些网络称为 Tiny Video Networks (TVN)，因为此类网络仅需要极小的运行时，这在视频模型中尚属首例。
论文链接：https://arxiv.org/abs/1910.06961v1

开源项目

NetEase/Emmagee: Android performance test tool-CPU,memory,network traffic,starting time,battery current and status
摘要：兼容性测试，通常都需要在各种真机上执行相同或者类似的测试用例，所以往往采用自动化测试的手段。同时，由于需要覆盖大量的真实设备，除了大公司会基于 Appium + Selenium Grid + OpenSTF 去搭建自己的移动设备私有云平台外，其他公司一般都会使用第三方的移动设备云测平台完成兼容性测试。第三方的移动设备云测平台，国外最知名的是 SauceLab，国内主流的是 Testin。
对于 Android 系统，推荐一款 Android 的轻量级性能监控小工具 Emmagee，类似于 Windows 系统性能监视器，能够实时显示 App 运行过程中 CPU、内存和流量等信息。
ARM-software/optimized-routines: Optimized implementations of various library functions for ARM architecture processors
codeplaysoftware/SYCL-DNN: The SYCL-DNN neural network acceleration library.
摘要：补充说明：SYCL是OpenCL的高级编程模型，作为基于纯C ++ 11（用于SYCL 1.2.1）和C ++ 14(用于SYCL 2.2)的单源特定于域的嵌入式语言(DSEL), 用于提高编程效率。这是由Khronos Group于2014年3月发布的标准。
codeplaysoftware/sycl-blas: An implementation of BLAS using the SYCL open standard for acceleration on OpenCL devices
openstf/stf: Control and manage Android devices from your browser.

博文

TVM Meetup@Shanghai 见闻 | HelloGCC
摘要：2019年11月16日周六，在上海虹桥枢的某酒店会议厅，国内第一次专业的 TVM Meetup 完满的结束。主要内容包括：自动化（调优）是未来，异构设备大一统 Runtime，虚拟机：支持动态 workload，能够裸机运行的 uTVM，支持NPU的快速设计等等……
阿里巴巴PAI事业部的 TensorCore and Mixed-Precision Training/Inference 报告的内容。整理如下：https://mp.weixin.qq.com/s/oswwdXAkIL47mJTOU0AsGg
MLPerf发布首个AI芯片推理测试排行榜：阿里平头哥含光800获得多项第一 | 量子位
摘要：MLPerf基准联盟公布了第一批AI芯片的推理测试结果，对来自19个公司机构的594种芯片在各种自然语言和计算机视觉任务中的表现进行了审核。
来自中国、以色列、韩国、英国和美国的公司纷纷提交了测试结果，这些公司包括：阿里巴巴、戴尔EMC、谷歌、浪潮、英特尔、英伟达、米兰理工大学、高通和腾讯等等。
MLPerf推理基准用于衡量训练过的神经网络在不同量级的设备（物联网、智能手机、PC、服务器）、各种应用（自动驾驶、NLP、计算机视觉）上处理新数据的速度。
测试结果类似于PC硬件上的性能天梯图，覆盖了性能差异4个数量级，功耗差异3个数量级的设备，范围从嵌入式设备和智能手机到大型数据中心系统。
能效优先：eyeriss CNN加速器的设计思路 | MikesICroom
摘要：eyeriss是MIT提出的深度学习加速器，目前总共有2代芯片，v1和v2。第一代是基础结构，第二代在v1的基础上提供了稀疏化和更灵活的网络结构。eyeriss的结构和我们熟知的TPU，DLA，Thinker等有所不同，主要体现在其PE计算的方法和数据复用的结构上，应该更类似于功能弱化的DPU的PE。本文通过分析eyeriss的具体结构，探讨这种独立PE控制结构的优劣。
Adobe黑科技用AI帮你选滤镜，手机拍出梦幻大 | 新智元
摘要：Adobe正在启动一个免费的AI驱动的Photoshop Camera应用程序，该app使用Adobe的人工智能平台Sensei识别照片中的对象（无论是自拍照，风景还是食物），并自动建议要应用的图像滤镜。滤镜可以在屏幕上实时使用，也可以应用于相册中的照片。
单芯片每秒1000万亿次运算：谷歌TPU原班团队全新AI架构，晶体管性能提升6倍 | 机器之心
摘要：2016 年底，谷歌 TPU 团队的十位核心开发者中的八位悄悄离职，创办了一家名为 Groq 的机器学习系统公司。在此后的三年里，这家公司一直很低调。但最近，他们带着一款名为 TSP 的芯片架构出现在公众视野里。
TSP 的全称是 Tensor Streaming Processor，专为机器学习等 AI 相关需求打造。该架构在单块芯片上可以实现每秒 1000 万亿（10 的 15 次方）次运算，是全球首个实现该级别性能的架构，其浮点运算性能可达每秒 250 万亿次（TFLOPS）。在摩尔定律走向消亡的背景下，这一架构的问世标志着芯片之争从晶体管转向架构。
250 TFLOPS 浮点运算性能是什么概念？目前的世界第一超级计算机 Summit，其峰值算力为 200,794.9 TFLOPS，它的背后是 28,000 块英伟达 Volta GPU。如果 TSP 达到了类似的效率，仅需 803 块就可以实现同样的性能。
Groq 在一份白皮书中介绍了这项全新的架构设计。此外，他们还将在于美国丹佛举办的第 23 届国际超算高峰论坛上展示这一成果。
白皮书地址：https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf

往期回顾

2019-10-31
2019-10-17
2019-10-03
2019-09-16
2019-08-30
2019-08-15
2019-07-30
2019-07-15
2019-06-29
2019-06-17
2019-05-30
2019-05-15
2019-04-27
2019-04-13
2019-03-31

Wechat ID: NeuroMem
Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai

本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2019-11-18.md

2019-11-18.md

嵌入式AI简报 (2019-11-18)

业界新闻

论文

开源项目

博文

往期回顾

Files

2019-11-18.md

Latest commit

History

2019-11-18.md

File metadata and controls

嵌入式AI简报 (2019-11-18)

业界新闻

论文

开源项目

博文

往期回顾