layout |
---|
default |
关注模型压缩、低比特量化、移动端推理加速优化、部署
注:PC端微信链接打不开请用手机打开
- NVIDIA推出Jetson Xavier™NX,用于边缘的机器人和嵌入式计算设备 | 吉浦迅科技
摘要:NVIDIA推出了Jetson Xavier™NX,这是世界上最小、最强大的人工智能超级计算机,适用于边缘的机器人和嵌入式计算设备。
具有紧凑的外形因素比信用卡的大小,节能的Jetson Xavier NX模块提供服务器级的性能,最高可运行21个现代人工智能的工作负载,功耗低至10瓦。
Jetson Xavier NX最多可提供14TOPS(10W)或21TOPS(15W),并行运行多个神经网络,并以NANO尺寸(70x45毫米)同时处理来自多个高分辨率传感器的数据。对于已经在构建嵌入式机器的公司,Jetson Xavier NX运行在与所有Jetson产品相同的CUDA-X AI™软件架构上,确保了快速上市和低开发成本。
作为NVIDIA “同一套软件同一个梦想”架构方法的一部分,Jetson Xavier NX由NVIDIA JetPack™软件开发工具包支持,这是一个完整的AI软件堆栈,可以运行现代和复杂的AI网络、用于深度学习的加速库以及计算机视觉、计算机图形、多媒体等。 - 麒麟990下放:华为nova 6曝光 | 安兔兔
摘要:nova 6已经通过工信部入网许可,它提供4G、5G双版本,其中5G版本将搭载麒麟990 5G芯片,这是华为今年下半年推出的旗舰SOC。
麒麟990 5G采用业界最先进的7nm+ EUV工艺制程,首次将5G Modem集成到SOC中,也是世界第一款晶体管数量超过103亿的移动终端芯片。
规格方面,麒麟990 5G芯片采用Cortex A76架构,使用的是2+2+4的组合方案,大核CPU主频达到了2.86GHz,中核CPU主频为2.36GHz,小核CPU主频为1.95GHz,GPU为Mali-G76 MP16。nova 6可能会在12月份亮相。 - 三星解散自研CPU团队:Exynos旗舰芯片重回ARM公版 | 安兔兔
摘要:近日,外媒消息称,三星将解散自研CPU团队,未来将完全使用ARM公版架构。
三星的Exynos 9830将回归到ARM A77公版大核,并且未来完全依赖ARM的核心架构来完成芯片的研发设计。
分析师Patrick Moorhead认为,三星近几代的自研核心性能不错,但耗电问题始终没能较好的解决,尤其是对比竞品骁龙Kryo。
有消息称三星正在和AMD密谋合作GPU架构,未来或推出一款搭载AMD GPU技术的游戏手机。 - 高通骁龙865提前爆料:多核性能已接近苹果A13,三星7nm EUV工艺,分两个版本(附:旗舰处理器大比拼) | EETOP
摘要:高通将在12月3日在夏威夷毛伊岛举行2019年骁龙技术峰会,不出意外的话,高通骁龙865也会跟着亮相。
知名爆料人@Roland Qunandt曾透露,高通骁龙865拥有Kona和Huracan两个版本。其中一个版本将内置骁龙X55基带,支持mmWave和sub-6GHz 5G波段。爆料称,“骁龙865”的综合性能提升了20%。
现在,知名数码爆料达人@数码闲聊站曝光了高通骁龙865的部分参数,它将搭载一个高频A77+3个A77+4个A55内核。
结合此前的爆料消息,“骁龙865”有望采用三星7nm EUV工艺打造,并整合5G基带,CPU设计为1个A77定制Kryo大核,频率2.84GHz,3个A77定制Kryo中核和4个1.8GHz A55定制小核。GPU为Adreno 650,频率587MHz。芯片支持8K HDR内容,支持LPDDR5内存。 - Achronix FPGA新动作:发布最新7nm高性能FPGA 数据中心加速卡,对标赛灵思、英特尔 | EETOP
摘要:2019年10月31日, Achronix半导体公司与Molex旗下的FPGA加速器产品供应商BittWare在北京举办了面向高性能计算和数据加速应用,采用Speedster7t独立FPGA芯片的VectorPath加速卡新品发布会。
专为高性能和高带宽数据应用所设计的VectorPath加速卡具有以下硬件功能:400GbE QSFP-DD和100GbE QSFP56接口;8组GDDR6存储器可提供4 Tbps的总带宽;1组带有错误检查和纠正(ECC)功能的、运行频率为2666MHz的DDR4存储器;符合PCIe的要求并获得了认证;Speedster7t FPGA芯片集成了带宽为20 Tbps的二维片上网络(NoC);692K的6输入查找表(LUT);40K Int8 MAC提供高于80 TOps的算力;OCuLink – 用于连接扩展卡的4通道PCIe Gen 4连接器。此外。VectorPath加速卡具备丰富的生态开发环境以及高性能的存储接口。 - 20+移动端硬件,Int8极速推理,端侧推理引擎Paddle Lite 2.0 正式发布 | 机器之心
摘要:今年 8 月,飞桨(PaddlePaddle)对外发布面向终端和边缘设备的端侧推理引擎 Paddle Lite Beta 版。经过近两个多月的迭代和发展,2019 Wave Summit+ 深度学习开发者峰会上 Paddle Lite 2.0 正式版发布。
- 谷歌提出TVN视频架构:单CPU处理1s视频仅需37ms、GPU仅需10ms | 机器之心
摘要:谷歌机器人团队利用进化算法,获得低计算成本、高性能的视频网络架构 TVN,该网络运行高效,速度可达之前视频模型的 100 倍。
视频理解是计算机视觉领域中的重要问题,它有很多应用,如视频自动标注、行为识别和机器人感知。视频理解对自动智能体在现实世界中的应用有重大影响,目前它仍是一道难题。现有的解决方案计算成本高昂,最快速的算法需要在强大的 GPU 上运行才能处理超过 0.5 秒的视频片段。
为了解决该问题,谷歌机器人团队提出使用进化算法,自动设计出以原来计算成本的一部分提供相当性能的网络(即低计算成本、高性能)。具体来说,谷歌研究者提出了一种为视频理解任务设计「微」神经网络(tiny neural network)族的通用方法。
这些微神经网络可实现相当高的准确率,且运行高效,可实时或者以更快的速度运行。它们在一块 CPU 上处理约 1 秒的视频片段需要 37-100 ms,在一块 GPU 上仅需 10 ms,速度是当前模型的 100 倍。研究者将这些网络称为 Tiny Video Networks (TVN),因为此类网络仅需要极小的运行时,这在视频模型中尚属首例。
论文链接:https://arxiv.org/abs/1910.06961v1
- NetEase/Emmagee: Android performance test tool-CPU,memory,network traffic,starting time,battery current and status
摘要:兼容性测试,通常都需要在各种真机上执行相同或者类似的测试用例,所以往往采用自动化测试的手段。 同时,由于需要覆盖大量的真实设备,除了大公司会基于 Appium + Selenium Grid + OpenSTF 去搭建自己的移动设备私有云平台外,其他公司一般都会使用第三方的移动设备云测平台完成兼容性测试。 第三方的移动设备云测平台,国外最知名的是 SauceLab,国内主流的是 Testin。
对于 Android 系统,推荐一款 Android 的轻量级性能监控小工具 Emmagee,类似于 Windows 系统性能监视器,能够实时显示 App 运行过程中 CPU、内存和流量等信息。 - ARM-software/optimized-routines: Optimized implementations of various library functions for ARM architecture processors
- codeplaysoftware/SYCL-DNN: The SYCL-DNN neural network acceleration library.
摘要:补充说明:SYCL是OpenCL的高级编程模型,作为基于纯C ++ 11(用于SYCL 1.2.1)和C ++ 14(用于SYCL 2.2)的单源特定于域的嵌入式语言(DSEL), 用于提高编程效率。 这是由Khronos Group于2014年3月发布的标准。 - codeplaysoftware/sycl-blas: An implementation of BLAS using the SYCL open standard for acceleration on OpenCL devices
- openstf/stf: Control and manage Android devices from your browser.
- TVM Meetup@Shanghai 见闻 | HelloGCC
摘要:2019年11月16日周六,在上海虹桥枢的某酒店会议厅,国内第一次专业的 TVM Meetup 完满的结束。主要内容包括:自动化(调优)是未来,异构设备大一统 Runtime,虚拟机:支持动态 workload,能够裸机运行的 uTVM,支持NPU的快速设计等等……
阿里巴巴PAI事业部的 TensorCore and Mixed-Precision Training/Inference 报告的内容。整理如下:https://mp.weixin.qq.com/s/oswwdXAkIL47mJTOU0AsGg - MLPerf发布首个AI芯片推理测试排行榜:阿里平头哥含光800获得多项第一 | 量子位
摘要:MLPerf基准联盟公布了第一批AI芯片的推理测试结果,对来自19个公司机构的594种芯片在各种自然语言和计算机视觉任务中的表现进行了审核。
来自中国、以色列、韩国、英国和美国的公司纷纷提交了测试结果,这些公司包括:阿里巴巴、戴尔EMC、谷歌、浪潮、英特尔、英伟达、米兰理工大学、高通和腾讯等等。
MLPerf推理基准用于衡量训练过的神经网络在不同量级的设备(物联网、智能手机、PC、服务器)、各种应用(自动驾驶、NLP、计算机视觉)上处理新数据的速度。
测试结果类似于PC硬件上的性能天梯图,覆盖了性能差异4个数量级,功耗差异3个数量级的设备,范围从嵌入式设备和智能手机到大型数据中心系统。 - 能效优先:eyeriss CNN加速器的设计思路 | MikesICroom
摘要:eyeriss是MIT提出的深度学习加速器,目前总共有2代芯片,v1和v2。第一代是基础结构,第二代在v1的基础上提供了稀疏化和更灵活的网络结构。eyeriss的结构和我们熟知的TPU,DLA,Thinker等有所不同,主要体现在其PE计算的方法和数据复用的结构上,应该更类似于功能弱化的DPU的PE。本文通过分析eyeriss的具体结构,探讨这种独立PE控制结构的优劣。 - Adobe黑科技用AI帮你选滤镜,手机拍出梦幻大 | 新智元
摘要:Adobe正在启动一个免费的AI驱动的Photoshop Camera应用程序,该app使用Adobe的人工智能平台Sensei识别照片中的对象(无论是自拍照,风景还是食物),并自动建议要应用的图像滤镜。滤镜可以在屏幕上实时使用,也可以应用于相册中的照片。 - 单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍 | 机器之心
摘要:2016 年底,谷歌 TPU 团队的十位核心开发者中的八位悄悄离职,创办了一家名为 Groq 的机器学习系统公司。在此后的三年里,这家公司一直很低调。但最近,他们带着一款名为 TSP 的芯片架构出现在公众视野里。
TSP 的全称是 Tensor Streaming Processor,专为机器学习等 AI 相关需求打造。该架构在单块芯片上可以实现每秒 1000 万亿(10 的 15 次方)次运算,是全球首个实现该级别性能的架构,其浮点运算性能可达每秒 250 万亿次(TFLOPS)。在摩尔定律走向消亡的背景下,这一架构的问世标志着芯片之争从晶体管转向架构。
250 TFLOPS 浮点运算性能是什么概念?目前的世界第一超级计算机 Summit,其峰值算力为 200,794.9 TFLOPS,它的背后是 28,000 块英伟达 Volta GPU。如果 TSP 达到了类似的效率,仅需 803 块就可以实现同样的性能。
Groq 在一份白皮书中介绍了这项全新的架构设计。此外,他们还将在于美国丹佛举办的第 23 届国际超算高峰论坛上展示这一成果。
白皮书地址:https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf
- 2019-10-31
- 2019-10-17
- 2019-10-03
- 2019-09-16
- 2019-08-30
- 2019-08-15
- 2019-07-30
- 2019-07-15
- 2019-06-29
- 2019-06-17
- 2019-05-30
- 2019-05-15
- 2019-04-27
- 2019-04-13
- 2019-03-31
Wechat ID: NeuroMem
Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。