layout
default

嵌入式AI简报 (2019-05-15)

关注模型压缩、低比特量化、移动端推理加速优化、部署
注：PC端微信链接打不开请用手机打开

业界新闻

MIT初创公司发布全球首个光子AI芯片原型！独立光学计算硬件，庞大系统成功集成至常规板卡丨 DeepTech深科技
摘要：光子芯片完成矩阵乘法所用的时间是最先进的电子芯片的 1/100，Lightelligence CEO 沈亦晨表示，公司计划将该光子芯片提供给一些合作方、潜在客户进行测试，目前国外已经有谷歌、FaceBook、AWS级别，国内 BAT 级别的客户与 Lightelligence 接洽。Lightelligence 生产的是一款通用的 AI 芯片，同时我们也会自研更适合在光子芯片上运算的算法。在应用场景上，沈亦晨设想 Lightelligence 的第一款产品将面向服务器和自动驾驶；
传寒武纪最新产品曝光，今年云端AI芯片市场群雄争霸 | DeepTech深科技
摘要：寒武纪的新一代云端 AI 芯片思元/ MLU270 已于今年年初研制成功，基于台积电 16nm 工艺打造，架构代号从上一代的 MLUv01 升级到了 MLUv02，内建视频解码单元 (似乎是专门为视频处理市场配置)。在峰值和功耗上，这颗芯片的表现分别是 int4 256Tops 、 int8 128Tops 和 75w，接近目前的 AI 芯片霸主英伟达推出的最新一代 Tesla T4。PPT 上写着，该产品”与市场类似价位竞品相比，具有显著的性能和性价比优势”。
重磅丨依图造芯，定名“求索” | 雷锋网
摘要：该芯片功耗单路数小于1W、0.75TOPS/W；单芯片50路视频解析，1U可支持200路；自带网络支持，支持虚拟化，支持Docker；支持通用视觉：检测、分类、识别、分割、跟踪等等。同时，吕昊还在发布会现场演示了“求索”芯片性能，他直接架起200路摄像机，通过四块“求索”芯片实时比对现场超过五百位现场观众的人脸。
iPhone新芯片A13已投产，AI能力大增！浴霸三摄渲染图曝光 | 量子位
摘要：最新消息，最新一代iPhone芯片A13，已经正式试产，预计本月晚些时候就将量产。这是彭博曝光的最新消息，称A13依然台积电代工，采用7nm工艺制造。

论文

AutoML研究综述：让AI学习设计AI | 机器之心
摘要：自动机器学习（AutoML）是近年来的一个热门研究方向，比如机器之心曾报道过的谷歌的基于进化算法的神经网络架构搜索方法。近日，来自德国 USU Software AG 和斯图加特大学的两位研究者发布了一篇 AutoML 综述论文，总结了近年来 AutoML 方面的新进展。机器之心整理编译了文章的主体结构，并重点翻译介绍了各种方法的基本思想和未来研究方向，数学描述和实验评估等细节请参阅原论文；
ICLR2019最佳论文！神经网络子网络压缩10倍，精确度保持不变 | 量子位
摘要：这篇获奖论文名为The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks，提出了一种叫作“彩票假设”（lottery ticket hypothesis）的缩小方法。此前，神经网络的剪枝技术能将网络的参数减少到90%，但此方法的弊端也很明显，即剪枝架构一开始的训练就相当困难。MIT计算机科学与人工智能实验室（CSAIL）的研究人员表示，与其在后期修修剪剪，何必不在一开始就创建一个尺寸合适的网络呢？他们将传统的深度学习方法比作乐透，训练大型神经网络就像在通过盲目随机选号中奖，而这种新的方法不采用这种大海捞针的方式，想在一开始就拿到最后中奖的号码。于是乎，“彩票假设”问世。传统的剪枝技术会在神经网络子网络处动刀，让初始化后的子网络能够进行有效训练。密集、随机初始化的前馈神经网络包含一些子网络，也就是中奖号码，当对其单独进行训练时，这些子网络能够在相似迭代次数中达到与原始网络比肩的准确率；
南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源 | CVer
摘要：本文要介绍的 LEDNet（Light Encoder-Decoder Network）是由南京邮电大学和天普大学联合提出的用于实时语义分割的轻量级网络。LEDNet 能够在单个GTX 1080Ti GPU中以超过71 FPS的速度运行。实验表明，该算法在 CityScapes 数据集的速度和准确性权衡方面取得了SOTA。目前 LEDNet 论文已被 ICIP 2019 录用，官方已经提供该算法的 github 链接，但并没有上传测试/训练源码，估计还在准备中；
首发 | 精度、速度、效率、性能全面提升！揭秘谷歌最新一代移动端网络架构MobileNet V3 | 将门创投
摘要：支撑移动端高性能AI的幕后力量！谷歌提出全新高性能MobileNet V3，网络模型搜索与精巧设计的完美结合造就新一代移动端网络架构。再附上知乎：如何评价google Searching for MobileNetV3？ | 知乎。

开源项目

阿里开源！轻量级深度学习端侧推理引擎 MNN | 阿里技术
摘要：阿里正式开源轻量级深度学习端侧推理引擎“MNN”。AI科学家贾扬清如此评价道：“与 Tensorflow、Caffe2 等同时覆盖训练和推理的通用框架相比，MNN 更注重在推理时的加速和优化，解决在模型部署的阶段的效率问题，从而在移动端更高效地实现模型背后的业务。这和服务器端 TensorRT 等推理引擎的想法不谋而合。在大规模机器学习应用中，考虑到大规模的模型部署，机器学习的推理侧计算量往往是训练侧计算量的十倍以上，所以推理侧的优化尤其重要。”MNN背后的技术框架如何设计？未来有哪些规划？；
JDAI-CV/dabnn: dabnn is an accelerated binary neural networks inference framework for mobile platform
摘要：二值网络移动端 inference 框架，刚刚开源，比已有唯一一个开源的二值框架最高快 20 多倍，相信可以极大改变二值网络部署的情况，对二值网络感兴趣的小伙伴可以关注一下；
精度无损，体积压缩70%以上，百度PaddleSlim为你的模型瘦身 | 机器之心
摘要：PaddleSlim 实现了目前主流的网络量化、剪枝、蒸馏三种压缩策略，并可快速配置多种压缩策略组合使用。针对体积已经很小的 MobileNet 模型，在模型效果不损失的前提下实现 70% 以上的体积压缩；
carlushuang/cpu_gemm_opt: how to design cpu gemm on x86 with avx256, that can beat openblas.

博文

AI移动端常用汇编指令汇总以及底层算子汇编实现（附带一点点干货） | 知乎
摘要：本文先介绍汇编代码在推理框架中的定位，汇总实践中常用指令，对比ARMv7、ARMv8下的指令形式以及用法，在安卓、ios平台下实现各种卷积的底层实现，包括conv3x3s1、conv1x1s1、depthwise、pooling、ReLU、ReLU6，最后可能会结合一个具体的实例来写；
移动端arm cpu优化学习笔记：一步步优化盒子滤波（Box Filter） | 知乎
摘要：作者从原始的C代码到算法逻辑优化、Neon Intrinsic、Neon汇编，比起最原始的实现至少可以加速6~7倍；
OpenBLAS gemm从零入门 | 知乎
高通AI Research最新研发成果一览 | 机器之心
摘要：针对 AI 和深度学习应用，Qualcomm AI Research 更加着重打造平台式创新，推动人工智能在行业实现高效、规模化的应用，这主要体现在三个方面：能效、个性化和高效学习；
深度学习编译技术的现状和未来 | 知乎
摘要：传统的深度学习框架采用人工优化算子，然后建立运行时图解释器来解决内存分配调度等问题。深度学习编译器技术路线一般指在优化过程中采用了自动或者半自动的代码生成用以替代人工优化。深度学习编译器无疑是最近非常热门的话题。本文主要探讨深度学习编译技术的现状和未来。

往期回顾

2019-04-27
2019-04-13
2019-03-31

Wechat ID: NeuroMem
Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai

本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2019-05-15.md

2019-05-15.md

嵌入式AI简报 (2019-05-15)

业界新闻

论文

开源项目

博文

往期回顾

Files

2019-05-15.md

Latest commit

History

2019-05-15.md

File metadata and controls

嵌入式AI简报 (2019-05-15)

业界新闻

论文

开源项目

博文

往期回顾