layout
default

嵌入式AI简报 (2021-11-01)：

关注模型压缩、低比特量化、移动端推理加速优化、部署

导读：

好了，先是一些热身小新闻ヽ(✿゜▽゜)ノ：

注：个别链接打不开，请点击文末【阅读原文】跳转。

业界新闻

Android 12 正式发布 | 开发者们的全新舞台 | Android 开发者
摘要：10 月 4 日，我们已经将源代码推送至 Android 开源项目 (AOSP)，并正式发布最新版本的 Android。Android 12 会在接下来的几周内推送至 Pixel 设备，并在今年晚些时候覆盖三星 Galaxy、一加、OPPO、realme、TECNO、Vivo 和小米设备。
性能表现：更快、更高效的系统性能 - 我们将核心系统服务所需的 CPU 时间减少了 22%，并将对大核的使用减少了 15%。我们还改善了应用的启动时间，并优化了 I/O 以加快应用的加载速度；对于数据库查询，在使用 CursorWindow 处理大量数据的时候，我们将其性能提高了 49 倍之多。更快的机器学习 - Android 12 能帮助您充分利用 ML 加速器，并通过 Neural Networks API 始终获得最佳的性能表现。ML 加速器驱动现在也可以独立于平台版本之外，通过 Google Play 服务进行更新，因此您可以在任何兼容的设备上使用最新的驱动。

MegEngine 的 CUDA 矩阵乘法终极优化 | 旷视研究院
摘要：单精度矩阵乘法（SGEMM）几乎是每一位学习 CUDA 的同学绕不开的案例，这个经典的计算密集型案例可以很好地展示 GPU 编程中常用的优化技巧，而能否写出高效率的 SGEMM Kernel ，也是反应每一位 CUDA 程序员对 GPU 体系结构的理解程度的优秀考题。本文将详细介绍 CUDA SGEMM 的优化手段，适合认真阅读过《CUDA C++Programming Guide》，具备一定 CUDA 编程基础的同学阅读，希望能给追求极致性能的同学们一些启发。