Skip to content

Latest commit

 

History

History
177 lines (144 loc) · 28.3 KB

README.md

File metadata and controls

177 lines (144 loc) · 28.3 KB

Deep Learning Theory

整理了一些深度学习的理论相关内容,持续更新。

Overview

  1. Recent advances in deep learning theory 总结了目前深度学习理论研究的六个方向的一些结果,概述型,没做深入探讨(2021)。

    • 1.1 complexity and capacity-basedapproaches for analyzing the generalizability of deep learning;

    • 1.2 stochastic differential equations andtheir dynamic systems for modelling stochastic gradient descent and its variants, which characterizethe optimization and generalization of deep learning, partially inspired by Bayesian inference;

    • 1.3 thegeometrical structures of the loss landscape that drives the trajectories of the dynamic systems;

    • 1.4 theroles of over-parameterization of deep neural networks from both positive and negative perspectives;

    • 1.5 theoretical foundations of several special structures in network architectures;

    • 1.6 the increasinglyintensive concerns in ethics and security and their relationships with generalizability

  2. 🔥 On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence(2022.7.马毅、沈向洋、曹颖)"任何一个智能系统,作为一个看似简单的自主闭环:信息、控制、对策、优化、神经网络,紧密结合,缺一不可。总而言之,人工智能的研究从现在开始,应该能够也必须与科学、数学、和计算紧密结合。从最根本、最基础的第一性原理(简约、自洽)出发,把基于经验的归纳方法与基于基础原理的演绎方法严格地、系统地结合起来发展。理论与实践紧密结合、相辅相成、共同推进我们对智能的理解。" 知乎解读可看:https://zhuanlan.zhihu.com/p/543041107

Course

  1. Theory of Deep LearningTTIC,西北大学等组织的一系列课程和讲座,基础课程涉及DL的基础(符号化,简化后的数学问题和结论),信息论和学习,统计和计算,信息论,统计学习和强化学习(2020)。

2+. 2021 Deep learning theory lecture note + 2.1 逼近,优化,通用性,三方面做了总结,核心内容网页可见,比较友好。

  1. MathsDL-spring19,MathDL系列,18,19,20年均有。

    • 3.1 Geometry of Data

      • Euclidean Geometry: transportation metrics, CNNs , scattering.
      • Non-Euclidean Geometry: Graph Neural Networks.
      • Unsupervised Learning under Geometric Priors (Implicit vs explicit models, microcanonical, transportation metrics).
      • Applications and Open Problems: adversarial examples, graph inference, inverse problems.
    • 3.2 Geometry of Optimization and Generalization

      • Stochastic Optimization (Robbins & Munro, Convergence of SGD)
      • Stochastic Differential Equations (Fokker-Plank, Gradient Flow, Langevin + + Dynamics, links with SGD; open problems) Dynamics of Neural Network Optimization (Mean Field Models using Optimal Transport, Kernel Methods)
      • Landscape of Deep Learning Optimization (Tensor/Matrix factorization, Deep Nets; open problems).
      • Generalization in Deep Learning.
    • 3.3 Open qustions on Reinforcement Learning

  2. IFT 6169: Theoretical principles for deep learning(2022 Winter),大多内容较为基础,传统。

    • 4.1 拟定课题
      • Generalization: theoretical analysis and practical bounds
      • Information theory and its applications in ML (information bottleneck, lower bounds etc.)
      • Generative models beyond the pretty pictures: a tool for traversing the data manifold, projections, completion, substitutions etc.
      • Taming adversarial objectives: Wasserstein GANs, regularization approaches and + controlling the dynamics
      • The expressive power of deep networks (deep information propagation, mean-field analysis of random networks etc.)
  3. 深度学习几何课程(2022, Michael Bronstein)内容比较高级.

    • 5.1 2022 年的 GDL100 共包含 12 节常规课程、3 节辅导课程和 5 次专题研讨。12 节常规课程主要介绍了几何深度学习的基本概念知识,包括高维学习、几何先验知识、图与集合、网格(grid)、群、测地线(geodesic)、流形(manifold)、规范(gauge)等。3 节辅导课主要面向表达型图神经网络、群等变神经网络和几何图神经网络。

    • 5 次专题研讨的话题分别是:

      1. 从多粒子动力学和梯度流的角度分析神经网络;
      2. 表达能力更强的 GNN 子图;
      3. 机器学习中的等变性;
      4. 神经 sheaf 扩散:从拓扑的角度分析 GNN 中的异质性和过度平滑;
      5. 使用 AlphaFold 进行高度准确的蛋白质结构预测。
  4. Advanced Topics in Machine Learning and Game Theory游戏,强化方面的课程,2022。

Architecture

  1. Partial Differential Equations is All You Need for Generating Neural Architectures -- A Theory for Physical Artificial Intelligence Systems 将统计物理的反应扩散方程,量子力学中的薛定谔方程,傍轴光学中的亥姆霍兹方程统一整合到神经网络偏微分方程中(NPDE),利用有限元方法找到数值解,从离散过程中,构造了多层感知,卷积网络,和循环网络,并提供了优化方法L-BFGS等,主要是建立了经典物理模型和经典神经网络的联系(2021)。

Approximation

  1. NN Approximation Theory

Optimization

  1. SGD

  2. offconvex几个学术工作者维护的AI博客。

  3. Adam

    • 9.1 deep-learning-dynamics-paper-list关于DL优化动力学方面研究的资料收集。
    • 9.2 Adai Adam的优化版本Adai,Adam逃离鞍点很快,但是不能像SGD一样擅长找到flat minima。作者设计一类新的自适应优化器Adai结合SGD和Adam的优点。Adai逃离鞍点速度接近Adam,寻找flat minima能接近SGD。其知乎介绍可看Adai-zhihu

Geometry

  1. Optima transmission

Book

  1. Theory of Deep Learning(draft)Rong Ge 等(2019)。

  2. Spectral Learning on Matrices and TensorsMajid Janzamin等(2020)

  3. Deep Learning Architectures A Mathematical Approach(2020),你可以libgen获取,内容如其名字,大概包含:工业问题,DL基础(激活,结构,优化等),函数逼近,万有逼近,RELU等逼近新研究,函数表示,以及两大方向,信息角度,几何角度等相关知识,实际场景中的卷积,池化,循环,生成,随机网络等具体实用内容的数学化,另外附录集合论,测度论,概率论,泛函,实分析等基础知识。

  4. The Principles of Deep Learning Theory(2021)Daniel A. Roberts and Sho Yaida(mit),Beginning from a first-principles component-level picture of networks,本书解释了如何通过求解层到层迭代方程和非线性学习动力学来确定训练网络输出的准确描述。一个主要的结果是网络的预测是由近高斯分布描述的,网络的深度与宽度的纵横比控制着与无限宽度高斯描述的偏差。本书解释了这些有效深度网络如何从训练中学习非平凡的表示,并更广泛地分析非线性模型的表示学习机制。从近内核方法的角度来看,发现这些模型的预测对底层学习算法的依赖可以用一种简单而通用的方式来表达。为了获得这些结果,作者开发了表示组流(RG 流)的概念来表征信号通过网络的传播。通过将网络调整到临界状态,他们为梯度爆炸和消失问题提供了一个实用的解决方案。作者进一步解释了 RG 流如何导致近乎普遍的行为,从而可以将由不同激活函数构建的网络做类别划分。Altogether, they show that the depth-to-width ratio governs the effective model complexity of the ensemble of trained networks。利用信息理论,作者估计了模型性能最好的最佳深宽比,并证明了残差连接能将深度推向任意深度。利用以上理论工具,就可以更加细致的研究架构的归纳偏差,超参数,优化。原作者的视频说明(2021.12.1)

  5. Physics-based Deep Learning(2021)N. Thuerey, P. Holl,etc.github resources深度学习与物理学的联系。比如基于物理的损失函数,可微流体模拟,逆问题的求解,Navier-Stokes方程的前向模拟,Controlling Burgers’ Equation和强化学习的关系等。

  6. Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges(Michael M. Bronstein, Joan Bruna, Taco Cohen, Petar Veličković,2021),见上面课程5:深度学习几何课程.

Session

  1. Foundations of Deep Learning(2019),西蒙研究中心会议。
  2. Deep Learning Theory 4(2021, ICML)Claire Monteleoni主持...,深度学习理论会议4,包含论文和视频。
  3. Deep Learning Theory 5 (2021,ICML)MaYi主持...,深度学习理论会议5,包含论文和视频。
  4. DeLTA 2023 : 4th International Conference on Deep Learning Theory and Applications 会议包含RNN,CNN,DHN,GAN,AE,EV,Dimensionality Reduction等基本模型内容,具体啥内容未知,ML的基本内容,强化,度量,核,图表示,聚类,分类,回归等,还有大数据,图像的具体应用方向,语言理解方向。看起来都是比较基础内容。

generalization

  1. Robust Learning with Jacobian Regularization(2019)Judy Hoffman...,

  2. Predicting Generalization using GANs(2022.6),用GAN来评估泛化性.

  3. Implicit Regularization in Tensor Factorization: Can Tensor Rank Shed Light on Generalization in Deep Learning?(2021.7)Tensor Rank 能否揭示深度学习中的泛化?

  4. 如何通过Meta Learning实现域泛化Domain Generalization(2022.4),Domain Generalization CVPR2022博文参考.

  5. Generalization-Causality 一博士关于domain generalization等工作的实时汇总。

  6. Implicit Regularization in Hierarchical Tensor Factorization and Deep Convolutional Networks(Noam Razin • Jul 15, 2022)

    • 6.1 Across three different neural network types (equivalent to matrix, tensor, and hierarchical tensor factorizations), we have an architecture-dependant notion of rank that is implicitly lowered. Moreover, the underlying mechanism for this implicit regularization is identical in all cases. This leads us to believe that implicit regularization towards low rank may be a general phenomenon. If true, finding notions of rank lowered for different architectures can facilitate an understanding of generalization in deep learning.

    • 6.2 Our findings imply that the tendency of modern convolutional networks towards locality may largely be due to implicit regularization, and not an inherent limitation of expressive power as often believed. More broadly, they showcase that deep learning architectures considered suboptimal for certain tasks can be greatly improved through a right choice of explicit regularization. Theoretical understanding of implicit regularization may be key to discovering such regularizers.

Others

  1. Theoretical issues in deep networks 表明指数型损失函数中存在隐式的正则化,其优化的结果和一般损失函数优化结果一致,优化收敛结果和梯度流的迹有关,目前还不能证明哪个结果最优(2020)。
  2. The Dawning of a New Erain Applied MathematicsWeinan E关于在DL的新处境下结合历史的工作范式给出的指导性总结(2021)。
  3. Mathematics of deep learning from Newton Institute
  4. DEEP NETWORKS FROM THE PRINCIPLE OF RATE REDUCTION,白盒神经网络。
  5. redunet_paper白盒神经网络代码。
  6. Theory of Deep Convolutional Neural Networks:Downsampling下采样的数学分析Ding-Xuan Zhou(2020)
  7. Theory of deep convolutional neural networks II: Spherical analysis还有III:radial functions 逼近,(2020)。不过这些工作到底如何,只是用数学转换了一下,理论上没做过多贡献,或者和实际结合没难么紧密,还不得而知。
  8. The Modern Mathematics of Deep Learning(2021)主要是deep laerning的数学分析描述,涉及的问题包括:超参数网络的通用能力,深度在深度模型中的核心作用,深度学习对维度灾难的克服,优化在非凸优化问题的成功,学习的表示特征的数学分析,为何深度模型在物理问题上有超常表现,模型架构中的哪些因素以何种方式影响不同任务的学习中的不同方面。
  9. Topos and Stacks of Deep Neural Networks(2021)每一个已知的深度神经网络(DNN)对应于一个典型的 Grothendieck 的 topos 中的一个对象; 它的学习动态对应于这个 topos 中的一个态射流。层中的不变性结构(如 CNNs 或 LSTMs)与Giraud's stacks相对应。这种不变性被认为是泛化性质的原因,即从约束条件下的学习数据进行推断。纤维代表前语义类别(Culioli,Thom) ,其上人工语言的定义,内部逻辑,直觉主义,经典或线性(Girard)。网络的语义功能是用这种语言表达理论的能力,用于回答输入数据输出中的问题。语义信息的量和空间的定义与香农熵的同源解释相类似。他们推广了 Carnap 和 Bar-Hillel (1952)所发现的度量。令人惊讶的是,上述语义结构被分类为几何纤维对象在一个封闭的Quillen模型范畴,然后他们引起同时局部不变的 dnn 和他们的语义功能。Intentional type theories (Martin-Loef)组织这些对象和它们之间的纤维化。信息内容和交换由 Grothendieck's derivators分析。
  10. Visualizing the Emergence of Intermediate Visual Patterns in DNNs(2021,NIPS)文章设计了一种神经网络中层特征的可视化方法,使得能 (1)更直观地分析神经网络中层特征的表达能力,并且展示中层特征表达能力的时空涌现; (2)量化神经网络中层知识点,从而定量地分析神经网络中层特征的质量; (3)为一些深度学习技术(如对抗攻击、知识蒸馏)提供新见解。
  11. 神经网络的博弈交互解释性(知乎)。上交大张拳石团队研究论文整理而得,作为博弈交互解释性的体系框架(不怎么稳固)。
  12. Advancing mathematics by guiding human intuition with AI(2021,nature)机器学习和数学家工作的一个有机结合,主要利用机器学习分析众多特征和目标变量的主要相关因子,加强数学家的直觉,该论文得到了两个漂亮的定理,一个拓扑,一个表示论。可参考回答
  13. 🔥A New Perspective of Entropy(2022) 通过莱布尼兹微分法则(Leibniz rule)将信息熵,抽象代数,拓 扑学联系起来。该文章是一个零基础可阅读的综述,具体参考Entropy as a Topological Operad Derivation (2021.7,Tai-Danae Bradley.)
  14. minerva(2022)google提出的解题模型,在公共高等数学等考试中比人类平均分高.[测试地址](https://minerva-demo. github.io/#category=Algebra&index=1).
  15. 🔥An automatic theorem proving project菲尔兹获得者数学家高尔斯关于 自动证明数学定理的项目进展How can it be feasible to find proofs?(2022, W.T. Gowers).
  16. GRAND: Graph Neural Diffusion (2021)该网站包含了一些相似论文资料,[项目地址graph-neural-pde](https://github.com/twitter-research /graph-neural-pde),其优化版本GRAND++.(2022).有博文介绍图神经网络的困境,用微分几何和代数拓扑解决仅供参 考.
  17. Weinan È-A Mathematical Perspective on Machine Learning(2022.icm),room1最后一排,鄂维南在icm的演讲视频.
  18. contrastive learning证明包括InfoNCE在内的一大类对比学习目标函数,等价于一个有两类变量(或者说两类玩家)参与的交替优化(或者说游戏)过程.
  19. 可解释性:Batch Normalization未必客观地反应损失函数信息2022,张拳石等.
  20. Homotopy Theoretic and Categorical Models of Neural Information Networks该工作第一作者俄罗斯数学家Yuri Manin,2020工作,2022年8月arxiv有更新。ncatlab有讨论博文讲解
  21. Deep learning via dynamical systems: An approximation perspective动力系统逼近。论文见
  22. 群论角度群论角度去理解的一系列视频,群论视角,2014年出现过,视频系统讲解,2022年。
  23. Constructions in combinatorics via neural networks作者Adam Zsolt Wagner通过神经网络和强化学习构建了一系列反例,推翻了几个组合学的猜想,2021年。

DeepModeling

  1. DeepModeling鄂维南等组织,一种新的研究范式,将DL建模渗透到科研中,这里会开源很多对新或旧问题的DL建模方案.[其github地址](https://github.com/deepmode ling).空了看情况解析某些工作.
  2. deepflameDL向的流体力学包。

数学形式主义与计算机

  1. The Future of Mathematics? (2019) Kevin Buzzard就lean的一场讲座,评论区有对应讲义资料。
  2. 数学形式主义的兴起(2022.7)Kevin Buzzard教授在2022本届国际数学家大会一小时报告演讲中提供了一些信息和思考见解。讲述了数学 形式主义与人工智能、机器学习和开源社区的共同努力,用计算机做奥数题、检查数学证明过程是否有误、甚至自动发现和形式化证明数学定理,在理论和实践中又会碰撞出什么火花,又会如何囿于...
  3. 专访ICM 2022国际数学家大会一小时报告者Kevin Buzzard:计算机可以成为数学家吗?——译自量子杂志比较好的采访,值得看看.数学家让计算机科学家了解到数学很难,这个部分,在被逐渐理解,且计算机系统检查,可能会解决这个难点.还有那些炫酷的项目,球面外翻,费马大定理,非常值得关注.
  4. Deep Maths-machine learning and mathematics,重新发现Euler多面体公式 (对之前工作的细节的更进一步说明),涉及组合不变量猜想,庞加莱猜想,瑟斯顿几何猜想,扭结图等(涉及的面很大,但都是一带而过)。image
  5. Would it be possible to create a tool to automatically diagram papers? Tao在IPAM组织用机器学习来帮助证明的workshops。
  6. 数学的形式化与AI for Mathematics北大没找到具体内容,可以忽略,2023.3。

Discussion

  1. 怎样看待Ali Rahimi 获得 NIPS 2017 Test-of-time Award后的演讲?17年就有人(张心欣,王刚等)指出了DL的缺陷,和这个领域中人的特点,过去5年了,还是那样.不过如23 能看出,meta的做应用的田渊栋还在坚守理论.
  2. 深度学习领域有哪些瓶颈?张拳石新的吐槽,以及最新成果汇集.
  3. ChatGPT/GPT4虽然和理论无关,但实用性很好的一个进展,目前准确率(!胡扯率)貌似能达到0.8+。

数学家

懒得分类了,随便新加了一类

  1. 林力行háng(Lek-Heng Lim)使用代数、几何和拓扑工具来回答机器学习中的问题。一篇采访quantamagazine采访中文版
    • 1.1 Topology of deep neural networks 将神经网络表达的物体视为拓扑流形,不同类别在相片层面具有很大相似度的流形会以非常复杂的方式交织在一起,作者进行了实验,证明这些流形能被简化,并利用计算拓扑中的持续同调persistent homology来测量这些物体的形状。简单来说,作者用它来测量流形穿过神经网络层时的形状。最终,证明它简化为最简单的形式。这对神经网络的可解释性有帮助。
    • 1.2 Recht-Ré Noncommutative Arithmetic-Geometric Mean Conjecture is False我的博士生Zehua Lai和我展示了机器学习中一个长期存在的猜想是错误的。“现代机器学习问题通常涉及将大量参数与大量数据拟合。GPT-4是ChatGPT底层引擎的下一次迭代,据传有1万亿到100万亿个参数。现有的计算机无法同时处理这些参数。因此,在每一步中,算法都会随机选择一小部分参数(无论计算机可以处理什么),然后只使用这些参数。选取一个小的随机子集称为抽样(取样)。现在的问题是:在算法的后续步骤中,它应该选择我们之前在前面的步骤中已经选择的参数,还是应该排除这些参数?换句话说,它应该对参数进行替换还是不替换?当我们的算法涉及随机化时,这是一个我们总是需要考虑的问题,所以这是一个非常基本和重要的问题。大约10年前,Ben Recht和Chris Ré表明,不替换采样比替换更好,前提是特定不平等的某种类似物成立。多年来,人们证明了这种不平等的各种案例。我们表明,总的来说,这种不平等并不成立。回答这个问题的方法是使用代数几何中的一种称为非交换正点(noncommutative Positivstellensatz)的工具。这是一个又长又拗口的词。它是一个德语单词,本质上意味着多项式正点的位置。“
    • 1.3 LU decomposition and Toeplitz decomposition of a neural network摘要: It is well-known that any matrix $A$ has an LU decomposition. Less well-known is the fact that it has a 'Toeplitz decomposition' $A=T_1 T_2 \cdots T_r$ where $T_i$ 's are Toeplitz matrices. We will prove that any continuous function $f: \mathbb{R}^n \rightarrow \mathbb{R}^m$ has an approximation to arbitrary accuracy by a neural network that takes the form $L_1 \sigma_1 U_1 \sigma_2 L_2 \sigma_3 U_2 \cdots L_r \sigma_{2 r-1} U_r$, i.e., where the weight matrices alternate between lower and upper triangular matrices, $\sigma_i(x):=\sigma\left(x-b_i\right)$ for some bias vector $b_i$, and the activation $\sigma$ may be chosen to be essentially any uniformly continuous nonpolynomial function. The same result also holds with Toeplitz matrices, i.e., $f \approx T_1 \sigma_1 T_2 \sigma_2 \cdots \sigma_{r-1} T_r$ to arbitrary accuracy, and likewise for Hankel matrices. A consequence of our Toeplitz result is a fixed-width universal approximation theorem for convolutional neural networks, which so far have only arbitrary width versions. Since our results apply in particular to the case when $f$ is a general neural network, we may regard them as LU and Toeplitz decompositions of a neural network. The practical implication of our results is that one may vastly reduce the number of weight parameters in a neural network without sacrificing its power of universal approximation. We will present several experiments on real data sets to show that imposing such structures on the weight matrices sharply reduces the number of training parameters with almost no noticeable effect on test accuracy.
    • 1.4 What is … an equivariant neural network?文章证明了AlphaFold2和ImageNet classification with deep convolutional neural networks在没有神经网络的等变性假设情况下是等价(Equivariant)的。