Hopfield网络本质上时间维度上的前馈神经网络,并且每层的权重相同。
X(t+1) = F(X(t), W), t∈N, F为任意函数
(资料图片)
事实上普通的向前传递的神经网络都可以看作是时间维度上的是神经网络,比如Transformer等等。
反过来他们也可以去掉时间维度被表示为像Hopfield网络这样只关注空间维度上的动力系统网络。
X(t+1) = F(X(t), W(t)), t∈N, 其中F为相乘、求和和激活函数等操作,以下简称为神经网络基本操作
而神经网络常微分方程就是一个动力系统网络在连续时间上演变的过程。同时也可以看作一个在时间维度上“不普通”的神经网络,之所以说它不普通,是因为这个神经网络的层数,也就是t,是连续的,它可以拥有第层。
dX/dt = F(X(t), W), t∈R, F为神经网络基本操作
注意,我们常见的神经网络之所以可以看作动力系统本质上就是把每一层看作一个离散的时间。同理以上所有公式中的t都可以看作神经网络的第t层。
人脑在空间上为一个动力系统网络,那么它可以表达为时间维度上“不普通”的神经网络:
dX/dt = F(X(t), W(t)), t∈R, F为神经网络基本操作
只不过W即权重随t的改变非常缓慢,涉及到神经细胞之间突触连接的改变。
当然对于人脑,我们也可以用微分方程的形式描述它:
dX/dt = F(X(t), W(t))
dW/dt = G(X(t), W(t), t)
t只能取自然数,这里Xt就是t时刻每个神经元的状态构成的向量,Wt就是t时刻各个神经元之间突触相互连接的权重状态构成的向量。
F为神经网络基本操作,G为内积等操作(比如大脑中t时刻两个物理意义上神经元xt1和xt2同时被点亮时两者作内积,根据内积大小来来改变原来两者之间的t时刻的权重wt12,使得权重增大或减小,让两个大脑中的神经元突触联系更密切或者更疏离,并且W随t而减小,即大脑的遗忘功能)。
由这两个方程构成的动力系统网络,可以看作是一个实时在微调的时间维度上“不普通”的神经网络。
由此我们可以研发一种算法,即:基于Transformer的神经网络常微分方程,并且基于同一时刻神经元内积以及随时间衰减来调整权重大小。其核心就是以上的一组微分方程。
此算法可能会取得很好的效果,真正的创造一个人工的大脑, 为后续“意识上传”等研究打下基础。