如果有人朝你扔过来一个球,通常你会怎么办?——当然是马上把它接住。
这个问题是不是很简单?但实际上,这一过程是最复杂的处理过程之一:首先,在复杂的背景环境下,球进入人的视野,被视网膜捕捉到后,经视觉通路发送到大脑处理视觉信息的脑区,进行更加彻底的图像分析。同时视皮层与其他脑区协作,判断物体的种类,预测它的行进轨迹,最终通过传出神经控制肌肉的运动,决定人的下一步行动:举起双手、接住球。上述过程只在零点几秒内发生,几乎完全是下意识的行为,也很少会出差错。
为了让计算机模仿这一过程,首先需要让计算机做到像人类那样“看”,尤其是在嘈杂背景下像人类那样快速准确地“看”,成为了近年来视觉感知这一研究领域备受关注的关键问题之一。
近年来,基于梯度反向传播的脉冲神经网络(
SNN
)训练方法逐渐兴起。在这种训练方法下,
SNN
能够在保留神经元内部动力学的同时获得较好的性能。
在此基础上,自动化所听觉模型与认知计算团队模仿刻画视听觉系统神经元侧向作用的数学模型动态神经场,提出了具有侧向作用的
SNN
——
LISNN
,用于图像识别任务。并且在测试中,根据侧向作用的动力学特点,人为加入噪声以验证侧向作用对网络鲁棒性的提升。
在生物神经系统的感受器中存在着临近神经元间的相互抑制和相互激励。其中,侧向抑制最初为解释马赫带效应而提出,即人们在明暗变化边界上常常会在亮处看到一条更亮的光带而在暗区看到一条更暗的线条(见图
1
)。这种侧向作用后来在鲎
[1]
、猫等多种动物的不同感觉系统中被证实并应用在仿生的计算模型中。
图
1.
马赫带效应示意(图引
wiki
)
LISNN
的结构如图
2
所示,前端是两层具有卷积感受野的脉冲神经元层,每层后面有一层平均池化层,后端是两层全连接的脉冲神经元层。具有卷积感受野的脉冲神经元在模型中承担特征提取的功能,类似于感受器的作用,因此只在这层结构中使用侧向作用。在侧向作用机制下,每个脉冲神经元的膜电位都额外受邻域内的其他神经元上一时刻状态的影响。在目前已有的使用侧向作用的计算模型中,侧向作用系数往往是固定的和神经元间距离相关的函数,而
LISNN
中的侧向作用系数则可以通过反向传播进行学习。
图
2 LISNN
模型结构示意图
该研究工作分别在静态数据集
MNIST
与
Fashion MNIST
、动态数据集
N-MNIST
上对
LISNN
的性能进行了验证。输入数据以特定方式编码为一定长度的脉冲序列,每个时刻的序列规模与原图像(或事件点坐标范围)相同。模型在
MNIST
和
N-MNIST
数据集上均取得了和已有最好性能相近的结果;在
Fashion-MNIST
数据集上则取得了
SNN
中的最好性能。本模型与已发表模型的性能对比见图
3-5
。
图
3
静态图像数据集
MNIST
上,
LISNN
模型与已发表模型准确率对比
图
4
静态图像数据集
Fashion MNIST
上,
LISNN
模型与已发表模型准确率对比
图
5
动态图像数据集
N-MNIST
上,
LISNN
模型与已发表模型准确率对比
除此之外,团队还选择在
MNIST
和
Fashion MNIST
的测试集中加入不同水平的高斯噪声和脉冲噪声,以进一步测试侧向作用对网络鲁棒性的提升。图
6
展示了部分原始图片和加噪后的图片。
图
6
(
a
)三行依次为原始
MNIST
测试集图片、加入高斯噪声后的图片、加入脉冲噪声后的图片
(
b
)三行依次为原始
Fashion MNIST
测试集图片、加入高斯噪声后的图片、加入脉冲噪声后的图片
图
7
中,灰线和蓝线分别代表
LISNN
和没有侧向作用的
SNN
在添加了高斯噪声的测试集上的准确率;黄线和橙线分别代表
LISNN
和没有侧向作用的
SNN
在添加了脉冲噪声的测试集上的准确率。在大部分情况下,
LISNN
的性能损失都小于没有侧向作用的
SNN
,尤其是在训练集中没有添加噪声数据的情况下。
图
7
(
a
)模型在无噪声的
MNIST
训练集上训练。(
b
)模型在无噪声的
Fashion MNIST
训练集上训练
(
c
)模型在有高斯噪声的
MNIST
训练集上训练。(
d
)模型在有高斯噪声的
Fashion MNIST
训练集上训练
与传统的神经网络算法相比,所提算法能取得较好的性能并自然地实现对噪声干扰的抗性,具有一定理论研究价值和工程实用价值。
Xiang Cheng, Yunzhe Hao, Jiaming Xu, Bo Xu. LISNN: Improving Spiking Neural Networks with Lateral Interactions for Robust Object Recognition. IJCAI, 2020.
[1].鲎的复眼由许多小眼组成,小眼之间由侧向神经相互联系,较易观测侧向抑制现象。