基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究

上传人:杨*** 文档编号:474848759 上传时间:2024-05-02 格式:DOCX 页数:10 大小:29.37KB
返回 下载 相关 举报
基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究_第1页
第1页 / 共10页
基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究_第2页
第2页 / 共10页
基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究_第3页
第3页 / 共10页
基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究_第4页
第4页 / 共10页
基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究》由会员分享,可在线阅读,更多相关《基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究(10页珍藏版)》请在金锄头文库上搜索。

1、 基于CNN双路特征融合模型的秀丽隐杆线虫寿命阶段分类研究* 尹彦豪 刘 俊 杨 烨(1.武汉科技大学计算机科学与技术学院 武汉 430065)(2.智能信息处理与实时工业系统湖北省重点实验室 武汉 430065)(3.华中科技大学生命科学与技术学院 武汉 430074)1 引言秀丽隐杆线虫是生物学研究中最重要的无脊椎模式生物之一,有着生命周期较短、生理结构简单、与人类基因高度同源、虫体透明便于观察等特点,从19世纪70年代初开始,就作为功能强大的模式生物被广泛应用1。它的研究跨越了多个学科领域,包括基因大规模功能与表征研究2,全身细胞的完整谱系追踪3以及动物神经系统连接组的结构体构建4等。秀

2、丽隐杆线虫也为研究导致个体健康与寿命差异的变异性诱因提供了一个理想的模型:其在两周的寿命周期中体现出来的相对变异性与人类从出生到80 岁时几乎一样多,因此对线虫不同寿命阶段差异性的研究对人类健康和衰老具有重要意义5。近年来随着机器学习和人工智能等前沿技术在生物学研究方面的应用,已有很多学者将深度学习等方法引用于线虫寿命测定中。本文选用蛋白稳态失衡现象作为线虫寿命阶段分类的指示器6,使用萤火虫荧光素酶蛋白辅助观测。由于拍摄数据集时线虫处于存活状态且获取荧光蛋白亮斑需要相对较长的曝光时间,本文数据集图像存在模糊,有效特征区域较小等问题。为了在此前提下得到更好的分类效果,本文提出基于卷积神经网络的双

3、路特征融合模型,对线虫图像进行特征学习。该方法将深度学习提取的特征和基于先验知识提取的荧光蛋白聚集度特征相连接,共同作用于分类结果。实验结果表明,该方法能够有效提高线虫寿命阶段分类准确率。2 相关工作关于秀丽隐杆线虫的寿命评估问题,目前有两个主要的研究方向,一类是利用生理特征进行评估,另一类是利用生物感受器进行评估。生理特征评估是指根据可直接观察到的线虫的生理特征表现,例如咽部吞咽速率、图像熵测定、外观测定、运动能力测定以及自荧光测定等。利用生理特征评估的优势在于有着较高的准确率以及适用于多种线虫突变株,但由于研究局限于线虫本体,缺乏技术迁移的可能性,对人体研究意义较为有限。相比利用生理特征,

4、生物感受器主要由寿命相关基因或microRNA 启动子携带荧光蛋白构成,基因背后相关信号通路机制清晰,存在着技术迁移的可能性,对人类衰老阶段评估有潜在指导意义7。但在实际研究中发现,目前的生物感受器存在以下两方面问题。一方面,生物感受器整体性能相对较低,这可能是由于单一基因本身对于寿命影响力有限导致的。另一方面,部分内源性基因,在野生型中具有一定评估效力,但在特定突变虫株(如daf-16)中往往评估能力较差,这主要是由于评估使用的基因往往受限于特定信号通路,而衰老现象由多条信号通路共同调控8。鉴于以上两种方式存在的缺陷,本文选用蛋白稳态失衡作为寿命相关指示器。这是因为绝大部分生物活动均依赖于蛋

5、白功能,秀丽隐杆线虫中多条寿命相关信号通路均表现出对蛋白稳态的调控,随着线虫的衰老,蛋白的聚集会逐渐增多,同时在人类衰老的过程中,蛋白稳态失衡也多种老年病相关,例如阿兹海默症、帕金森病等6,9。为了便于对线虫体内蛋白聚集的观察,本文在多种亚稳态蛋白中选取了未报道病理过程相关的萤火虫荧光素酶蛋白(firefly luciferase)10,携带多拷贝萤火虫荧光素酶基因线虫不会出现早衰以及瘫痪的表型。因此,选用亚稳态蛋白作为观察目标既能具有较高的准确性,又对人类健康和寿命研究具有较好的迁移性的评估方式。随着深度学习方法的发展与应用,目前已有研究人员将深度学习强大的特征提取能力运用于秀丽隐杆线虫的寿

6、命测定相关研究上。如Martineau11等从线虫活动视频中提取到的数百种形态、姿势和行为特征,并使用支持向量机(SVM)对其于线虫寿命直接的关系进行分析。Lin12等通过将线虫曲直信息作为全集特征引入基于卷积神经网络的线虫寿命天数逻辑回归分析模型,其精度高达0.8478,已获得较好的评估结果。Sahand13等选用生物感受器作为研究对象,为采用Mask R-CNN 算法识别线虫PVD 神经元衰老后出现的神经变性亚细胞突起,并以此对线虫当前寿命阶段进行判定,将线虫的生物状态分为年轻、老化、冷休克三个状态,最终得到0.85 的分类准确率。但是Martineau 和Lin 均采用线虫生理特征进行评

7、估,其研究仅局限于线虫本身,缺乏可迁移性。Sahand仅将线虫生物状态分为3 类研究,分类阶段较为简单。针对以上方法的局限性,本文提出基于深度神经网络的双路特征融合模型不仅可以通过神经网络提取线虫的局部特征,还能通过计算荧光蛋白聚集度信息弥补其在全局特征上的损失,最终输出线虫寿命周期6 阶段分类结果。3 本文方法本文采用携带外源性荧光素酶融合蛋白的活体线虫图像进行实验。在拍摄时为了获取清晰的荧光蛋白亮斑,需要较长的曝光时间,且无法控制虫体的姿态和位置,使得同一类别下的图像差异过大(如图1 所示),同时由于拍摄获取的图像分辨率为60004000,需要将图像压缩后才能进入神经网络框架训练学习,该过

8、程会使大量较小的荧光蛋白亮斑特征丢失。导致在图像的中的全局特征参存在丢失的现象。图1 同一寿命阶段不同个体图像对比本文对于秀丽隐杆线虫寿命阶段分类问题的研究,提出采用卷积神经网络双路特征融合模型,通过引入一个新的附加属性聚集度信息作为全局特征,以提高实验模型的分类准确率。本文模型的总体框架如图2 所示,分为两个主要的模块:CNN 特征提取模块M1 和聚集度特征提取模块M2。子模块M1部分共有4个串行的卷积模块,每个卷积模块分为4 个层,每一层均由一个2D 卷积层组成,同时将该层的输出与之前每一层的输出连接,作为下一层的输入使用,最后一层经过全局均值池化后,得到特征向量F1。在子模块M2 中,首

9、先用快速傅里叶变换增强图像中的亮斑特征,再使用LoG 算子获取线虫虫体上荧光蛋白亮斑的坐标信息。通过坐标信息可以计算得到线虫荧光亮斑的聚集度信息Pi。将算得的前n 个聚集度信息(P1,P2,Pn) 作为特征向量F2 。将特征向量F1 与特征向量F2 连接,再连接两层全连接层,最后经过Softmax分类器输出线虫寿命阶段分类的评估结果。图2 CNN双路特征融合模型总体框架3.1 CNN特征提取子模块秀丽隐杆线虫图像中有效特征区域较小,且不同寿命阶段的线虫图像具有较高的相似性,与自然图像分类任务相比,线虫图像分类任务更注重细粒度层面的特征信息。因此,本文在子模块M1 中引入由Gao14等提出的密集

10、连接网络DenseNet 的网络模型。该网络模型在残差结构部分的思想借鉴于He15等提出的ResNet 网络模型:通过使用残差映射替代恒等映射的方式,可以有效地学习到每个残差块输入与输出的差异部分,在模型收敛到一定程度时,输入的信息可以跳过部分模型,对深层模型进行有效的训练,进而降低了在过深的模型中存在网络退化的梯度消失的问题。DenseNet 借鉴残差映射的思路,将每一层的输出密集连接后作为下一层的输入使用,同时在相同的目标精度下,其参数和计算量仅为ResNet的一半。基于卷积神经网络的特征提取子模块M1 是整个线虫寿命阶段分类模型的基础。该模块由4个卷积模块组成,分别标记为b1、b2、b3

11、、b4,如图3所示。由于模块b1 中的特征图过大,在模型训练时对训练速度存在一定的影响。其次,模块b1 中得到的浅层语义信息相比b2 存在一定的差距,对模型训练效果影响较小,因此在子模块M1 的设计中,b1 由3 个卷积层构成,b2、b3、b4 则均采用密集块(Dense Block)结构。每个卷积模块间均采用过度块连接(Transition Block),包括批归一化处理(Batch Normalizaion)16,激活函数ReLU和一个11大小的卷积核进行卷积。该模块可以在一定程度上起到加快网络收敛,缓解网络过拟合,防止梯度消失和梯度爆炸,减少网络参数量的作用。将该模块的最终输出特征图经过

12、全局均值池化后得到特征向量F1。使得向量F1 更能表达线虫不同寿命阶段的细粒度特征。图3 M1子模块的特征提取过程3.2 聚集度特征提取子模块通过M1 模块已经得到线虫图像的特征向量F1,并且其中包含丰富的语义信息,但是ROI 轮廓信息等宏观层面的信息则较为粗略。而且图像在进入M1 模块前需要经过均值池化,这一过程中很多较小的荧光蛋白亮斑会存在丢失现象。因此加入通过传统图像特征提取算法获取到的聚集度信息来弥补这一部分的信息丢失,使最终提取到的语义信息更具有鲁棒性。本文提出的聚集度特征提取子模块M2 分为三个步骤,首先,使用快速傅里叶变换(FFT)对图像进行特征增强。其次,使用高斯-拉普拉(LO

13、G)算子获取所有荧光蛋白亮斑的坐标信息。最后,使用得到的荧光蛋白亮斑坐标信息计算得到聚集度信息Pi,并再用其求出特征向量F2,与M1模块最终输出的特征向量F1相连接,共同提升模型的分类准确率。在本文中,线虫虫体轮廓边缘区域和荧光蛋白亮斑区域属于高频信号区域,而大量由于曝光时间过长而模糊的噪声区域属于低频区域,因此可以使用傅里叶变换对该特征进行加强,并对噪声区域进行降噪处理。快速傅里叶变换是离散傅里叶变换(DFT)及其逆变换的快速计算方法。长宽为M,N的图像可以被看作是f(x,y)的二维离散信号,其离散傅里叶变换公式为利用分治的思想对离散傅里叶变换序列进行拆分,使其可以在O(nlogn)时间内完

14、成离散傅里叶变换17。斑点检测通常是为了检测出图像中像素值与周边不同的区域,常用的斑点检测算法有基于微分方法的微分检测算法和基于局部极值的分水岭算法。由于本文中所需要分割的荧光蛋白亮斑形状均较为规整,因此选择微分检测算法中LoG算子作为该模块的核心算法,LoG算子的核函数为其中,为二维高斯函数的标准差,通过改变的值,可以对不同尺度的斑点进行检测。本文中需要检测的都是蛋白亮斑,即像素值较高的聚集点集。在99 的空间范围内,如果某一点的拉普拉斯响应值均大于其他26 个点的响应值,则认为该点是所需求的的荧光蛋白亮斑,将记为当前亮斑半径,当前亮斑坐标记作Ai(xi,yi,ri)。为避免亮 斑 被 重

15、复 计 算,对 于 亮 斑Aj(xj,yj,rj) 、Ak(xk,yk,rk),如果存在则将亮斑Ak(xk,yk,rk)删除。线虫荧光蛋白亮斑检测过程如图4 所示,为方便展示,图像对亮斑部分放大,并对图4(c)部分做反色处理。为了弥补M1 子模块中图像压缩时丢失的荧光蛋白密度信息,本文基于先验知识提出线虫荧光亮斑聚集度信息Pi,为线虫荧光亮斑点间距值中最小的i个值的均值。并将算得的前n个聚集度信息(P1,P2,Pn)作为特征向量F2,其中,如果i大于线虫体内的荧光蛋白数,则Pi取极大值5000。当线虫寿命处于前1/3 时,其表现的荧光蛋白亮斑数通常不超过10 个,而当线虫寿命处于最后1/3 时

16、,其表现的荧光蛋白亮斑数通常在60 以上,个别个体甚至能表达出上百个荧光蛋白亮斑。因此,在六分类实验下,n 值过小会导致模型在对后两类进行分类时参考性较低,而n 值过大会导致模型对前两类进行分类时不具有区分度。经实验得出,当n值取12时,模型具有最好的分类效果。3.3 损失函数在使用卷积神经网络训练模型时,选取一个合适的损失函数能够提高模型的准确率和鲁棒性。本文所提出的双路特征融合模型是基于密集连接网络设计的多分类网络模型,因此使用多类交叉熵(Categorical Cross Entropy)作为损失函数。第i个样本的真实标签为yji,预测值标签为yji,则对该样本的多类交叉熵损失函数可定义为式中m 为该批次输入网络的图像样本数,c 为分类类别数。多类交叉熵表示实际输出概率与期望输出概率分布的差距,其值越小表示模型训练的学习效果越好。4 实

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 信息产业

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号