快速准确定位识别生物大分子 中国团队基于人工智能研究提出新方法

发布时间:2024-12-05 11:37:01 来源: sp20241205

   中新网 北京3月11日电 (记者 孙自法)中国科学院自动化研究所3月11日向媒体发布信息说,该所与中国科学院生物物理研究所相关科研团队开展合作,最新基于人工智能赋能原位结构生物学,研究提出一种基于弱监督深度学习的快速准确颗粒挑选方法(DeepETPicker),实现对生物大分子快速准确的定位识别,相关技术已获得中国发明专利授权。

  这项生物物理领域人工智能应用重要研究,由中国科学院自动化所多模态人工智能系统实验室杨戈研究员团队、中国科学院生物物理所蛋白质科学研究平台生物成像中心孙飞研究员团队共同完成,成果论文近日在国际学术期刊《自然-通讯》(Nature Communications)发表。

DeepETPicker 软件用户图形界面。中国科学院自动化所/供图

  研究团队介绍说,生物大分子(如蛋白质)的结构与功能会随着细胞生理状态的变化不断进行动态调整。原位结构生物学是在接近自然生理状态下研究生物大分子结构和功能的科学,而原位冷冻电镜技术以其高分辨率和在接近生理条件下观察样品的特点,成为原位结构生物学研究中的关键手段。原位冷冻电镜的技术流程涉及样品制备、数据采集、电子断层重建、颗粒挑选、粒子平均等多个步骤,生物大分子的颗粒挑选即定位识别,是其中一个关键环节。

  受限于原位冷冻电镜技术图像的极低信噪比和重建伪影等因素,成千上万个目标颗粒的手动挑选极为耗时费力,现有自动挑选方法的应用受到人工标注量高、计算成本高和颗粒质量不理想等多方面限制。

使用 DeepETPicker 从冷冻电子断层扫描图像中挑选颗粒的整体工作流程。中国科学院自动化所/供图

  针对这一难题,研究团队最新研发提出DeepETPicker,其仅需要少量人工标注颗粒进行训练即可实现快速准确三维颗粒自动挑选。为降低对人工标注量的需求,DeepETPicker优选简化标签来替代真实标签,并采用更高效的模型架构、更丰富的数据增强技术和重叠分区策略来提升小训练集时模型的性能;为提高颗粒定位的速度,DeepETPicker采用图形处理器(GPU)加速的平均池化-非极大值抑制后处理操作,与现有的聚类后处理方法相比提升挑选速度数十倍。同时,为方便用户使用,研究团队还推出操作简洁、界面友好的开源软件,以辅助用户完成图像预处理、颗粒标注、模型训练与推理等操作。

  使用DeepETPicker从冷冻电子断层扫描图像中挑选颗粒的整体工作流程包括训练数据阶段和模型推理阶段。在训练数据阶段,研究团队优选了弱标签来代替真实掩模以减轻人工标注负担,并在模型架构设计方面,引入坐标卷积和图像金字塔到3D-ResUNet的分割架构中以提高定位的准确性。在模型推理阶段,DeepETPicker采用重叠断层图分区策略,避免了由于边缘体素分割精度不佳而产生的负面影响,进而结合平均池化-非极大值抑制操作加速颗粒中心定位过程。

  随后,研究团队将DeepETPicker与目前性能最优的颗粒挑选方法在多种冷冻电子断层扫描数据集上进行性能评估对比,采用精确率-召回率、F1-分数、对数似然概率贡献度、最大值概率、RH分辨率、全局分辨率6个定量指标全面评价颗粒挑选的质量,结果表明,DeepETPicker在仿真与真实数据集上均可实现快速准确的颗粒挑选,其综合性能明显优于现有的其他方法,生物大分子结构重建达到的分辨率也达到采用专家人工挑选颗粒进行结构重建同样的水平。

采用定量指标评估DeepETPicker在EMPIAR-10045实验数据集上的粒子挑选性能。中国科学院自动化所/供图

  研究团队表示,这进一步体现出DeepETPicker在原位高分辨率结构解析中的实用价值,也充分表明该快速准确定位识别生物大分子的新方法,将为采用原位冷冻电镜技术的原位结构生物学研究提供有力支持。(完)

【编辑:邵婉云】