麦肯锡曾报道,阻碍生命科学数字化和数据分析的三大障碍为:缺乏高质量的数据源和数据集成、缺乏跨学科人才,以及缺乏大规模的技术采用。
前不久,行业媒体BiopharmaTrend联合创始人Andrii Buvailo,在其LinkedIn上发表了一项小型问卷调查,对“您认为生物技术行业采用人工智能面临的*挑战是什么?”进行投票,共有四个选项:
A、缺乏特定领域的数据
B、数字基础设施成本
C、缺乏人工智能人才
D、投资回报率利益不明
在此次调查中,共有88人参与投票,受访者多数为制药公司的高管、人工智能专家。其中52%的受访者选择了A选项,认为“缺乏特定领域的数据”是生物技术行业采用人工智能面临的*挑战。
现实世界中的药物发现场景,有关化学和生物的数据可能是异质和稀缺的,专有数据或特定生物分析的研究的数据并不丰富,这限制了AI在新领域的应用。
针对AI在生物技术领域的数据稀缺问题,AndriiBuvailo给出了相应的解决方案,主要分三种:几何深度学习、零样本机器学习以及合成数据。
1、几何深度学习
总部位于旧金山的“科技生物”公司 Atomic AI 开发了一种工具来解决 RNA 结构数据缺乏的问题。
Atomic AI 专有的人工智能驱动的 3D RNA 结构引擎可生成 RNA 结构数据集,将机器学习基础模型与大规模内部实验湿实验室生物学相集成,以揭示 RNA 靶标的功能结合物。
该公司的技术能够以前所未有的速度和准确性预测结构化、可配体的 RNA 基序,这是当前 RNA 药物发现方法的一个关键障碍。
Atomic AI 计划利用其发现和设计的 3D RNA 结构数据库来开发一系列合理设计的小分子候选药物。
有趣的是,Atomic AI 使用几何深度学习,可以从非常小的 RNA 数据中学习。
什么是几何深度学习?
几何深度学习是机器学习的一个子领域,它将传统的神经网络方法推广到非欧几里得领域的数据,例如图、流形和复杂网络。它试图通过其固有的几何结构和关系来理解数据。
该方法被称为原子旋转等变评分器 ,称其能有效解决RNA结构预测难题。即使只对 18 种已知 RNA 结构进行训练,其性能也超越了现有技术。ARES 从最少数据中学习的能力解决了典型深度神经网络面临的重大挑战。
由于该方法仅依赖于原子坐标且不依赖于 RNA 特异性细节,因此在结构生物学、化学和材料科学等各个领域具有潜在的应用。
根据这篇《科学》论文,ARES 的运行没有关于结构模型准确性的基本特征的任何预定想法。它没有对双螺旋、碱基对、核苷酸或氢键的任何固有理解。ARES 的方法并不只适用于 RNA,它可以应用于任何分子系统。
ARES网络的初始阶段不是预先定义的规范,而是专门用于检测结构模式,在训练期间学习其身份。每一层都会考虑相邻原子的空间排列和前一层的结果来计算每个原子的各种特征。初始层的*输入是每个原子的 3D 坐标和化学元素分类。
2、零样本学习
加拿大公司 Absci 展示了解决生物学数据问题的另一种方法,该公司专注于使用人工智能设计抗体。
Absci 声称是*个使用零样本机器学习来制作和验证治疗性抗体的公司,开创了药物开发生成人工智能的里程碑。
什么是零样本?
这是一种机器学习方法,模型在某些数据类别上进行训练,然后能够对全新的、未见过的类别进行预测或分类,通常利用已知和未知类别之间的关系。
例如,如果在马的图像上进行训练,该模型可能能够识别斑马,即使它尚未在斑马图像上进行明确的训练。
在 Absci 的案例中,抗体被设计为锁定某些目标,而无需针对这些目标的已知抗体提供任何事先训练数据。
Absci 的零样本模型产生与现有抗体数据库不同的抗体配置,涵盖所有三个重链 CDR 的从头版本,这是对靶标结合最关键的抗体区域。
这种方法的效率如何?
在针对超过100,000种抗体的测试中,Absci 的成功率比既定的生物学基准高出5至30倍。
3、合成数据
应用合成数据来缩小真实数据稀缺领域的数据差距,是一个相当创新的概念。
什么是合成数据?
合成数据是人为制造的信息,而不是由现实世界事件生成的信息,但它具有与真实数据类似的概率分布。因此,它可以像真实数据一样用于训练机器学习模型。
例如,有证据表明,*进的合成数据模型甚至可以生成高维和复杂的基因组和表型数据的人工版本。
初创公司Gretel.ai的研究人员与全球*的基因测序公司Illumina 合作,正在研究生成真实世界基因组数据集的合成版本的可能性。
Gretel 制作的合成数据保留了原始数据集的结构,同时确保增强的隐私性,允许研究人员开放访问而不会危及患者的机密性。因为数据是人工生成的,并不对应于现实世界中的任何特性个体。
据 1,220 只小鼠样本的初步研究结果,表明合成数据有可能彻底改变基因组学中的数据共享。
Gretel 及其合作者的目标是在未来进一步完善合成基因组学数据的可扩展性、准确性和隐私性。
最后,除了基因组数据外,凡是需要“大量数据出奇迹”的领域,合成数据都代表着强大的解决方案。