传统药物研发模式存在效率低、周期长、失败率高等多重挑战,当前AI正在深度重塑生物医药的研发范式,但缺乏结构化、高质量、可复用的科研数据资源,严重制约了AI算法在新药研发中的价值。
“模式生物、表型数据与AI驱动的生物医药源头创新合作”研讨会 主办方 供图
在6月15日举行的“模式生物、表型数据与AI驱动的生物医药源头创新合作”研讨会上,广州国家实验室的特聘研究员、博士生导师李亦学直言,当前,我国生物医学在数据科学领域面临着“数据密集型科研起步晚、优质可用数据资源缺乏、算法创新和工具整合门槛高”等诸多难题,不符合AI驱动下快速建模、精准预测和靶点识别的科研需求。
在AI与生命科学融合过程中,人类表型组数据和模式生物表型数据(包括小鼠、斑马鱼等模型的形态学、行为学、生理指标和器官功能变化)不仅是连接“基因—表型—疾病”的关键节点,也为AI算法提供了实现机制建模与靶点预测的真实生物基础。
尽管上海在人类表型组研究和基因修饰模式生物品系资源方面具有国际领先的优势,但是来自人类的正向遗传学数据与来自模式生物的反向遗传学研究长期脱节,使这些科研资源无法转化,未得到有效地发挥。
南模生物(688265)董事长费俭表示,“AI飞速发展的今天,如何把AI和上海本土的优势有效地结合起来,形成 ‘基因 - 表型 - 疾病 - 新药’ 的研发新范式,是上海生物医药的破局路径。”
南模生物副总经理孙瑞林表示,南模生物围绕基因修饰目前已建立了七大基础平台,目前拥有14万种小鼠种类、70万只大小鼠,基因修饰动物体系资源已经与美国齐平,但他指出,目前模型核心种子资源仍然依赖于国外,此外,由于缺乏表型数据库,模型销售价格难以提高,当前又受中美竞争影响,可能会面临数据获取受限的问题。
为补齐基础资源短板,研讨会上,复旦大学特聘教授、实验动物科学部主任丁玉强称,复旦大学日前正在建设实验小鼠资源库,整合了全部动物设施,现配备5万多个笼位动物设施,同时也计划建立网上检索数据库,方便大家使用。
在表型数据方面,复旦大学石乐明团队构建的全球人类表型组数据协同平台(PhenoBank )已经具备服务70个以上机构的能力。
李亦学指出,未来在AI的加持下,类似建立表型数据平台、模式生物平台这类基础设施将发挥越来越重要的核心作用。这类平台能够高质量地产出用于模型训练的数据,并且随着需求的增加,平台产生数据的能力会越来越被重视。
李亦学表示,为解决数据孤岛的问题,广州国家实验室团队开发了生物学分析智能体Bio-OS,能有效解决科研人员数据分析面临的诸多难题。比如,开发门槛高、执行复杂、复用性低等问题。
上海实验动物研究中心主任范春在研讨会上倡议建立 "上海基因工程小鼠实验标准",统一模型遗传背景与表型数据采集规范。
费俭表示,南模生物将和上海国际人类表型组研究院石乐明合作共同探讨表型数据标准化分析和标准品建设,确保提供高质量的表型数据。
此次研讨会汇聚了来自基因编辑、表型组学与AI计算等交叉领域的多位权威专家与产业界代表,出席研讨会的还有复旦大学生命科学学院教授、人类表型组研究平台 PhenoBank 负责人石乐明;复旦大学生命科学学院教授、教育部重点实验室负责人卢大儒;复旦大学基础医学院教授、博士生导师黄芳,南模生物副总经理、研究员孙瑞林等。