全部车市号

3.9亿砸向AI生物基地,药会变得更贵还是更便宜?

中国战略新兴产业

33071 2025-04-02

中国战略新兴产业融媒体记者 李子吉


华东理工大学教授、原国家生化工程技术研究中心(上海)主任张嗣良在去年的一次公开演讲中回忆道,“回顾早期的研究经历,特别是在1970年至1975年期间,我参与了我国生物过程的早期探索。1975年,我国第一台发酵工程计算机应用在上海第三制药厂获得成功,那时的计算机是黑白显示的,使用红蓝铅笔进行图示,尽管条件艰苦,但这段经历让我深刻体会到生物过程的多学科特性。”


如今,人工智能已经成为发展新质生产力的重要抓手,ChatGPT、DeepSeek等人工智能的发布,迅速引发了各行各业的广泛关注,生物制造领域也不例外。


中国科学院院士、分子微生物学家赵国屏表示,大数据、人工智能、自然语言模型等技术为合成生物学的未来发展提供了新机遇。整个行业内,从业者们的探讨早就跳过了“是否要接入AI”这个问题,“如何高效应用AI”“AI如何重塑生物制造”“训练AI的数据从哪来,成本又该由谁承担”这些才是从业者们热议的焦点。


>> 2025年3月5日拍摄的浙江大学医学院附属邵逸夫医院新疆兵团阿拉尔医院智能化药房。该药房从存药、配药、发药到补药等环节实现智能化。新华社发 王志清/摄


在生物制造的各个环节拥抱AI

细胞工厂的开发离不开酶工程、途径设计和发酵优化,而DBTL(设计-构建-测试-学习)循环则是研发关键环节。基因组学研究的测序数据(DNA/RNA/蛋白质)对大语言模型具有天然的亲和力,非常适合整合进入大语言模型。有研究证明,大语言模型(LLMs)可以通过从超过29000个条目中提取大规模代谢工程方法来增强DBTL循环,涵盖1210种产品和751种生物体。


今年3月5日,中国科学院天津工业生物技术研究所生物设计中心马红武联合圣路易斯华盛顿大学Yinjie J. Tang研究团队共同发表了基于LLMs的SynBioGPT菌种改造专家系统。SynBioGPT整合了51777篇文献摘要和23318篇开放文献,可以用于查询文献、基因突变、产品查询和竞争途径探索。


据悉。在团队结合检索增强生成(RAG)后,大模型的回答准确性从25%显著提升至85%,其中Qwen1.5和Llama3模型表现尤为突出。目前,团队还打造SynBioGPT线上版本,用户注册后就可以体验。


在早些时候,2月11日,《Nature Communications》发布了浙江大学的一项研究。研究人员设计了一个基于蛋白质语言模型(PLM)的蛋白质工程策略称为PLMeAE(protein language model-enabled automatic evolution),这是一个在DBTL循环内实现蛋白质工程自动化的闭环系统,大大提高了蛋白质进化的速度和准确性,推动了蛋白质工程在工业应用方面的快速发展。


PLMeAE将蛋白质语言模型的预测能力与自动化生物工厂的运营效率相结合。在DBTL周期中,学习和设计阶段利用PLM的见解来阐明蛋白质序列适应度关系并采样新突变体,而构建和测试阶段则使用自动化生物工厂高效进行。


在生物制造产业的中下游,也有不少企业在积极探索AI赋能生物制造的方向。


华恒生物把目光投向了中试阶段。3月24日,华恒生物人工智能驱动生物制造研发及中试示范基地建设项目在相关网站公示。该项目总投资高达3.9亿元,占地142亩,计划分三期建设,本次评价为一期,主要建设内容是构建AI驱动生物制造创新研发平台和中试示范基地的实验基础配套和公共辅助配套等设施。


整体项目建成后,将实现集研发、试验、试产、检测和服务等多种功能于一体的人工智能生物制造柔性、撬装和积木式技术创新和产品创制基地,预计形成年综合中试规模5500吨。


除了华恒之外,健康元早在2021年就与腾讯量子实验室战略合作,推进量子计算+人工智能在微生物合成生物学研究的应用。2023年,凯赛生物战略投资了“AI+蛋白质”明星企业分子之心,合作开发AI蛋白质优化设计平台MoleculeOS和多模态大模型NewOrigin。


今年3月22日,圣湘生物与菲鹏生物举行战略合作签约仪式。双方整合优势资源,围绕“AI+分子酶”技术深度融合,挖掘AI技术对体外诊断核心原料的应用潜力,共同开展AI辅助酶进化的底层技术研究,突破新酶研发技术壁垒,加速创新产品方案的成果转化,大幅提升体外诊断产品性能,助力多样化场景和商业模式应用,实现从“AI计算”到“生物制造”的跃迁。


3月23日,天津大学合成生物前沿研究院与智谱华章签约,组建武清区“AI+合成生物”产业联合体。目前,天大合成生物前沿研究院主攻基因组合成、人工细胞构建和DNA存储三项技术的研发;而智谱AI已在医疗这一垂类实现规模化应用,企业将AI环渤海总部项目落户在武清,联手合成生物前沿研究院,研发合成生物大模型,缩短研发周期。


据悉,武清区将聚焦在应用端,将邀请华熙生物、国药集团等行业龙头企业,而天大前沿院则邀请企业研发人员共同加入,共同训练大模型。


AI如何重塑生物制造?

AI在生物制造中的核心应用场景十分丰富。


AI技术推动了从传统生物制造向智能化、精准化、高效化方向的全面转型,加速了生物制造产业链创新研发、中试放大、生产制造等重点环节。中国医药工业研究总院研究员奕栋表示,AI能够通过提前预测和筛选,大幅提高研发的成功率和效率,减少对定向进化的依赖,从而降低了研发成本和时间。


2024年10月30日,工业和信息化部办公厅曾针对智能技术在生物制造领域的典型应用案例进行征集,其征集方向就包含多个生物制造+智能技术的应用场景。


高性能蛋白质元件的设计及构建。发掘、设计蛋白质序列及空间结构,实现对酶等蛋白质功能的预测和优化,提升催化活性、底物选择性、热稳定性、耐酸耐碱性、靶点亲和力、结合特异性等性状。


调控机制的解析及优化。探索工程菌株、细胞系的基因表达、酶促反应层面调控机制,发掘或从头设计新调控元件,开发预测算法与模型。


代谢通路的设计及优化。发掘、设计新的代谢通路,并通过高通量构建与测试完成干-湿实验迭代,实现对代谢通路的建模;利用数据模型引导代谢通路的优化,打通新的产物分子的合成路径,或实现已知代谢产物的产量提升、底物消耗降低等目标。


细胞工厂的构建及优化。分析工业菌株、细胞系的基因型与产量、耐受性等工业指标的关联关系,利用高通量基因编辑技术完成基因组尺度的大规模编辑,改善细胞工厂在大规模生产中的适应性,提升生产效率,优化其在特定工业条件下的表现。


培养基配方的设计及优化。结合代谢网络分析方法,寻找培养基中底物、关键营养素、微量元素等的最优配比,不断优化微生物及细胞生长速度、产量、转化率等关键工业指标,提升工艺经济性。


生物反应过程的智能控制。通过智能传感、在线分析及智能控制等智能技术的结合,实现对量产规模生物反应器及其生产过程的智能化控制;借助精准补料、变速搅拌、通气量调节等控制策略,实时监控并调整温度、pH值、溶解氧、关键底物浓度等重要的过程参数;通过数字孪生等手段,建立反应器物理模型及黑箱数据库等,模拟和预测生物反应过程,优化控制稳定性,提升响应速度,提高生产效率,加速发酵条件优化与工艺放大的进程。


生物制造产品的智能检测和质量控制。利用智能技术实现生物制造产品的检验检测和闭环质量控制,通过信号增强、模式识别、图像处理等手段,自动完成传感器、分析仪器的数据分析。


总的来说,过去的生物制造依赖实验室的试错法,研发成本高、周期长;而AI对生物制造的赋能可以分为两方面,即AI驱动蛋白质设计以及AI辅助高通量自动化实验。


生成式AI大模型的应用,使蛋白质的智能设计成为现实。AI已不再是传统的辅助工具,而是直接参与到分子设计、工艺优化的核心环节。GeoFlow等AI模型能够实现全新蛋白质的从头设计,并同时进行多功能优化,将研发周期压缩至以月为单位,使蛋白质的目标功能优化更加精准高效。


上海智峪生物科技有限公司CEO王晟强调,根据需求进行酶的凭空设计和制造是一个很遥远的目标。他认为相对“凭空设计”而言,通过 AI 辅助从自然界挖掘高效酶、更快实现产业化的路径更为现实。


结合自动化的高通量实验平台和数据反哺系统,在大幅降低湿实验时间、人力、金钱成本的同时,AI可以实时解析海量实验数据,并不断进行实验参数的优化迭代。这使得新酶设计、酶工程改造、工业酶制剂制备等生物制造流程进入智能化、规模化生产阶段,推动传统产业向低碳、环保方向转型。


用浙江汉膜流体技术有限公司总经理张楠的话说,“AI的加入,可以让工厂的管理者非常直观地看到生产的状态。”


训练AI,数据从哪来?

在亚波光子创始人兼总经理阮银兰看来,“AI是集成在大量数据的基础上。”


达普生物董事长许潇楠也表示,AI在合成生物学领域最核心、最难的还是高质量数据的获取与处理。他认为有两个方面非常重要:第一,要做好下游验证,必须有清晰的标准和明确的数据采集要求,但其中的许多机理尚不明朗;第二,数据采集本身需要相应的工具和传感器,才能快速、高效地获取所需信息。


目前,大模型在生物制造产业中的应用尚不广泛,而其中的障碍之一就是缺乏整合多模态和非结构化生物信息数据的管道。数据库不仅应实现生物制造过程中全链条数据的标准化,确保数据的准确性和可比性,还要通过高度集成的系统整合多层次、多源数据。


另一方面,生物系统高度复杂,人工智能方法可能因不完整的知识库内容、信息偏差以及碎片化或干扰信息而受到影响。比如,生物制造过程中,酶或细胞工厂将原料转化为目标产物,这一过程不仅依赖于传统的组学信息,还涉及更多复杂的生物学特征和工程参数。但合成生物学文献中的数据多集中在菌株工程等领域,关注生物制造过程放大或菌株长期稳定性研究的论文很少。因此,从试点研究和发酵工业中收集数据对确保AI质量和商业适用性至关重要。


镁孚泰生物CEO刘想博士认为,对生物制造行业而言,行业需求与技术可行性之间的鸿沟可能是从业者们正在面临的商业化挑战之一。诚然,AI技术与生物技术、发酵工艺的融合的确为成本的下降带来了可行性。但AI技术的商业化,本身就必须伴随大量数据的训练,这些训练用的数据又该从何而来?显然,数据的供给方不可能是AI的开发人员,只能来自真实的案例和实际的项目。那么,由谁投入成本推进真实的案例和实际的项目?大部分初创公司都无法负担。


于是,训练数据的成本成为行业需求与技术可行性之间的一道阻碍。


除了上述的成本以外,在获取数据时,也要注重数据来源和知识产权保护。


欧华律师事务所驻北京代表处资深顾问戈易帛表示,AI产业需要从源头起就对数据的合规性进行把控。当企业希望运用第三方或公开来源的数据进行模型训练时,需提前明确数据使用权限、法律责任分配和后续成果权属。


数据来源是很复杂的一件事,目前在产业主要是三种来源:一是自有数据,既可充分掌控,也无需担忧合规风险,但数量通常有限,难以满足后续大规模研发需求。二是第三方数据,这里就需要警惕很多法律问题。比如第三方的数据来源是不是合法合规?有没有权利把这个数据转让或分享给你?这些数据怎样进行使用以及产生出来的效益如何分配?三是公开抓取的数据,对于这些数据也要注意,从公开渠道抓取数据的时候,这些数据企业是否可以利用?抓取手段是否合规?这些都是考虑的问题。


数据来源问题解决之后,企业就可以开始基于自有模型或第三方模型来处理数据。但值得注意的是,企业在把数据上传第三方平台进行训练之前,一定要和平台方明确约定清楚相关内容。比如,上传的数据是否可以被平台方使用?平台方是否有权把数据提供给其他客户?其他客户使用这些数据后的成果与自己究竟是什么关系?后续产生的成果中,如果训练内容成果已被嵌入平台上,应该怎样剥离或共享权益?


这些问题如果没有明确约定,等到成果产生,届时成果已深度依赖平台,很难做出彻底的剥离,只能做一些“折中”或“妥协”。


这种情况自然也广泛存在于行业内:“基于什么理由,可以让企业把研发/生产真实数据交出来,用于AI训练和优化呢?”


对此,浙江大学经济学博士、钛资本董事总经理方昕在其文章中写道:“基于什么理由,你愿意把自己的照片、文档(等隐私)传上云端做AI处理呢?一定是平台处理数据的能力太强了,强到你愿意冒风险。企业也是同理,如果云平台能力是鸡肋,企业肯定本地化部署,但如果云平台能力如同DeepSeek,肯定愿意冒泄漏风险获得更高效精准的解决方案。”


安全和效率,永远是一个矛盾统一体。

声明:本文由车市号作者撰写,仅代表个人观点,不代表网上车市。文中部分图片来源网络,感谢原作者。

发表评论

请您注册或者登录车市社区账号即可发表回复

全部评论(0)

竟然没评论,快去评论~~