2025年12月18日,之江实验室举行021科学基础模型创新合作大会,全面展示021科学基础模型及系列领域科学模型研发进展,进一步推动开放合作、协同创新,携手合作伙伴共同加速科学发现、变革科研范式。国家相关部委、省、市有关部门领导,国家实验室、全国重点实验室、高水平大学、创新型企业等创新机构代表汇聚之江实验室,围绕“人工智能+”科学技术等议题展开深入研讨。
构建科学基础模型是战略创新之举
2025年,以DeepSeek、Qwen等为代表的开源大语言模型和全球最好的闭源基础模型发展到了同等水平,让中美真正站在了同一片“大海”前。作为聚焦智能计算的新型研发机构,之江实验室一直在思考:大语言模型是基础模型的终极形态吗?人工智能如何更好地赋能科学研究?
“语言所表达的维度,远远低于科学所需表达的维度。”之江实验室科学模型总体部技术总师薛贵荣在大会报告中指出,科学数据涵盖时间、空间、能量等多个维度,是对复杂物理系统演变规律的高维表征。比如,地球科学中超过75%的信息存储于声波、磁场等非文本数据中;天文学依赖图像、光谱来解析宇宙结构与演化;生命科学的奥秘深藏于如人类基因组30亿碱基对等DNA序列中。
与此同时,AlphaFold 历经三次架构迭代,一步步实现从氨基酸序列到复杂生物分子结构的精准预测,其预测效率更是超越了人类科研规模的极限,仅用几周时间就完成超过2亿的蛋白质结构预测。然而,即便是AlphaFold3,其对于科学家的赋能仍局限于生物化学分子这一细分领域,远未能覆盖生命科学这一学科。
解决科学问题,我们迫切地需要突破语言空间的局限,研发科学基础模型,构建科学空间+语言空间于一体的更高维空间,建立跨学科数据之间的深层连接,变革科学研究范式。正如中国工程院院士、之江实验室主任王坚所言,“基础模型是人工智能的皇冠,科学基础模型是人工智能皇冠上的明珠”,构建科学基础模型是一项具有战略性、基础性和前沿性意义的创新之举,将为科技创新变革提供驱动力。
“从0到1”极其挑战
“基础模型决定了模型能级的上限。”薛贵荣表示,“就好比1升的瓶子装不下3升的水,在他人的通用模型的框架里做研究就很难有所突破。”于是,之江实验室没有选择在现有通用基础模型上“搭房子”,而是坚定地“从0到1”打基础“建房子”。
研发团队首先要破解的就是“科学数据之困”。据了解,AlphaFold探索不同类型的生物化学分子统一Token化的方法用了6年时间,而要把数学、物理、化学、天文学、生命科学、地球科学、材料学等不同学科的科学数据训练到一个基础模型里,工作量和困难将指数级增加。
构建一个学科模型的难度远远超过构建一个语言和代码模型。研发融合多学科、多类型数据的科学基础模型更是一次前所未有的挑战,且无任何前人经验可参考。但之江实验室基于算力、数据、模型的体系化创新能力,通过在地学、天文学、基因等领域科学模型构建的探索实践,逐渐厘清技术路线。
研发团队充分发挥MoE(混合专家架构)与科学知识结构高度同构性的优势,构建OneTokenizer(科学数据统一表征) + MoE融合模型架构,探索将科学数据和文本语料编码到统一的高维空间,让模型能够识别、处理科学数据,认识并解决复杂科学问题。
最终,经过近万次实验,团队形成了模型训练框架,包括预训练、后训练、强化学习等,并完成了2360亿参数规模021科学基础模型的训练。021模型构筑形成了跨学科知识、跨领域推理、跨语言理解(覆盖204种语言)三大基石,具备出色的科学推理能力,能够深入分析、推导、验证多类科学问题。
开放合作,共启科学的人工智能时代
目前,021模型已服务地球科学、天文学、生命科学、材料科学等多个领域,成为打破学科边界、激发创新思维的“科研伙伴”。
自2025年4月面向全球开放使用以来,地学领域模型GeoGPT不断迭代升级,其中GeoGPT-VL支持图像描述总结、图像信息提取、地理空间推理、地学分析推理四类典型任务,实现从“读图”到专业推理的跨越。天文领域模型OneAstronomy将光谱、光变、图像等不同模态的天文数据映射至统一表征空间,实现跨模态融合推理,重构数据处理范式,释放望远镜自主观测潜力,推动实现“观测即发现”。人类基因组基础模型Genos强大的跨学科分析推理能力能够预测突变症状,发现新的致病位点,高效辅助基因疾病诊断与机制发现。多孔合金材料模型OnePorous可根据材料性能需求,逆向生成新型多孔结构,相关技术已应用于3D打印卫星主体结构制造,实现结构减重与制造周期缩短。
这些进展的取得,不仅源于技术创新,更得益于机制创新。通过举办“种子班”,实验室与合作伙伴以服务人工智能模型训练为目标,实战育才、协同攻关,培育了900余名紧缺AI人才,为模型创新注入“源头活水”。之江实验室与华大生命科学研究院的联合团队从0到1完成了百亿参数人类基因组基础模型Genos的训练,并基于021科学基础模型,在致病性突变识别任务上实现了98.3%的准确率。
通过“科学家工作坊”,实验室与全球科学家展开深度合作,推动人工智能与科学的融合走向深入。实验室与美国、英国的地学科学家合作,基于GeoGPT实现了从开放论著到数据抽取再到古生物分类的全链创新,让沉睡的化石数据“开口说话”,系统揭示古生物演化规律。
“本次创新合作大会既是一场加强技术交流、深化创新合作的对接会,也是凝聚行业共识、共探发展路径的推进会。期盼与各方力量一道,共同推动科学基础模型合作创新、科学研究范式变革以及科技创新与产业创新深度融合。”之江实验室党委书记佟桂莉在致辞中表示。未来,之江实验室将持续践行开放科学,通过打造科技公共产品,携手合作伙伴,共同开启科学的人工智能时代。
