基于人工智能从海量数据中挖掘数据内在联系的强大学习和分析能力,AI for Science在假说的提出、实验的设计、数据的收集与分析等各个科研环节,都呈现出越来越重要的价值。目前,AI for Science已经成为全球人工智能创新前沿,在生物、数学、物理、化学、天文等学科中取得了重要成果。
作为一所以“高起点、小而精、研究型”为办学特色的新型研究型大学,西湖大学对AI与科学之间的理解更进一步,正致力于打造“Science for AI”和“AI for Science”的科研闭环,以基础科学探索AI技术进步,以AI推动科学发现和技术创新。而为了支撑这一新的科研范式闭环,西湖大学携手浪潮信息等企业建设质效兼备的算力平台,满足各科研领域对于大规模数据处理和大规模科学计算的需求。
“AI for Science”的科研范式背后的算力挑战
在西湖大学,“Science for AI”和“AI for Science”正在建立一种新的科研范式“闭环”,AI与基础科学不仅在深度融合,更在形成共振,极大加速和扩展科学研究的效率和能力边界。
生命科学学院申恩志实验室借助AI来加速非编码RNA(non-coding RNA,简称ncRNA)研究,利用计算和AI技术高效解析复杂、庞大且高度动态的转录组、蛋白质组等数据,分析出其中的调控关系,找到调控规律;工学院金耀初团队利用基础科学的原理和方法来启发和改进AI技术,采用脉冲神经网络开发具有演化发育功能的具身智能机器人,让机器人像自然界的生命体一样演变成长;工学院的蓝振忠团队研发的心理咨询大模型“小天”,追求人工智能不仅要具备IQ(智商),拥有强大知识储备和学习能力,更要具备EQ(情商)……
对于西湖大学的众多科学家来说,算力已经成为一种必备的科研要素。比如在预测ncRNA功能与识别靶点、执行复杂模式识别任务时,因数据更新与增长速度飞快,需要大量的算力资源来训练模型以支撑研究;演化发育机制与人工智能结合需要复杂系统建模理解,对种群和个体状态信息、环境数据、历史记录等海量数据的特征提取和学习,让计算量呈指数级增长且有实时并行的要求,算力挑战巨大;心理大模型“小天”的开发依赖于从海量心理咨询数据中训练和推理文本的情感特征,需要AI的自然语言处理技术与强大算力支撑,以应对大规模数据集与复杂模型架构及参数。
随着众多科研项目的不断推进,西湖大学原有的算力平台已无法满足各团队的算力需求。同时,算力资源管理的重要性日渐凸显。
西湖大学算力平台面向全校开放,院系多、人员多且角色复杂,各科研团队每天提交的计算任务高达上百个。不少实验室有大模型训练的需求,需要统一调度大规模的计算资源以保障高效训练。但是算力平台缺乏系统化的用户管理和资源管理,经常出现算力独占和算力使用不足的情况,造成算力资源的巨大浪费。各实验室提交计算任务后,经常需要长时间等待才能得到结果,严重影响了科研进度。
如何充分挖掘算力资源的潜力,提高资源利用率、满足各科研团队的算力需求,成为西湖大学亟需解决的问题。
浪潮信息AI服务器+AIStation实现科研算力平台的质效兼备
针对西湖大学实际科研场景中对算力和使用效率的双重挑战,浪潮信息以AI服务器打造出高质量、高可靠性、高定制化的AI+科学算力基础设施,为西湖大学提供高效算力支撑。同时,通过部署AIStation人工智能开发平台,覆盖从数据处理到模型预训练、模型微调和模型推理的AI工程化全流程,实现对多类型算力资源的统一纳管以及智能调度。
西湖大学各科研团队可通过AIStation自行按需申请资源,AIStation自动分配GPU资源给用户使用,满足生命科学、人工智能等科研项目的不同算力需求。其GPU共享策略可实现实现多人共用一台机器、多人共用一张GPU卡,开发环境相互隔离互不影响,大大缩短了等待资源的时间。
AIStation支持任务排队托管、定义任务优先级,让西湖大学各实验室可以同时提交多个训练任务,资源不足时排队等待,一个任务训练结束后自动释放资源给排队等待的任务,从而可以更好地利用夜间、假期执行训练任务。同时可设置优先级,让重要任务优先执行。
针对西湖大学大模型训练的需求,AIStaiton实现了西湖大学异构算力资源的统一池化管理,通过自研分布式任务自适应系统自动化配置底层计算、存储、网络环境,并提供自定义修改基本超参数功能,帮助科研团队提升分布式训练效率。同时,AIStation具有断点续训能力,保障训练任务中断后能以最快速度恢复,有效训练时间占比达90%。
借助浪潮信息AIStation,西湖大学实现了算力资源高效使用,计算资源利用率提升到90%以上,运维人员工作效率提高50%,大大加快了科研创新速度并降低了科研成本。
西湖大学作为新时代高等教育与科研创新的先锋力量,以AI+科学的融合共振,推动科学研究范式的变革。浪潮信息自2020年以来持续参与西湖大学智算中心建设,为西湖大学提供稳定可靠的算力系统和丰富的软件堆栈,通过高效的算力基础设施,加速西湖大学“AI+科学”的双向融合与共振。