利用语言模型进行聚变能源研究
自从聚变研究出现以来,科学家们已经发表了数千份有关该主题的文件——论文、会议记录,甚至是世界各地聚变反应堆先前实验的书面日志。这样的信息源泉很容易需要一生的时间才能阅读,甚至需要更长的时间才能理解。
然而,在圣地亚哥DIII-D国家聚变设施进行的实际聚变实验中,研究人员在两次试验之间只有大约10分钟的时间来定位该信息并使用它来为下一次运行进行调整。
“每个融合镜头都会在几秒钟内结束,然后在下一个融合镜头之前你有很短的时间来解决任何问题并做出任何必要的改变,”六年级博士约瑟夫阿巴特说。普林斯顿等离子体物理学项目的候选人。“你必须在很短的时间内做出很多决定。”
阿巴特说,领导实验的研究人员通常会在最后一刻对下一个实验进行微调,而改变通常是通过轮询房间寻找答案来进行的,这种技术依赖于当天轮班操作员的共享专业知识。
现在,来自普林斯顿大学、卡内基梅隆大学和麻省理工学院(MIT)的科学家已经应用大型语言模型(ChatGPT、Bard和LLaMA等工具背后的驱动力)来帮助聚变研究人员快速筛选数量惊人的信息。数据以便即时做出更明智的决策。该模型允许用户识别具有相似特征的先前实验,提供有关设备控制系统的信息,并快速返回有关聚变反应堆和等离子体物理学问题的答案。
“令人惊讶的是,融合研究是应用大型语言模型来帮助人类的理想场景,”博士VirajMehta说。卡内基梅隆大学的候选人,也是详细介绍研究人员工作的研讨会论文的第一作者。“一方面,在论文、摘要和海报中,以及研究人员和操作员在每次聚变试验后写的笔记中,有大量关于聚变的可用文章。另一方面,你需要有快速访问这些信息。这就是这些模型的闪光点。”
研究人员在普林斯顿大学校园举办的研究生主导的黑客马拉松上为他们的项目奠定了基础,在此期间,团队确定了可以对现有语言模型进行的调整,以利用其能力进行融合研究。这些模型在经过互联网上数万亿个单词的训练后,因其能够生成类似人类文本的能力而迅速声名鹊起。
在仅仅几个晚上的协作编码中,该团队通过使用称为检索增强生成的过程增强原始大语言模型,为他们的工作奠定了基础。检索增强生成允许人们使用额外的数据源来补充模型的一般数据集(通常基于特定截止日期之前发布的互联网文本),以提高模型响应的准确性和质量。在这种情况下,研究人员添加了一个信息数据库,其中包括DIII-D先前实验的射击日志和注释,这些信息在互联网上不公开存在。
“在黑客马拉松上,我们能够从一群人那里获得即时反馈和灵感,以保持项目向前发展,使我们能够克服任何障碍,最终为我们的模型奠定坚实的基础,”阿巴特说。
通过增强模型,研究人员收到了对各种提示的有用响应,从如何操作特定设备的信息到建议更改设备参数。此外,他们可以构建问题,要求模型参考生成响应的确切实验或论文,从而提高模型的可信度。
阿巴特说:“这就像房间里有另一个助手一直陪伴在你身边,他了解反应堆中进行的每一次聚变试验,并可以根据过去发生的情况提供建议。”
虽然研究人员在黑客马拉松上为他们的模型奠定了基础,但此后他们改进了他们的工作,以便可以在实际的聚变设施中复制。例如,Abbate正在与DIII-D的操作员合作,探索在该设施中实施该框架的方法,以便在那里进行实验的每个研究小组都可以访问该框架。
该团队还指出,该框架可以应用于不再运行的聚变反应堆,使科学家能够访问信息源,否则这些信息可能会随着反应堆操作员退休或转移到其他设施而被遗忘。合著者、麻省理工学院研究生AllenWang证明,为DIII-D开发的相同框架可以适用于AlcatorC-Mod,这是麻省理工学院的一个聚变反应堆,已于2016年停止运行。
安德林格能源与环境中心机械与航空航天工程副教授、资深作者埃格门·科勒曼(EgemenKolemen)表示:“有些机器已经关闭了几十年,没有人记得这些实验期间发生了什么。”以及普林斯顿等离子体物理实验室(PPPL)的研究物理学家。“但是通过收集所有文本数据并将它们插入语言模型中,我们可能会重新学习一些关键信息,这些信息可以帮助我们解决未来反应堆面临的问题。”
梅塔补充说,该模型对于担任反应堆会议领导者的年轻聚变研究人员来说也可能是一个有价值的工具,他和阿巴特在研究生生涯中多次担任过这一角色。
他说:“通过拥有可以引用现有每一篇融合论文的模型,我们创建了一种工具,可以让下一代研究人员比以前更轻松地获取信息。”
这篇题为“TowardsLLMsasOperatingCopilotsforFusionReactors”的论文于12月16日在NeurIPS2023AIforScienceWorkshop上发表。