LLM训练基石:RLHF是关键,还有哪些替代技术?

图片.jpg


人工智能领域的一个重要技术是训练大型语言模型(LLM)。人工智能和机器学习的快速发展中,RLHF(使用人类反馈的强化学习)被看作是训练LLM不可或缺的重要组成部分。作为现代LLM训练流程中的关键步骤,能将人类倾向性的理解结合到模型优化中,提升模型的安全性和实用性。


LLM的训练流程

在语言学习模型(LLM)的典型训练流程中,首先进入“预训练”阶段,模型通过分析海量无标签文本数据学习语言知识,并采用自监督学习策略在文本语料库上训练,目标是预测接下来的词汇。其次是“监督式微调”阶段,此时模型利用小规模、高质量的“指令-输出”配对数据进行精准训练,以确保精确响应用户指令。最后进入“对齐”阶段,通过强化学习和人类反馈对模型进行微调,保证输出结果符合用户期望和安全要求。整个流程旨在高效构建一个能准确理解并响应用户输入的优质模型。

图片1.png

图片来自 InstructGPT 论文


RLHF的三个关键步骤

RLHF的过程可以分成三个主要步骤:监督式微调、创建奖励模型以及近端策略优化。在监督式微调阶段,机器学习模型根据预设的规则和人工提供的反馈进行初步训练。接下来,创建奖励模型的阶段是对初步训练结果的回馈与调整,以进一步优化模型。最后,在近端策略优化阶段,模型的性能会通过实际场景的检验和模拟应用进行深度优化。

图片2.png

图片来自 InstructGPT 论文


Llama 2: RLHF的新进展

Meta AI Llama 2 语言模型独创性地运用了强化学习人类反馈(RLHF),展现了与先前模型不同的训练策略。区别于InstructGPT的策略,Llama 2 构建了两个分别针对输出有用性和安全性的奖励模型,并通过一个边际损失参数,精确衡量模型响应之间的差异。此模型亦引入了拒绝采样策略,选择高奖励样本以优化训练过程。Llama 2 以其创新方法,在模型的安全性和实用性方面均实现了显著提升,为AI领域的研究和发展带来了新的可能。


新兴的替代技术

当然,作为一种在LLM训练中得以广泛应用的技术,RLHF也面临着挑战和替代。在最的一些论文研究提出了一些可以替代RLHF的技术,如在"Constitutional AI"的研究论文中,作者提出了一套基于人类所给出的规则列表的自训练机制。这种方法,在某种程度上,与之前探讨过的"InstructGPT"论文中采用的一种强化学习策略颇为相似除此之外还有一些研究提出过红队测试、直接偏好优化技术。这些新兴技术在理论上看似具有良好的应用潜力,但其效用和适应性尚需通过实际应用与效果指标进行验证。


图片3.png

论文链接:https://arxiv.org/abs/2212.08073


实际上,RLHF已经在多项实践中展现出其关键作用。然而,是否应该将这些替代技术投入实际应用仍是一个悬而未决的问题。


关于企元大数据

广州企元大数据科技有限公司,专注于人工智能企业应用,为企业提供内部专属的人工智能模型开发、生成式AI开发以及全面的人工智能咨询服务。我们的产品 AIW全智通,凭借其独特的认知引擎,不仅为中小企业提供了经济、定制化的AI解决方案,还确保了其输出的可管理性与准确性,完全满足企业的业务策略和道德规范。AIW开发底座版(AI PaaS),利用核心的封装式AI模块化技术,为企业提供了与现有业务系统兼容的AI增强解决方案。它的模块化和标准化设计,以及为企业现有系统增加AI功能的能力,都使得企业可以低成本、高效率地进行数字化升级。

122.png


关于汇思人机资本

汇思软件(上海)有限公司(简称:Cyberwisdom Group)是一家领先的企业级人工智能、数字学习解决方案和人才持续专业发展管理提供商,基于一套平台、内容、技术和方法论构建,我们的服务包括学习管理系统(LMS)、企业人工智能管理平台、企业Metaverse设计、定制课件设计、现成的电子学习内容和数字化劳动力业务流程外包管理。

汇思在香港、广州、深圳、上海、北京、中山、新加坡和吉隆坡均设有分支机构,汇思超过 200人强大研发团队,拥有自主研发的一系列企业级人才发展学习方案,包括wizBank7.0学习管理系统以及企业全栈人工智能管理平台 TalentBot AI PAAS 2.0。作为领先的企业人工智能及人机发展解决方案供应商,汇思不仅提供平台技术,并且拥有亚太地区庞大的定制课程设计开发团队,超过2000门自主版权的通用课件,游戏化学习,学习支持与推广服务等。

图片2.png

汇思深度企业人工智能咨询 Deep Enterprise AI Consulting基于多年来的”人机发展“的成熟经验,深厚技术和影响力,团队的定位是给予”企业人机学习及发展无限的可能性”

我们的目标是帮助您解锁AI的潜力,提升业务效率和客户体验。欢迎与我们联系,共同探讨AI的未来可能性。


20230902

扫码交流,一起构建企业人工智能的未来