本文约1200字,建议阅读5分钟。提出了一种基于排序的人类偏好对齐方法。
OpenAI的ChatGPT理解多种人类指令,可以很好地应对不同的语言任务。自发布以来,一直有关于通用人工智能的讨论。
ChatGPT的惊人能力来源于一种新颖的大规模语言模型微调方法:RLHF(通过强化学习对齐人类反馈)。
RLHF方法不同于以往监督学习的传统微调方法。该方法首先让模型根据指令提示产生不同的响应,然后通过人工评估反馈和强化学习对LLM进行微调。
RLHF解锁了语言模型遵循人类指令的能力,使语言模型的能力与人类的需求和价值观对齐,从而使RLHF微调下的语言模型拥有了惊人的能力。
目前,对RLHF的研究主要采用PPO算法来优化语言模型。从一个使用指令和人类演示数据通过监督学习进行微调的语言模型开始,PPO算法首先使用这个语言模型输出对不同指令数据的回复。
然后,使用奖励模型来评估语言模型的不同响应,最后,使用得分评估和策略梯度下降来优化语言模型。
考虑到训练中语言模型的不断变化和奖励模型有限的泛化能力,PPO在工程实践中需要反复迭代上述过程,在奖励的设计中需要限制微调后的语言模型偏离初始模型太远。因为使用强化学习的训练包含许多超参数,
并且在算法迭代的过程中,多个独立的模型需要相互配合,错误的实现细节会导致训练结果不理想。
从向人类看齐的角度来看,有必要强化学习算法吗?提出了一种基于排序的人类偏好对齐方法。
它对不同语言模型产生的回答进行评分(回答可以来自ChatGPT、GPT-4、当前训练模型或人类标注数据),评分来自当前模型下回答的对数概率。
RRHF通过损失排名将分数与人的偏好(或代理的奖励模型)对齐。RRHF训练的模型既可以作为生成语言模型,也可以作为奖励模型。下图比较了PPO算法和RRHF算法的区别。
RRHF算法可以有效地将语言模型的输出概率与人类偏好对齐,在微调期间只需要一两个模型。相比之下,PPO需要四个模型:微调语言模型、参考语言模型、奖励模型和价值模型。
在实际训练中,较少的模型有助于减少对。。内存的占用,使RRHF能够更高效地利用计算资源,扩展到更大的模型进行训练。
此外,RRHF在编码和超参数方面比PPO简单。整个比对过程(包括监督学习、训练奖励模型和PPO)可以在一次RRHF训练中完成。
本文使用Meta的羊驼模型和Stanford的羊驼模型对Anthropic发表的有益无害数据进行了实验。
发现RRHF可以达到与PPO相当的水平。在代码实践中,RRHF的难度不亚于传统的监督学习微调算法,大大降低了语言模型与人类偏好对齐的工程难度。
同时,基于RRHF算法,作者利用羊驼的提示数据,以ChatGPT或GPT-4为评分模型,训练了语言模型Wombat-7B和Wombat-7B-GPT4。
训练时间只需要几个小时。经过训练的Wombat能更好地符合人类的喜好。以下是来自Wombat.的自我介绍
Query: Give an introduction of wombat
Wombat: Wombat is a marsupial mammal native to Australia. It is typically found in mountainous areas and is known for its burrowing behavior. Wombats are typically around two feet long and weigh up to 30 pounds. They have a gray coat with white on their chests, and they have thick and powerful hind legs which they use for digging. Wombats are mostly nocturnal and eat a variety of insects, leaves, and grasses.
纸质链接:
https://arxiv.org/abs/2304.05302
作者单位:
阿里巴巴达摩院
代码链接:
https://github.com/GanjinZero/RRHF
标题:袋熊有攻击性吗(袋熊是正规软件吗)
链接:https://www.52hkw.com/news/rj/67506.html
版权:文章转载自网络,如有侵权,请联系删除!