DeepMind发布提高翻译质量E世博APP下载的算法ReST

2024-04-14

[摘要] 　谷歌DeepMind于8月21日发布论文，提出一种使LLM与人类偏好对齐更简单的算法ReST（Reinforced Self-Training）。不同于RLHF（基于人类反馈的强化学习）使用人类反馈改进语言模型，ReST通过生成和使用离线数据进行训练，从而使得LLM与人类偏好保持一致。研究团队表示，虽然ReST可用于所有生成任务，但本文的重点是机器翻译。研究者在机器翻译任务上进行了实验，测试基

　　谷歌DeepMind于8月21日发布论文，提出一种使LLM与人类偏好对齐更简单的算法ReST（Reinforced Self-Training）。不同于RLHF（基于人类反馈的强化学习）使用人类反馈改进语言模型，ReST通过生成和使用离线数据进行训练，从而使得LLM与人类偏好保持一致。研究团队表示，虽然ReST可用于所有生成任务，但本文的重点是机器翻译。研究者在机器翻译任务上进行了实验，测试基准包括IWSLT 2014、WMT 2020和Web Domain。结果表明，ReST可以极大地提高翻译质量。