WebGPT: Browser-assisted question-answering with human feedback

2021/12

https://arxiv.org/abs/2112.09332

f:id:e4exp:20220223193257p:plain — 人間用web検索環境(左)とモデル用(右)

f:id:e4exp:20220223193441p:plain — ELI5で，人間のデモに対してWebGPTが好まれた割合(左)とELI5の正解データに対してWebGPTが好まれた割合(右)

長文質問に答えるために，テキストベースのブラウザでweb検索できる環境でGPT-3をfine tuneした
- 人間が同様のタスク行った結果との比較も使用して学習している
- 最良のモデルは人間の検索回答(デモ)を使ってGPT-3を微調整し、人間の嗜好をスコア化する報酬モデルに対して拒絶サンプリング(n件の生成結果を与えて報酬が高いものを採用)を行ったモデル
- ELI５を使った評価で，56%の確率で人間の検索回答(デモ)より好まれ、69%でRedditで最も投票された回答より好まれた
web検索環境はテキストベースで，質問が与えられ，それに対して検索，引用元として記録，ページスクロール，等のactionが可能
- これを操作して質問に対する長文の回答を根拠付きで生成/作成する
- 人間が操作して回答を作成した結果はデモと呼ぶ
- モデルがこれを操作する際は言語生成を行ってactionと一致すれば操作できる
学習方法は4つ
- behavior cloning(BC) : 人間のデモ(コマンド)をラベルとして教師ありでfine tune
- 報酬モデル(RM) : BCモデルから質問と回答を入力し，スカラー報酬を出力する
- 強化学習(RL): PPO(schulman+2017)を使ってBCモデルをfine tune
- 拒絶サンプリング(best-of-n): BCとRLからn個の回答をサンプルし，報酬モデルRMで最も良いものを採用
評価はELI5, TruthfulQA, TriviaQAで行った
- 学習方法間ではbest-of-n > RL > BCの順で評価が高い

学んだことメモ

WebGPT: web検索を操作して引用付きで質問に回答

WebGPT: Browser-assisted question-answering with human feedback