WebGPT: web検索を操作して引用付きで質問に回答
WebGPT: Browser-assisted question-answering with human feedback
2021/12
- 長文質問に答えるために,テキストベースのブラウザでweb検索できる環境でGPT-3をfine tuneした
- 人間が同様のタスク行った結果との比較も使用して学習している
- 最良のモデルは人間の検索回答(デモ)を使ってGPT-3を微調整し、人間の嗜好をスコア化する報酬モデルに対して拒絶サンプリング(n件の生成結果を与えて報酬が高いものを採用)を行ったモデル
- ELI5を使った評価で,56%の確率で人間の検索回答(デモ)より好まれ、69%でRedditで最も投票された回答より好まれた
- web検索環境はテキストベースで,質問が与えられ,それに対して検索,引用元として記録,ページスクロール,等のactionが可能
- これを操作して質問に対する長文の回答を根拠付きで生成/作成する
- 人間が操作して回答を作成した結果はデモと呼ぶ
- モデルがこれを操作する際は言語生成を行ってactionと一致すれば操作できる
- 学習方法は4つ
- 評価はELI5, TruthfulQA, TriviaQAで行った
- 学習方法間ではbest-of-n > RL > BCの順で評価が高い