WebGPT: web検索を操作して引用付きで質問に回答

WebGPT: Browser-assisted question-answering with human feedback

2021/12

f:id:e4exp:20220223193257p:plain
人間用web検索環境(左)とモデル用(右)

f:id:e4exp:20220223193441p:plain
ELI5で,人間のデモに対してWebGPTが好まれた割合(左)とELI5の正解データに対してWebGPTが好まれた割合(右)

  • 長文質問に答えるために,テキストベースのブラウザでweb検索できる環境でGPT-3をfine tuneした
    • 人間が同様のタスク行った結果との比較も使用して学習している
    • 最良のモデルは人間の検索回答(デモ)を使ってGPT-3を微調整し、人間の嗜好をスコア化する報酬モデルに対して拒絶サンプリング(n件の生成結果を与えて報酬が高いものを採用)を行ったモデル
    • ELI5を使った評価で,56%の確率で人間の検索回答(デモ)より好まれ、69%でRedditで最も投票された回答より好まれた
  • web検索環境はテキストベースで,質問が与えられ,それに対して検索,引用元として記録,ページスクロール,等のactionが可能
    • これを操作して質問に対する長文の回答を根拠付きで生成/作成する
    • 人間が操作して回答を作成した結果はデモと呼ぶ
    • モデルがこれを操作する際は言語生成を行ってactionと一致すれば操作できる
  • 学習方法は4つ
    • behavior cloning(BC) : 人間のデモ(コマンド)をラベルとして教師ありでfine tune
    • 報酬モデル(RM) : BCモデルから質問と回答を入力し,スカラー報酬を出力する
    • 強化学習(RL): PPO(schulman+2017)を使ってBCモデルをfine tune
    • 拒絶サンプリング(best-of-n): BCとRLからn個の回答をサンプルし,報酬モデルRMで最も良いものを採用
  • 評価はELI5, TruthfulQA, TriviaQAで行った
    • 学習方法間ではbest-of-n > RL > BCの順で評価が高い