ニュース記事・画像からキャプション生成,Transform and Tell

Transform and Tell: Entity-Aware News Image Captioning

f:id:e4exp:20210224150156p:plain

まとめ

  • どんなもの?
    • ニュース記事に埋め込まれた画像のキャプションを生成するモデル
      • 固有名に対応するため,顔・物体・単語を個別にmulti modal, multi head atentionでencode
      • 一般的でない単語や新語に対応するため,byte pair encodingを使ったRoBERTaでcaption生成
  • 先行研究と比べてどこがすごい?
    • ニュースキャプションタスクで,CIDErスコアで13→54に増加するなどsotaを更新
  • 技術や手法のキモはどこ?
    • pre-trained encoderの集合と,decoderから構成される
      • encoderは画像,顔部分画像,物体画像,記事textそれぞれについてベクトル表現を生成し,decoderはそれらにattendしながらcaptionをsub-wordレベルで生成する
    • encoder
      • 画像全体は特徴はImageNetで訓練したResNet152.
      • 画像に対してMTCNNで検出した顔のbboxを4つまで選択し,顔のvector表現をFaceNetで抽出.
      • 物体の検出はYOLOv3で,最大64個.それぞれをResNet152で特徴抽出.
      • 記事textはRoBERTaでエンコード.BPEを使用している.
    • decoder
      • 今時刻までの画像,顔,物体,テキストのencodingと出力を入力し,次時刻を予測
      • adaptive softmaxを使用して語彙を頻度に基づいて3クラスタに分割し,学習効率を上げる
      • transformerブロック内で,過去のtokenによる条件付はdynamic convolutionを使用してself attentionを代替し効率化
    • ニュースキャプションタスクのNYTimes800kデータセットを提案.既存データセットのGoodNewよりも70%大きい
  • どうやって有効だと検証した?
    • 評価指標はCIDEr, BLEU-1,2,3,4, ROUGE, METEOR, 固有名・人名・珍しい名詞のrecallとprecisionで評価
      • sotaよりもほぼすべての項目で上回る結果.
    • sotaのBitenモデルと比較,decoderにRoBERTaではなくLSTMやGlove埋め込み,transformerを使用した版も学習してベースラインとして比較
      • transformerを使用するとLSTMより一貫して良い結果.すべての指標で.
      • Glove埋め込みよりBPEのほうが良い
  • 議論はある?
    • 提案データセットの平均記事長さは963単語,googNewsは451単語 (これをtext encodeする.普通のimage captionでは入力にtextがくることはない)
    • 生成キャプションの平均単語数が15で,先行研究sotaの10よりも正解の18に近づいた
  • 次に読むべき論文は?
    • transformerを利用したimage captioing
      • Xinxin Zhu, Lixiang Li, Jing Liu, Haipeng Peng, and Xinxin Niu. Captioning transformer with stacked attention modules. Applied Sciences, 8(5):739, 2018. 2
      • Jiangyun Li, Peng Yao, Longteng Guo, and Weicun Zhang. Boosted transformer for image captioning.Applied Sciences, 9(16):3260, 2019. 2
    • resnet152の7x7パッチの表現により,decoderが画像の異なる部分に注目できる
      • Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron C. Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, 2015. 2, 3
    • 使用したフレームワーク
      • Matt Gardner, Joel Grus, Mark Neumann, Oyvind Tafjord, Pradeep Dasigi, Nelson F. Liu, Matthew Peters, Michael Schmitz, and Luke Zettlemoyer. AllenNLP: A deep seman-tic natural language processing platform. In Proceedings of Workshop for NLP Open Source Software (NLP-OSS), pages 1–6, Melbourne, Australia, July 2018. Associationfor Com-putational Linguistics. 6
  • その他

物体検出結果のタグを利用して視覚-言語6タスクでSoTA更新,OSCAR

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

f:id:e4exp:20210208201250p:plain

まとめ

  • どんなもの?
    • 言語embedding,画像の物体検出特徴に加えて,画像から物体検出で得られた物体タグの系列をTransformerのSelf Attentionでvisual, language特徴をalignmentするためのアンカーポイントとして使用するVision Language Pre-train(VLP)モデル.
  • 先行研究と比べてどこがすごい?
    • 言語理解・生成の6個の下流タスクでSoTAを達成
    • 先行研究のタグはvisualとword embedding両方に関連づいていないため,groundingが不足していたが,本研究はこれを解決
  • 技術や手法のキモはどこ?

    • OSCARが他のVLPとことなるのは入力image textペアの表現とpre training 目的関数
      • 入力は単語−タグ−画像のトリプル(w, q, v)で表現する
        • wは単語埋め込みの系列,
        • qは検出された物体タグ(text)の埋め込み系列,
        • vは画像の領域ベクトルの集合
          • vとqの生成方法:K個の物体領域がある画像を,Faster R-CNNを使って各領域のvisual semanticsを(v', z)として抽出,P次元領域特徴ベクトルv' in RPとして,P=2048が使われる.
          • また,領域位置zはR次元ベクトル(R=4 or 6).v'とzを結合してposition-sensitive region feature vectorにする.これをさらに線形写像でvにする.word embeddingと同じ次元数にするため
          • 同じFasterRCNNは高精度物体タグを検出するためにも使う.qはその物体タグの単語埋め込みの系列
      • pre-train時の目的関数は2つ.masked token lossとcontrastive loss
        • 離散token 系列をh=[w, q]として,Masked Token Loss(MTL)でpre trainする.各iterationで,hの各tokenを確率15%[MASK]トークンと置き換えてmaskする.目的はmaskされたトークンを周囲のtoken h_\iと画像特徴vから予測すること.NLLを最適化する
        • 各入力tripleにつき,h'=[q, v]を画像modalityを表すとしてグループ化.wは言語modalityとする.次にqを50%の確率でデータセット内の異なるタグ系列に置き換え,polluted画像表現をサンプルする.special token [CLS]上のencoder出力は(h', w)のvision language 表現が融合しているので,二値分類器として全結合をその上に適用して,ペアが元の画像表現を含んでいる(y=1)か,pulluted onesか(y=0)を予測する
    • datasetは公開データセット(COCOなど)を組み合わせてimage, textペアが合計6.5million
  • どうやって有効だと検証した?

    • image-text retreaval(サブタスク2個), image captioning, novel object captioning, VQA, GQA, natural language visual reasoning for Real, でそれぞれOSCARをfine-tuningし,結果をそれぞれのSoTAと比較.6/7個のタスクでSoTAを更新
  • 議論はある?

    • VQA, Image Retrieval, Image Captioningでタグ利用有無でablationを行い,タグを利用したほうが速く収束する
    • tagはfeatureとして使ったときに改善が少ない.OSCARで行っているようにanchor pointとしては有望.(tagは視覚特徴から抽出され,言語特徴と同じ意味空間を使っているため,特徴間のalignmentをするためのアンカーポイントになる,というのが本手法の鍵.Transformerのattentionでタグ,言語,視覚特徴それぞれをペアとしたablationの結果これが示されている.デフォルトではすべてのmodalityに対してfull attentionする)
    • 使用するタグの種類(語彙)は,どのデータセットでも性能改善する.
  • 次に読むべき論文は?

    • Image Captioningのsota
      • [46] Zhou, L., Palangi, H., Zhang, L., Hu, H., Corso, J.J., Gao, J.: Uni ed vision-language pre-training for image captioning and VQA. AAAI (2020)
        • VLP
      • [2]Anderson, P., He, X., Buehler, C., Teney, D., Johnson, M., Gould, S., Zhang, L.: Bottom-up and top-down attention for image captioning and visual question answering. In: CVPR (2018)
        • 物体検出を利用
    • CIDEr最適化.captioningタスクでの改善に使用
      • [30]Rennie, S.J., Marcheret, E., Mroueh, Y., Ross, J., Goel, V.: Self-critical sequence training for image captioning. In: CVPR (2017)
  • その他

  • image captioningへのfine tuning:

    • seq2seqの目的関数を使い,事前訓練と同様の方法でfine tuning
      • caption.tokenの15%をランダムにマスクして,対応する出力表現を使い,マスクされたtoken idを分類する.caption tokenはその時点より以前のtokenにしか注意できない(causal設定).すべてのキャプショントークンは画像領域とオブジェクトタグに完全に注意を払いますが、その逆ではないことに注意(?
    • 推論では,画像領域をencodeし,得られる物体タグ,special token[CLS]を入力とする
      • 生成は[MASK]tokenをfeedすることで開始し,次時刻には前の[MASK]を出力単語と入れ替えて,その後に新たな[MASK]をappendして入力する.[STOP]tokenが出たら終了する.beam size =5のbeam searchを使用し,COCO image captioning datasetでの結果を報告
    • pre train時のmask token lossによる双方向attention とは違う.OSCARをCOCOで直接fine tuneする.COCOはKarpathy split.訓練中にcaptionのトークンの15%をランダムに選んで最大3トークンをmaskする.
      • OSCAR_Bではcross-entropyで40 epoch, bach size=256, 初期学習率3e^-5,CIDEr最適化を5epoch,batch size = 64, で初期学習率1e^-6
      • OSCAR_Lモデルはfine tune 30epoch, b_size=128, lr=1e^-5, CIDEr 3 epoch with b_size =48, lr=1e^-6,1e^-7

任意クラスの分類器を生成できるzero-shot転移モデルCLIP

Learning Transferable Visual Models From Natural Language Supervision

f:id:e4exp:20210208103401p:plain

まとめ

  • どんなもの?
    • どの画像がどのキャプションとマッチしているかを予測する事前訓練を行うモデル.推論時に入力画像に対してキャプション部分のクラス名を変えることで任意クラスの分類器を作成できる.訓練データはwebベースの画像/テキスト4億ペアで,ImageNetの訓練データを使わずzero shotで教師ありResNet50と互角などの性能が出る
    • 提案手法をContrastive Language-Image Pre-training(CLIP)と呼ぶ
  • 先行研究と比べてどこがすごい?
    • 30以上のデータセットでのzeroshot transferで,従来のタスク固有の教師ありモデルと互角
  • 技術や手法のキモはどこ?
    • image encoderとtext encoderを一緒に学習させ,(image, text)ペアの正しいペアリングを予測するように学習する.テスト時にはターゲットデータセットのクラスの説明のembeddingによってtext encoderがzero shot linear classifierを合成
      • image encoderはResNet-D(Heら2019)の変種
      • text encoderはRadfordら2019の変更を加えたTransformer
        • lower cased BPEで語彙数を49152,計算効率のために最大系列長は76に制限.
    • contrastive objectiveで学習する
      • N個の(image, text)ペアがあり,CLIPはNxNの可能な(image, text)ペアのどれがバッチ内で実際に起こっているか予測するよう訓練される
      • CLIPはimage encoderとtext encoderを同時訓練してマルチモーダル埋め込み空間を学習し,バッチ内のN個のrealペアのimage text embeddingのcosine 類似度を最大化し,N2-Nの正しくないペアのembeddingに対する類似度を最小化する.これらの類似度スコアの対称cross entropy lossを最小化する.
    • 推論時に,A photo of a {label}のような文章の形でクラスラベルを入力することで,ラベル単体を入力するよりaccが1.3ポイント程改善
  • どうやって有効だと検証した?
    • 27個のデータセットで,zero shot CLIPとResNet50特徴で訓練した教師あり線形分類器の性能を比較
    • zero shot CLIPと4から16shotの公開モデル(BiT, SimCLRなど)を利用した線形分類器で比較
    • ImageNetで学習して,それとは分布が異なるデータセットに対するロバスト性の比較
    • 人間のzero shot, few shot分類能力との比較
    • WITデータセット内のデータの下流データセットと重複によりaccが増加している可能性を考え,その影響度合いの調査
    • CLIPがネットから得たデータに付随する社会的バイアスをどの程度学習しているか検証
  • 議論はある?
    • 衛星画像分類,腫瘍検出,合成物体カウント,自動運転用標識認識,距離認識,のような複雑なタスクでは性能を発揮しない
  • 次に読むべき論文は?

    • 標準化text-to-textモデル
      • McCann, B., Keskar, N. S., Xiong, C., and Socher, R. The natural language decathlon: Multitask learning as ques-tion answering. arXiv preprint arXiv:1806.08730, 2018.
      • Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., and Liu, P. J. Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683, 2019.
      • Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever,I.Languagemodelsareunsupervisedmultitasklearners. 2019.
    • テキストから画像特徴を学習する能力を示した
      • Desai, K. and Johnson, J. Virtex: Learning visual rep-resentations from textual annotations. arXiv preprint arXiv:2006.06666, 2020.
        • VirTex
      • Bulent Sariyildiz, M., Perez, J., and Larlus, D. Learning visual representations with caption annotations. arXiv e-prints, pp. arXiv–2008, 2020.
        • ICMLM
      • Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., and Lan-glotz, C. P. Contrastive learning of medical visual repre-sentations from paired images and text. arXiv preprint arXiv:2010.00747, 2020.
        • ConVIRT.本論文のCLIPはこれをシンプル化したもの
    • contrastive learning
      • Tian, Y., Krishnan, D., and Isola, P. Contrastive multiview coding. arXiv preprint arXiv:1906.05849, 2019.
        • 画像のcontrastive表現学習.predictiveより良い表現が学習できる
      • Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., and Lan-glotz, C. P. Contrastive learning of medical visual repre-sentations from paired images and text. arXiv preprint arXiv:2010.00747, 2020.
        • 医療画像分野でのcontrastive (text, image)の表現学習
    • Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever,I. Language models are unsupervised multitask learners. 2019.
      • text encoderのtransformerに対して加えた変更
    • Li,A.,Jabri,A.,Joulin,A.,andvanderMaaten,L.Learningvisual n-grams from web data. In Proceedings of the IEEE International Conference on Computer Vision, pp. 4183–4192, 2017.
      • データセットに対するzero-shot転移を最初に行った研究
  • その他

言語モデルでEOSを予測すると汎化性能悪化するらしい

The EOS Decision and Length Extrapolation

f:id:e4exp:20201221115011p:plain
Figure 1: 隠れ状態のdynamicsが+EOSと-EOSで異なる.隠れ状態の系列中での位置の違いにより色分けしている

まとめ

  • どんなもの?

    • NLPの言語生成モデルで,文の終了を示すEOSトークンを予測に含めるモデルはEOS予測を使わないモデルよりも汎化性能が下がることを3つの実験で示した.汎化性能とはtrainデータ内に存在しなかった長さの系列をtest時に生成させたときの文の内容の正解との一致具合を指す.ただし,機械翻訳タスクではEOSあり/なしではっきりした違いが得られていない.
  • 先行研究と比べてどこがすごい?

    • 直接的に同じ研究はないが,SCANデータセット(length cutoff = 22)ではLake and Baroni, 2018のNNモデルが精度20.8に対し,本研究の-EOSは60.1を報告している.なお,同じ設定でEOS予測する+EOSモデルのスコアは18.0で,40ポイント以上の差がある.
  • 技術や手法のキモはどこ?

    • Dyck-(k, m)実験,SCAN実験,機械翻訳実験,を行っている.
    • それぞれでEOS予測を行うモデル+EOS+Oracleと,EOSなしのモデル-EOS+Oracleを精度が完璧になるまで訓練し,testデータでの汎化性能を見る.
      • Oracleというのは,正解データと同じ長さになるように制御してあるという意味で使っており,(+EOSについてはEOSトークンの確率を強制的に0にすることでEOSが出ないようにして)評価指標が最大になるまでモデルにtokenを出力させ続けることで実現する.
      • これによって,文の終了予測と関係なく,文の内容だけを評価できる
    • Dyck-(k, m), SCANについては,PCAでモデルの隠れ状態のtop 2 主成分を取得して可視化し,どちらのモデルについても隠れ状態がlength manifoldと呼ぶクラスタを構成していることを示している.
      • Dyckの+EOSでは,訓練時の隠れ状態とテスト時(=系訓練時になかった系列長のみから構成される)とでクラスタの構成が変わり,訓練時のクラスタの端から逸脱する方向へ値が集まる.このようなことは-EOSでは見られない.
      • SCANの+EOSでは,EOS tokenに高い確率を置いたあと,その後モデルは(生成が)崩壊する.この後,隠れ状態はEOSのクラスタにとどまり続ける.このクラスタをlength attractorとよんでおり,-EOSではこのようなことはない.
  • どうやって有効だと検証した?

    • Dyck-(k, m)実験
      • Dyck-(k, m)はk種類の括弧が最大ネスト深さmをなすように構成された合成言語データセット.k=2,m=4, 6, 8を使用した.
      • testデータは訓練データの10倍長い系列を使用した.hold-out validationでtrainの精度が完璧になるまで訓練する.モデルは5 * mの隠れ状態を持つ1レイヤLSTM
      • 評価指標は,modelがbracketを閉じれるとき,すべての閉じ括弧の中で,どのくらいの頻度でmodelが80%以上の確率を正しい閉じ括弧に割り当てたか,というものを使う.
      • すべてのケースで-EOSが+EOSを上回った.
    • SCAN実験
      • ロボットへの命令を示した系列を入力とし,ロボットが命令に答えて動作を行うためのコマンド列を出力するタスク.(walk left twice => TURN_LEFT, WALK, TURN_LEFT, WALK のようなもの)
      • token系列の長さでtrain, testをsplitし,22ならtrainは1-22個のトークン,testは22-48個のtokenからなるデータを使うことになる.このsplitを10種類作成し,Lake and Baroni (2018)と同じLSTMを+EOSと-EOSの設定で訓練.greedy decodingでexact matchを評価
      • すべてのケースで-EOSが+EOSを上回った.
      • LSTM以外にtransformersでも同様の実験を行い,同様の結果を得ている
    • 機械翻訳実験
      • WMT2009の独->英翻訳を使用する.SCANより複雑なタスク.length=10, 15, 25で3つのsplitを作った
        • hiddenの次元が500と1000の2層LSTMでencoder, decoderを作り,+EOSと-EOSを訓練.transformersでも同じ実験を行った
      • 評価はBLEUスコア.(window size = 7)
      • 末尾の句読点は全て取り除いているが,(文内の)lengthに関する手がかりがEOSトークンの代理として動作するので,+EOSと-EOSで性能差が小さい.-EOSのほうが汎化したと言えるほどではなかった.
      • PCAの結果がtop2主成分が3%しか分散を説明していないので可視化を行っていない
  • 議論はある?

    • -EOSモデルは単体では停止箇所がわからないので使用できない.EOSトークンを使わずに停止できる方法の研究を呼びかけている.一案としてtoken位置予測に対する敵対的誤差の使用を挙げている
    • 3つのタスクのうち機械翻訳については+EOS, -EOSの差があまりなかったが,結論としては-EOSのほうが系列長が増えたとき汎化性能が高いというものになっている
  • 次に読むべき論文は?

    • Lake and Baroni (2018)
      • Brenden Lake and Marco Baroni. 2018. Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. In In-ternational Conference on Machine Learning, pages 2873–2882.
      • SCANタスクを提案した研究と思われる.NNで20.8%を達成.
    • Maxwell Nye, A. Solar-Lezama, J. Tenenbaum, and B. Lake. 2020. Learning compositional rules via neural program synthesis. ArXiv, abs/2003.05562.
      • SCANでacc 100%を達成したSCAN文法の探索モデル
    • OpenNMT(Klein et al., 2017)
      • WMT2009のタスクではこれを使用してmodelを訓練した
    • sacreBLEU(Post, 2018)
      • BLEUの計算に使用したパッケージ
  • その他,所感

    • +EOSが悪化するのは,testで,trainの系列長を超えた場合にということなので,納得感はある.
    • 翻訳タスクでははっきりした違いが出ていないので,実用上EOS予測してもそれほど問題ないのではと思っている.

UI画像からコード生成,pix2code

pix2code: Generating Code from a Graphical User Interface Screenshot

f:id:e4exp:20201217202444p:plain
Figure. 1 モデル構造

まとめ

  • どんなもの?

    • end2endに1枚の入力画像からコード(ドメイン固有言語,DSL)を生成するdeep手法.3つのプラットフォーム(iOS, Android, web-based )で77%以上のaccuracyで生成できる
    • 2022/01/26追記: pix2codeはpix2pixとは異なりGANではない.通常,GANは生成器と識別器から構成されるが,pix2codeには識別器に相当するものがないので,GANとは呼べない*1
  • 先行研究と比べてどこがすごい?

  • 技術や手法のキモはどこ?

    • encoder-decoder構造を使用する
      • GUI画像はCNNでencode,context(one-hotエンコードされたトークン.DSLに対応する)はstacked LSTMレイヤでencode
      • 両方の特徴ベクトルを結合し,2個目のstacked LSTM decoderに入れる
      • 1時刻に1トークンをサンプルするためにsoftmaxを使う.出力サイズはDSLの語彙数と等しい.
      • sampling時は,最後に推定されたtokenがcontextに含まれるように更新する
      • 得られたDSLはルールベースでターゲット言語にコンパイルする
    • DSLはone-hotエンコーディングを用いる.embeddingは使用していないが,これは語彙数が非常に少ないから可能になる(20個程度)
      • 入力するトークン系列(context)のwindow sizeは48.従って訓練中は48ステップごとにネットワークがunrollされる
    • データセットiOS, Android, web basedの3種類を公開.それぞれ1500/250件のtrain/testデータで,GUI画像と,それと対応するDSLの組になっている
  • どうやって有効だと検証した?

    • 生成出力の評価に,各sampleされたDSLごとに分類誤差(classification error)を計算し,テストデータセット全体で平均した.生成・正解トークン系列の長さの違いもerrorとしてカウントした
  • 議論はある?

    • one-hotは語彙数が大きくなるとスケールしない
    • GAN,attention, word embedding, 事前訓練,webクローリングによる大量データの使用,など改善策が沢山ある
  • 次に読むべき論文は?

  • その他

*1:さらにいうとpix2pixはGANの中でも特殊です.目的関数がいわゆるGAN loss だけではなく,出力画像(変換後の画像)と正解画像とのL1誤差を取っているので教師ありの要素があります.通常のGANは教師データを利用しないので教師なし学習であり,pix2codeは生成コードと正解コードとのCross-Entropyのみで学習するので完全に教師あり学習です.

教師なしプログラミング言語翻訳 TransCoder

Unsupervised Translation of Programming Languages

まとめ

  • どんなもの?

  • 先行研究と比べてどこがすごい?

    • 本研究は教師なしでペアデータ不要.BLEUスコア等に代わってcomputational accuracyを導入し,計算結果が一致したものを正解とみなしている.これにより正しいプログラムなのに評価が低かったり,その逆が発生せずに評価できている.また,ルールベースの商用システムを上回る性能を示している(C++ to Javaで 61% -> 74.8%に改善など)
  • 技術や手法のキモはどこ?

    • モデル構造はseq2seqで,encoder, decoderにtransformer構造を採用,すべての言語(C++, Java, Python)にわたって同じモデルを1つだけ使う
      • Lampleら[32]の教師なし機械翻訳の3つの原理(初期化,言語モデリング,逆翻訳)を使用して訓練
        1. 言語間にわたって,似た意味のsequenceが同じ潜在空間にマップされるように事前訓練する.Lample and Conneau[29]のmaskされた言語モデル目的関数の事前訓練[14]を採用(一部をマスクした系列を入力して,次のtokenを予測).プログラミング言語には,言語間をまたがって存在する共通トークン(アンカーポイントが大量にあるので,modelがcross-lingualな性質を持つようになる).異なる言語batchの系列を交互に入力する.
        2. seq2seqのencoderは1の事前訓練したモデルで初期化する.decoderはランダム初期化.decoderを訓練するため,Denoising Auto Encoding objectiveで訓練.入力文を[30]のrandom mask, remove, shuffleで破壊し,復元するようにdecodeさせる.encoderの出力がnoisyだったとしても妥当な関数を生成するように訓練される.encoderも入力のnoiseに強くなる(3のback-translationで有用になる)
        3. test時に何をすべきか教えるために逆翻訳を使用.source-to-targetモデルとtarget-to-sourceモデルを対で用意して同時に訓練する.target-to-sourceはtarget系列をsourceに戻すが,noisyなsourceが生成される.source-to-targetは弱教師ありでそのnoisy sourceからtarget文を復元する.これを互いに収束まで繰り返して同時に訓練.
    • 事前訓練では512トークンからなるソースコードの32系列のbatch,訓練では6000トークンのbatchでdenoising AEとback-translationで交互に訓練.adamと[45]の学習率スケジューラ,GPUはV100が32個.小数点精度をfloat16にしてモデルサイズを下げ,速度を上げる
    • tokenizerは言語ごとに別々.コメントはソースコードに残したほうが性能が良い
  • どうやって有効だと検証した?

    • reference match
      • 正解と完全に一致した翻訳の割合
    • BLEUスコア
    • computational accuracy
      • 本論文が提案した評価指標.hypothesis functionが同じ入力を与えて正解と同じ結果を出力するか評価する.すべての入力に対して正解と同じ結果を返せばhypothesisは正しいと判断する.
      • computational accuracyでは2つの結果の組を使う.Beam Nはビーム中に最低1つ正しい関数があった割合,Beam N - Top1はビーム中の最も高いlog-probabilityが正しい翻訳だった割合
  • 議論はある?

    • C++ to Javaでは3.1%しか正解と完全一致しなかったが,60.9%が期待される出力を返した.さらに,BLEUによる評価は比較的平坦であり,computational accuracyとの相関がなかった.これはreference matchとbleuによる評価の問題を示している
      • といっているが,表1を見ると,bleuスコアは割とcomputational accuracyと整合性があるように見える
    • greedy decodingと比較して,beam searchはcomputational accuracyを大きく増加させる.Java->Pythonでbeam25の場合33.7%増加.log-probabilityが最も高いhypothesisを返すようにした場合,性能は落ちる.
  • 次に読むべき論文は?

    • [32]
      • Guillaume Lample, Myle Ott, Alexis Conneau, Ludovic Denoyer, and Marc’Aurelio Ranzato. Phrase-based & neural unsupervised machine translation. In EMNLP, 2018.
        • 3つの訓練手法
    • [29]
      • Guillaume Lample and Alexis Conneau. Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291, 2019.
        • 事前学習
    • [31]
      • Guillaume Lample, Alexis Conneau, Marc’Aurelio Ranzato, Ludovic Denoyer, and Hervé Jégou. Word translation without parallel data. In ICLR, 2018.
        • cross lingual word embedding
    • [6]
      • Mikel Artetxe, Gorka Labaka, and Eneko Agirre. Learning bilingual word embeddings with (almost) no bilingual data. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pages 451–462, 2017.
        • cross lingual word embedding
    • [28]
      • Taku Kudo and John Richardson. Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. arXiv preprint arXiv:1808.06226, 2018.
        • 共通のtokenizer
    • [42]
      • Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural machine translation of rare words with subword units. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pages 1715–1725, 2015.
        • BPE codesの学習
  • その他

胸部X線データセットのドメインシフト検証,Can we trust deep learning based diagnosis? The impact of domain shift in chest radiograph classification

Can we trust deep learning based diagnosis? The impact of domain shift in chest radiograph classification

f:id:e4exp:20201005124901p:plain

まとめ

  • どんなもの?
    • 医用画像は撮像した機器などによってデータの分布が異なるため,モデルが実際に使用される際にdomain shiftを引き起こす可能性がある.4つの胸部x線データセットについて,1つで学習したモデルを他の3つでテストする実験を行い,モデルの性能へのデータセットの影響を検証し,実世界のシナリオではモデルの性能が落ちることが予想されるとしている
  • 先行研究と比べてどこがすごい?
    • 同様の研究はない
  • 技術や手法のキモはどこ?
    • DenseNet121ベースのCheXNet[8]を再現したモデルを使用したマルチラベル分類.ImageNetで事前訓練
    • ChestX-ray 14のみがoriginal splitがあり,CheXpert, MIMIC-CXRは公開されておらず,PadChestには存在しない.これらにはデータをランダムに再サンプルしてChestX-ray14の分割と同じ比率で分割
    • ラベルがデータセットごとに異なるので,すべてのラベルで訓練し,4データセット間で共通ラベルのみ報告
  • どうやって有効だと検証した?
  • 議論はある?
    • CheXpertとMIMIC-CXRはピクセル輝度の分布が近いが,それ以外のデータセットは異なる
    • CheXpertとMIMIC-CXRは変動が少ない.PadChestとChestX-ray14は自身のtest setが最もよく,他のデータセットでは落ちる
    • ChestX-ray14のlabelerはその信頼性に疑問があり,[17]はラベルが画像の内容を適切に表していないとしている
    • CheXpertとMIMIC-CXRは他2つのテストセットに対しても上手くいっている.逆は成り立たない
    • ドメインシフトの影響を事前に減らすためのvalidation方法として,小さいデータセットを,モデルを利用する予定の特定のマシンから作成して,大規模データセットで事前訓練してからその小さいデータでfine-tuneすることを提案している
  • 次に読むべき論文は?
    • [18]
      • Rajpurkar, P., Irvin, J., Zhu, K., Yang, B., Mehta, H., Duan, T., Ding, D., Bagul, A., Langlotz, C., Shpanskaya, K., et al.: Chexnet: Radiologist-level pneumonia de-tection on chest x-rays with deep learning. arXiv preprint arXiv:1711.05225 (2017)
        • Chexnet.本論文で実験に使用したモデル
    • [17]
      • Oakden-Rayner, L.: Exploring large scale public medical image datasets. Tech. rep., The University of Adelaide (2019), https://arxiv.org/pdf/1907.12720.pdf
        • ChestX-ray14のラベルが画像の内容を表していないとしている報告
  • その他