胸部X線データセットのドメインシフト検証,Can we trust deep learning based diagnosis? The impact of domain shift in chest radiograph classification

Can we trust deep learning based diagnosis? The impact of domain shift in chest radiograph classification

f:id:e4exp:20201005124901p:plain

まとめ

  • どんなもの?
    • 医用画像は撮像した機器などによってデータの分布が異なるため,モデルが実際に使用される際にdomain shiftを引き起こす可能性がある.4つの胸部x線データセットについて,1つで学習したモデルを他の3つでテストする実験を行い,モデルの性能へのデータセットの影響を検証し,実世界のシナリオではモデルの性能が落ちることが予想されるとしている
  • 先行研究と比べてどこがすごい?
    • 同様の研究はない
  • 技術や手法のキモはどこ?
    • DenseNet121ベースのCheXNet[8]を再現したモデルを使用したマルチラベル分類.ImageNetで事前訓練
    • ChestX-ray 14のみがoriginal splitがあり,CheXpert, MIMIC-CXRは公開されておらず,PadChestには存在しない.これらにはデータをランダムに再サンプルしてChestX-ray14の分割と同じ比率で分割
    • ラベルがデータセットごとに異なるので,すべてのラベルで訓練し,4データセット間で共通ラベルのみ報告
  • どうやって有効だと検証した?
  • 議論はある?
    • CheXpertとMIMIC-CXRはピクセル輝度の分布が近いが,それ以外のデータセットは異なる
    • CheXpertとMIMIC-CXRは変動が少ない.PadChestとChestX-ray14は自身のtest setが最もよく,他のデータセットでは落ちる
    • ChestX-ray14のlabelerはその信頼性に疑問があり,[17]はラベルが画像の内容を適切に表していないとしている
    • CheXpertとMIMIC-CXRは他2つのテストセットに対しても上手くいっている.逆は成り立たない
    • ドメインシフトの影響を事前に減らすためのvalidation方法として,小さいデータセットを,モデルを利用する予定の特定のマシンから作成して,大規模データセットで事前訓練してからその小さいデータでfine-tuneすることを提案している
  • 次に読むべき論文は?
    • [18]
      • Rajpurkar, P., Irvin, J., Zhu, K., Yang, B., Mehta, H., Duan, T., Ding, D., Bagul, A., Langlotz, C., Shpanskaya, K., et al.: Chexnet: Radiologist-level pneumonia de-tection on chest x-rays with deep learning. arXiv preprint arXiv:1711.05225 (2017)
        • Chexnet.本論文で実験に使用したモデル
    • [17]
      • Oakden-Rayner, L.: Exploring large scale public medical image datasets. Tech. rep., The University of Adelaide (2019), https://arxiv.org/pdf/1907.12720.pdf
        • ChestX-ray14のラベルが画像の内容を表していないとしている報告
  • その他