Can we trust deep learning based diagnosis? The impact of domain shift in chest radiograph classification

paper
- https://arxiv.org/abs/1909.01940
- Eduardo H. P. Pooch, Pedro L. Ballester, Rodrigo C. Barros
github
データセット
- ChestX-ray14, CheXpert, MIMIC-CXR, PadChest
project

f:id:e4exp:20201005124901p:plain

まとめ

どんなもの？
- 医用画像は撮像した機器などによってデータの分布が異なるため，モデルが実際に使用される際にdomain shiftを引き起こす可能性がある．4つの胸部x線データセットについて，１つで学習したモデルを他の３つでテストする実験を行い，モデルの性能へのデータセットの影響を検証し，実世界のシナリオではモデルの性能が落ちることが予想されるとしている
先行研究と比べてどこがすごい？
- 同様の研究はない
技術や手法のキモはどこ？
- DenseNet121ベースのCheXNet[8]を再現したモデルを使用したマルチラベル分類．ImageNetで事前訓練
- ChestX-ray 14のみがoriginal splitがあり，CheXpert, MIMIC-CXRは公開されておらず，PadChestには存在しない．これらにはデータをランダムに再サンプルしてChestX-ray14の分割と同じ比率で分割
- ラベルがデータセットごとに異なるので，すべてのラベルで訓練し，4データセット間で共通ラベルのみ報告
どうやって有効だと検証した？
- 各データセットのピクセル輝度のヒストグラムを比較して分布が異なることを示した
- AUCによりマルチラベル分類の性能を評価し，その結果によってdomain shiftを評価
議論はある？
- CheXpertとMIMIC-CXRはピクセル輝度の分布が近いが，それ以外のデータセットは異なる
- CheXpertとMIMIC-CXRは変動が少ない．PadChestとChestX-ray14は自身のtest setが最もよく，他のデータセットでは落ちる
- ChestX-ray14のlabelerはその信頼性に疑問があり，[17]はラベルが画像の内容を適切に表していないとしている
- CheXpertとMIMIC-CXRは他２つのテストセットに対しても上手くいっている．逆は成り立たない
- ドメインシフトの影響を事前に減らすためのvalidation方法として，小さいデータセットを，モデルを利用する予定の特定のマシンから作成して，大規模データセットで事前訓練してからその小さいデータでfine-tuneすることを提案している
次に読むべき論文は？
- [18]
  - Rajpurkar, P., Irvin, J., Zhu, K., Yang, B., Mehta, H., Duan, T., Ding, D., Bagul, A., Langlotz, C., Shpanskaya, K., et al.: Chexnet: Radiologist-level pneumonia de-tection on chest x-rays with deep learning. arXiv preprint arXiv:1711.05225 (2017)
    - Chexnet．本論文で実験に使用したモデル
- [17]
  - Oakden-Rayner, L.: Exploring large scale public medical image datasets. Tech. rep., The University of Adelaide (2019), https://arxiv.org/pdf/1907.12720.pdf
    - ChestX-ray14のラベルが画像の内容を表していないとしている報告
その他