ImageCaptioning

モバイルUI要素に説明を付与する widget captioning

Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements https://arxiv.org/abs/2010.04295 EMNLP 2020 android App UIの要素に説明を付与するタスク, widget captioningを提案 スクリーンリーダー等のアクセシビ…

物体検出結果のタグを利用して視覚-言語6タスクでSoTA更新,OSCAR

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks paper https://arxiv.org/abs/2004.06165 github https://github.com/microsoft/Oscar データセット COCO etc. project まとめ どんなもの? 言語embedding,画像の物体検出特徴に…

UI画像からコード生成,pix2code

pix2code: Generating Code from a Graphical User Interface Screenshot paper https://arxiv.org/abs/1705.07962 Tony Beltramelli github https://github.com/tonybeltramelli/pix2code データセット githubで公開 project https://uizard.io/research/#p…

2次以上の特長の相互作用が可能なattention, X-Linear Attention Networks for Image Captioning

X-Linear Attention Networks for Image Captioning paper https://arxiv.org/abs/2003.14080 Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei github https://github.com/JDAI-CV/image-captioning データセット COCO project まとめ どんなもの? image cap…