モバイルUI要素に説明を付与する widget captioning
Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements
- https://arxiv.org/abs/2010.04295
- EMNLP 2020
- android App UIの要素に説明を付与するタスク, widget captioningを提案
- CNN+transformerでimageとview hierarchyを入力してキャプション生成するtransformerベースのモデルを提案
- ablationで提案手法の有効性を示している.指標はevalcococapのBLUE1,2, R, C, M, SでBLEU2=32.2など.人間による評価も行いfull modelに対する支持率は78.64%
- dataはRICOベースのandroid UIデータを人間がキャプション付与(6,470のアプリの21,750画面にわたる61,285のUI要素に対して、162,859のキャプション)
- caption長さは平均2.72で非常に短い.述語+目的語の形式が多い