Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements

https://arxiv.org/abs/2010.04295
EMNLP 2020

f:id:e4exp:20220101211208p:plain f:id:e4exp:20220101211236p:plain

android App UIの要素に説明を付与するタスク, widget captioningを提案
- スクリーンリーダー等のアクセシビリティ機能はwidget captionに依存しているが，開発者が手動で付与するのは負担になる
- 特に画像ベースの要素の半数以上がキャプションがないというデータも
CNN+transformerでimageとview hierarchyを入力してキャプション生成するtransformerベースのモデルを提案
- ビュー階層の各要素から既存の説明文, 要素タイプ, クリック可能性, の埋め込みを抽出．さらにbboxの座標値，前順・後順のトラバーサル時のシーケンス位置，深さ，をカテゴリ値として埋め込みを抽出，すべて連結してtransformer encoderに入力(要素の数=系列長)
- 要素の画像をresnetで特徴抽出し，ビュー階層encoded特徴と結合して射影し，transformer decoderに入力．こちらは要素数だけ個別に同じインスタンスでdecodeする(decoderのインスタンス数=要素数)
ablationで提案手法の有効性を示している．指標はevalcococapのBLUE1,2, R, C, M, SでBLEU2=32.2など．人間による評価も行いfull modelに対する支持率は78.64%
dataはRICOベースのandroid UIデータを人間がキャプション付与(6,470のアプリの21,750画面にわたる61,285のUI要素に対して、162,859のキャプション)
- caption長さは平均2.72で非常に短い．述語+目的語の形式が多い

学んだことメモ

モバイルUI要素に説明を付与する widget captioning

Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements