モバイルUI要素に説明を付与する widget captioning

Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements

f:id:e4exp:20220101211208p:plain f:id:e4exp:20220101211236p:plain

  • android App UIの要素に説明を付与するタスク, widget captioningを提案
    • スクリーンリーダー等のアクセシビリティ機能はwidget captionに依存しているが,開発者が手動で付与するのは負担になる
    • 特に画像ベースの要素の半数以上がキャプションがないというデータも
  • CNN+transformerでimageとview hierarchyを入力してキャプション生成するtransformerベースのモデルを提案
    • ビュー階層の各要素から既存の説明文, 要素タイプ, クリック可能性, の埋め込みを抽出.さらにbboxの座標値,前順・後順のトラバーサル時のシーケンス位置,深さ,をカテゴリ値として埋め込みを抽出,すべて連結してtransformer encoderに入力(要素の数=系列長)
    • 要素の画像をresnetで特徴抽出し,ビュー階層encoded特徴と結合して射影し,transformer decoderに入力.こちらは要素数だけ個別に同じインスタンスでdecodeする(decoderのインスタンス数=要素数)
  • ablationで提案手法の有効性を示している.指標はevalcococapのBLUE1,2, R, C, M, SでBLEU2=32.2など.人間による評価も行いfull modelに対する支持率は78.64%
  • dataはRICOベースのandroid UIデータを人間がキャプション付与(6,470のアプリの21,750画面にわたる61,285のUI要素に対して、162,859のキャプション)
    • caption長さは平均2.72で非常に短い.述語+目的語の形式が多い