pix2codeをattentionやON-LSTMで拡張,A novel syntax-aware automatic graphics code generation with attention-based deep neural

A novel syntax-aware automatic graphics code generation with attention-based deep neural network

f:id:e4exp:20200908151402p:plain

まとめ

  • どんなもの?
    • GUI画像からDSLを生成するタスクで,先行研究(pix2code)の改善モデルを2種類提案.1つは画像encoderとDSL encoderにそれぞれattentionを追加したHGui2Code, もう一つはsyntax情報を考慮して文法に則った生成が可能なON-LSTMをDSL encoderとdecoderに使用したSGui2Code.
    • webドメインで,HGui2Codeが5.5%,SGui2Codeが1.5%高いaccuracyを達成
  • 先行研究と比べてどこがすごい?
  • 技術や手法のキモはどこ?
    • HGui2Code
      • 画像に対してのvisual attentionと,DSLに対してのattentionを独立に計算し,concatで結合してdecoder LSTMへの入力にしている
    • SGui2Code
      • ON-LSTMをDSLのencoder LSTMに使用し,image featureと合わせた特長を受け取るdecoderもON-LSTMにしている.こちらはattentionは使用しない.
  • どうやって有効だと検証した?
    • ABHD, pix2codeとの性能比較.visual attentionのみを使用したAGui2Codeというベースラインモデルも比較している
    • データセットはpix2codeが公開しているDSL(web, android, iOS)
  • 議論はある?
    • webだけが改善して,他の2つのデータでは改善しない理由として,他2つのデータは似たものが多いため,DSLと画像の関係を捉えられていないとしている
    • visual attentionだけを使用したAGui2Codeのほうが,DSLにもattentionするHGui2Codeよりも結果がよい.これはDSLのattentionとVisual attentionが独立に計算されるため,それらのattention間のalingmentができていないためとしている(attention on attentionが使えるのでは,と思った)
    • ON-LSTMはneuronに保存される情報のライフサイクルをコントロールできるので,通常のLSTMより長期の依存関係に強いとしている
    • (attentionとON-LSTMを併用しないのはなぜ?)
  • 次に読むべき論文は?

    • Neelakantan, A., Le, Q.V., Sutskever, I., 2015. Neural Programmer: Inducing Latent Programs with Gradient descent[J] arXiv preprint. 1511.04834.
      • プログラム生成の先行研究.組み合わせプログラム
    • Balog, M., Gaunt, A.L., Brockschmidt, M., et al., 2016. Deepcoder: Learning to Write programs[J] arXiv preprint. 1611.01989.
      • プログラム生成の先行研究.input-outputcompetition-style programmingの解法
    • Shen, Y., Tan, S., Sordoni, A., et al., 2018. Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks[J] arXiv preprint. 1810.09536.
      • 文法規則に則ったcode生成が可能なLSTM.SGui2Codeが使用している
    • Kant, N., 2018. Recent Advances in Neural Program Synthesis[J] arXiv preprint. 1802.02353.
      • プログラム生成手法のレビュー論文.
    • Deng, Y., Kanervisto, A., Rush, A.M., 2016. What You Get Is what You See: A Visual Markup decompiler[J], vol. 10, pp. 32–37 arXiv preprint. 1609.04938.
    • Ellis, K., Ritchie, D., Solar-Lezama, A., et al., 2018. Learning to infer graphics programs from hand-drawn images[C]. In: Advances in Neural Information Processing Systems, pp. 6060–6069.
      • 手書き文字をtexサブセットのgraphical programモデルに変換する.gui code generationの先行研究
    • Zhu, Z., Xue, Z., Yuan, Z., 2018. Automatic Graphics Program Generation Using Attention-Based Hierarchical Decoder[J] arXiv preprint. 1810.11536.
      • 画像の特徴を,block levelとtoken levelの2レベルでdecodeする.gui code generationの先行研究
    • Liu, X., Kong, X., Liu, L., et al., 2018. TreeGAN: syntax-aware sequence generation with generative adversarial networks[C]. In: 2018 IEEE International Conference on Data Mining (ICDM). IEEE, pp. 1140–1145.
      • sequence 生成にcontext free grammerを組み込んだGAN.SQLクエリを自動生成.
    • Shen, Y., Tan, S., Sordoni, A., et al., 2018. Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks[J] arXiv preprint. 1810.09536.
      • ON-LSTM.階層構造をモデリングするためにneuronに順序をもたせた
  • その他 *