論文読み

SGPT: 意味検索のためのGPTによる文章埋め込み

SGPT: GPT Sentence Embeddings for Semantic Search 2022/02 https://arxiv.org/abs/2202.08904 モデル・コード https://github.com/Muennighoff/sgpt 提案手法の構造図.左(a)がSGPTクロスエンコーダ,右(b)がSGPTバイエンコーダ. BEIRでのre-ranking 性…

WebGPT: web検索を操作して引用付きで質問に回答

WebGPT: Browser-assisted question-answering with human feedback 2021/12 https://arxiv.org/abs/2112.09332 人間用web検索環境(左)とモデル用(右) ELI5で,人間のデモに対してWebGPTが好まれた割合(左)とELI5の正解データに対してWebGPTが好まれた割合(…

data2vec: 画像,音声,言語を同じ手法で事前学習できる一般的フレームワーク

Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 2022/01 https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language 音声、自然言語処理、…

競技プログラミングのコード生成で上位54%以内を達成,AlphaCode

Competition-Level Code Generation with AlphaCode 2022/02 https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf 自然言語からコード生成するシステムAlphaCodeを提案 モデルは巨大な(最大41B)…

単語埋め込みによる分散表現の学習を提案した論文を読んだ

言語処理関係の深層学習モデルでは,単語埋め込みを言語モデルと同時に学習する手法をよく使用するが,それを最初に提案した論文だと思う. wikipediaで単語埋め込みの項を見ていて,今日的な形の手法で最初のはこれのようだった.違っていたらご指摘くださ…

畳み込みベースの翻訳モデル ConvS2S

Convolutional sequence to sequence learning https://arxiv.org/abs/1705.03122 2017 ICML 畳み込みとattnを使って翻訳モデルを提案 RNNを使わないenc-decで,入力系列を畳み込みでencode,decoderは過去の正解系列の畳み込みとencodeされた文脈の内積attn…

モバイルUI要素に説明を付与する widget captioning

Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements https://arxiv.org/abs/2010.04295 EMNLP 2020 android App UIの要素に説明を付与するタスク, widget captioningを提案 スクリーンリーダー等のアクセシビ…

Attentionのみのモデルで翻訳タスク大幅改善, Transformer

Attention Is All You Need https://arxiv.org/abs/1706.03762 2017/06, NeurIPS 2017 RNNもCNNも使用せずattentionによりWMT2014英->独 翻訳で28.4BLEU達成.前のsotaから2ポイント改善 RNNは自己回帰のため1サンプル内での並列化は不可能(かつ系列長が異な…

長文に強い相対位置埋め込みを持つモデル RoFormer

RoFormer: Enhanced Transformer with Rotary Position Embedding https://arxiv.org/abs/2104.09864 2021/04 相対位置埋め込みを回転行列で表現したtransformer.各tokenに対する積として実行し,意味上は各tokenベクトルを回転させる効果になる トークン間…

言語モデルでEOSを予測すると汎化性能悪化するらしい

The EOS Decision and Length Extrapolation paper https://arxiv.org/abs/2010.07174 Benjamin Newman, John Hewitt, Percy Liang, Christopher D. Manning github https://github.com/bnewm0609/eos-decision データセット Dyck-(k, m), SCAN, WMT2009 pro…

UI画像からコード生成,pix2code

pix2code: Generating Code from a Graphical User Interface Screenshot paper https://arxiv.org/abs/1705.07962 Tony Beltramelli github https://github.com/tonybeltramelli/pix2code データセット githubで公開 project https://uizard.io/research/#p…

教師なしプログラミング言語翻訳 TransCoder

Unsupervised Translation of Programming Languages paper https://arxiv.org/abs/2006.03511 Marie-Anne Lachaux, Baptiste Roziere, Lowik Chanussot, Guillaume Lample github https://github.com/facebookresearch/TransCoder データセット Google BigQ…

胸部X線データセットのドメインシフト検証,Can we trust deep learning based diagnosis? The impact of domain shift in chest radiograph classification

Can we trust deep learning based diagnosis? The impact of domain shift in chest radiograph classification paper https://arxiv.org/abs/1909.01940 Eduardo H. P. Pooch, Pedro L. Ballester, Rodrigo C. Barros github データセット ChestX-ray14, C…

プログラミング言語間の翻訳,Tree-to-tree Neural Networks for Program Translation

Tree-to-tree Neural Networks for Program Translation paper https://arxiv.org/abs/1802.03691 Xinyun Chen, Chang Liu, Dawn Song NeulIPS 2018 github データセット project まとめ どんなもの? プログラミング言語間の翻訳にdeepを使用した初の研究.…

階層構造のためのLSTM,Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks paper https://arxiv.org/abs/1810.09536 Yikang Shen, Shawn Tan, Alessandro Sordoni, Aaron Courville github https://github.com/yikangshen/Ordered-Neurons データセッ…

2次以上の特長の相互作用が可能なattention, X-Linear Attention Networks for Image Captioning

X-Linear Attention Networks for Image Captioning paper https://arxiv.org/abs/2003.14080 Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei github https://github.com/JDAI-CV/image-captioning データセット COCO project まとめ どんなもの? image cap…

図を記述するプログラム生成,Learning to Infer Graphics Programs from Hand-Drawn Images

Learning to Infer Graphics Programs from Hand-Drawn Images paper http://papers.nips.cc/paper/7845-learning-to-infer-graphics-programs-from-hand-drawn-images https://arxiv.org/abs/1707.09627 (長い版) github https://github.com/ellisk42/TikZ …

GUIコード生成のレビュー論文,Front End Development Automation Tool: Missing Features?

Front End Development Automation Tool: Missing Features? paper https://ieeexplore.ieee.org/document/9033956 Hasitha Hiran Walpola, Guhanathan Poravi github データセット project まとめ どんなもの? GUI画像からコード生成するモデルのサーベイ…

スケッチからスタイルを考慮したDSL生成,CSSSketch2Code: An Automatic Method to Generate Web Pages with CSS Style

CSSSketch2Code: An Automatic Method to Generate Web Pages with CSS Style paper https://dl.acm.org/doi/abs/10.1145/3292448.3292455 github データセット project まとめ どんなもの? webページのスケッチ(スクショではない)からDSLを生成するencoder…

ルールとdeepの融合でデザインファイルからコード生成,Visual Compiler: Towards Translating Digital UI Design Draft to Front-End Code Automatically

Visual Compiler: Towards Translating Digital UI Design Draft to Front-End Code Automatically paper https://link.springer.com/chapter/10.1007/978-3-030-50017-7_28 github データセット project まとめ どんなもの? PhotoshopやXDなどのデジタルデ…

pix2codeをattentionやON-LSTMで拡張,A novel syntax-aware automatic graphics code generation with attention-based deep neural

A novel syntax-aware automatic graphics code generation with attention-based deep neural network paper https://www.sciencedirect.com/science/article/pii/S1084804520301107 github project まとめ どんなもの? GUI画像からDSLを生成するタスクで…

UIデザインの自動補完,Auto Completion of User Interface Layout Design Using Transformer-Based Tree Decoders

Auto Completion of User Interface Layout Design Using Transformer-Based Tree Decoders paper https://arxiv.org/abs/2001.05308 Yang Li, Julien Amelot, Xin Zhou, Samy Bengio, Si Si ICLR 2020 reject github project まとめ どんなもの? UIデザイ…

MS-SSIMについて調べた

生成画像の評価指標に使われるMulti-Scale Structural Similarity (MS-SSIM)の論文を読んだのでまとめる. Wang et al., "MULTI-SCALE STRUCTURAL SIMILARITY FOR IMAGE QUALITY ASSESSMENT", 2003 https://ece.uwaterloo.ca/~z70wang/publications/msssim.p…

2D画像から3Dモデルを生成するTL-embedding networkの論文メモ

Learning a Predictable and Generative Vector Representation for Objects Rohit Girdhar, David F. Fouhey, Mikel Rodriguez, Abhinav Gupta https://arxiv.org/abs/1603.08637 v2 ECCV2016 コード https://github.com/rohitgirdhar/GenerativePredictabl…

任意クラスの3D形状を生成する3D conditional GANの論文メモ

3D Model Generation and Reconstruction Using Conditional Generative Adversarial Network Haisheng Li, Yanping Zheng, Xiaoqun Wu, Qiang Cai https://download.atlantis-press.com/journals/ijcis/125911591/view コード 見当たらない モデルアーキテ…