Transformer

SGPT: 意味検索のためのGPTによる文章埋め込み

SGPT: GPT Sentence Embeddings for Semantic Search 2022/02 https://arxiv.org/abs/2202.08904 モデル・コード https://github.com/Muennighoff/sgpt 提案手法の構造図.左(a)がSGPTクロスエンコーダ,右(b)がSGPTバイエンコーダ. BEIRでのre-ranking 性…

data2vec: 画像,音声,言語を同じ手法で事前学習できる一般的フレームワーク

Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 2022/01 https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language 音声、自然言語処理、…

競技プログラミングのコード生成で上位54%以内を達成,AlphaCode

Competition-Level Code Generation with AlphaCode 2022/02 https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf 自然言語からコード生成するシステムAlphaCodeを提案 モデルは巨大な(最大41B)…

モバイルUI要素に説明を付与する widget captioning

Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements https://arxiv.org/abs/2010.04295 EMNLP 2020 android App UIの要素に説明を付与するタスク, widget captioningを提案 スクリーンリーダー等のアクセシビ…

Attentionのみのモデルで翻訳タスク大幅改善, Transformer

Attention Is All You Need https://arxiv.org/abs/1706.03762 2017/06, NeurIPS 2017 RNNもCNNも使用せずattentionによりWMT2014英->独 翻訳で28.4BLEU達成.前のsotaから2ポイント改善 RNNは自己回帰のため1サンプル内での並列化は不可能(かつ系列長が異な…

長文に強い相対位置埋め込みを持つモデル RoFormer

RoFormer: Enhanced Transformer with Rotary Position Embedding https://arxiv.org/abs/2104.09864 2021/04 相対位置埋め込みを回転行列で表現したtransformer.各tokenに対する積として実行し,意味上は各tokenベクトルを回転させる効果になる トークン間…

クロスモーダル事前学習不要のVQAモデル, Multimodal Bitransformer

Supervised Multimodal Bitransformers for Classifying Images and Text https://arxiv.org/abs/1909.02950 2019 Architecture VQAにおいて,個別に事前学習済みの画像encoder, text encoderを組み合わせてBERTベースモデルでSAすることで,VilBERTのような…

vision分野で多様な下流タスクに適用できる基礎モデルFlorence

Florence: A New Foundation Model for Computer Vision 2021/11/22 https://arxiv.org/abs/2111.11432 Fig.2 Overview of building Florence 画像ドメインで多様な下流タスク(分類、検索、オブジェクト検出、VQA、画像キャプション、ビデオ検索、アクション…

物体検出結果のタグを利用して視覚-言語6タスクでSoTA更新,OSCAR

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks paper https://arxiv.org/abs/2004.06165 github https://github.com/microsoft/Oscar データセット COCO etc. project まとめ どんなもの? 言語embedding,画像の物体検出特徴に…

UIデザインの自動補完,Auto Completion of User Interface Layout Design Using Transformer-Based Tree Decoders

Auto Completion of User Interface Layout Design Using Transformer-Based Tree Decoders paper https://arxiv.org/abs/2001.05308 Yang Li, Julien Amelot, Xin Zhou, Samy Bengio, Si Si ICLR 2020 reject github project まとめ どんなもの? UIデザイ…