SGPT: 意味検索のためのGPTによる文章埋め込み

SGPT: GPT Sentence Embeddings for Semantic Search 2022/02 https://arxiv.org/abs/2202.08904 モデル・コード https://github.com/Muennighoff/sgpt 提案手法の構造図．左(a)がSGPTクロスエンコーダ，右(b)がSGPTバイエンコーダ． BEIRでのre-ranking 性…

2022-02-04

data2vec: 画像，音声，言語を同じ手法で事前学習できる一般的フレームワーク

DeepLearning Pre-Training Self-Supervised Transformer 論文読み

Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 2022/01 https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language 音声、自然言語処理、…

2022-02-04

競技プログラミングのコード生成で上位54%以内を達成，AlphaCode

DeepLearning NLP Programming Transformer コード生成論文読み

Competition-Level Code Generation with AlphaCode 2022/02 https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf 自然言語からコード生成するシステムAlphaCodeを提案モデルは巨大な(最大41B)…

2022-01-01

モバイルUI要素に説明を付与する widget captioning

DeepLearning ImageCaptioning 論文読み Transformer

Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements https://arxiv.org/abs/2010.04295 EMNLP 2020 android App UIの要素に説明を付与するタスク, widget captioningを提案スクリーンリーダー等のアクセシビ…

2021-12-29

Attentionのみのモデルで翻訳タスク大幅改善, Transformer

DeepLearning NLP Transformer 論文読み

Attention Is All You Need https://arxiv.org/abs/1706.03762 2017/06, NeurIPS 2017 RNNもCNNも使用せずattentionによりWMT2014英->独翻訳で28.4BLEU達成．前のsotaから2ポイント改善 RNNは自己回帰のため1サンプル内での並列化は不可能(かつ系列長が異な…

2021-12-29

長文に強い相対位置埋め込みを持つモデル RoFormer

DeepLearning Transformer 論文読み NLP

RoFormer: Enhanced Transformer with Rotary Position Embedding https://arxiv.org/abs/2104.09864 2021/04 相対位置埋め込みを回転行列で表現したtransformer．各tokenに対する積として実行し，意味上は各tokenベクトルを回転させる効果になるトークン間…

2021-12-27

クロスモーダル事前学習不要のVQAモデル, Multimodal Bitransformer

DeepLearning Vision-Language Transformer

Supervised Multimodal Bitransformers for Classifying Images and Text https://arxiv.org/abs/1909.02950 2019 Architecture VQAにおいて，個別に事前学習済みの画像encoder, text encoderを組み合わせてBERTベースモデルでSAすることで，VilBERTのような…

2021-12-24

vision分野で多様な下流タスクに適用できる基礎モデルFlorence

DeepLearning Pre-Training Vision-Language Transformer

Florence: A New Foundation Model for Computer Vision 2021/11/22 https://arxiv.org/abs/2111.11432 Fig.2 Overview of building Florence 画像ドメインで多様な下流タスク(分類、検索、オブジェクト検出、VQA、画像キャプション、ビデオ検索、アクション…

2021-02-08

物体検出結果のタグを利用して視覚-言語6タスクでSoTA更新，OSCAR

DeepLearning ImageCaptioning Transformer NLP Pre-Training

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks paper https://arxiv.org/abs/2004.06165 github https://github.com/microsoft/Oscar データセット COCO etc. project まとめどんなもの？言語embedding，画像の物体検出特徴に…

2020-09-07

UIデザインの自動補完，Auto Completion of User Interface Layout Design Using Transformer-Based Tree Decoders

DeepLearning 論文読みコード生成 UIデザイン Transformer pix2code

Auto Completion of User Interface Layout Design Using Transformer-Based Tree Decoders paper https://arxiv.org/abs/2001.05308 Yang Li, Julien Amelot, Xin Zhou, Samy Bengio, Si Si ICLR 2020 reject github project まとめどんなもの？ UIデザイ…