SGPT: 意味検索のためのGPTによる文章埋め込み

SGPT: GPT Sentence Embeddings for Semantic Search 2022/02 https://arxiv.org/abs/2202.08904 モデル・コード https://github.com/Muennighoff/sgpt 提案手法の構造図．左(a)がSGPTクロスエンコーダ，右(b)がSGPTバイエンコーダ． BEIRでのre-ranking 性…

2022-02-23

WebGPT: web検索を操作して引用付きで質問に回答

DeepLearning NLP 論文読み GPT

WebGPT: Browser-assisted question-answering with human feedback 2021/12 https://arxiv.org/abs/2112.09332 人間用web検索環境(左)とモデル用(右) ELI5で，人間のデモに対してWebGPTが好まれた割合(左)とELI5の正解データに対してWebGPTが好まれた割合(…

2022-02-04

競技プログラミングのコード生成で上位54%以内を達成，AlphaCode

DeepLearning NLP Programming Transformer コード生成論文読み

Competition-Level Code Generation with AlphaCode 2022/02 https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf 自然言語からコード生成するシステムAlphaCodeを提案モデルは巨大な(最大41B)…

2022-01-17

単語埋め込みによる分散表現の学習を提案した論文を読んだ

DeepLearning NLP 論文読み

言語処理関係の深層学習モデルでは，単語埋め込みを言語モデルと同時に学習する手法をよく使用するが，それを最初に提案した論文だと思う． wikipediaで単語埋め込みの項を見ていて，今日的な形の手法で最初のはこれのようだった．違っていたらご指摘くださ…

2022-01-17

畳み込みベースの翻訳モデル ConvS2S

DeepLearning NLP 論文読み

Convolutional sequence to sequence learning https://arxiv.org/abs/1705.03122 2017 ICML 畳み込みとattnを使って翻訳モデルを提案 RNNを使わないenc-decで，入力系列を畳み込みでencode，decoderは過去の正解系列の畳み込みとencodeされた文脈の内積attn…

2021-12-29

Attentionのみのモデルで翻訳タスク大幅改善, Transformer

DeepLearning NLP Transformer 論文読み

Attention Is All You Need https://arxiv.org/abs/1706.03762 2017/06, NeurIPS 2017 RNNもCNNも使用せずattentionによりWMT2014英->独翻訳で28.4BLEU達成．前のsotaから2ポイント改善 RNNは自己回帰のため1サンプル内での並列化は不可能(かつ系列長が異な…

2021-12-29

長文に強い相対位置埋め込みを持つモデル RoFormer

DeepLearning Transformer 論文読み NLP

RoFormer: Enhanced Transformer with Rotary Position Embedding https://arxiv.org/abs/2104.09864 2021/04 相対位置埋め込みを回転行列で表現したtransformer．各tokenに対する積として実行し，意味上は各tokenベクトルを回転させる効果になるトークン間…

2021-02-08

物体検出結果のタグを利用して視覚-言語6タスクでSoTA更新，OSCAR

DeepLearning ImageCaptioning Transformer NLP Pre-Training

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks paper https://arxiv.org/abs/2004.06165 github https://github.com/microsoft/Oscar データセット COCO etc. project まとめどんなもの？言語embedding，画像の物体検出特徴に…

2020-12-21

言語モデルでEOSを予測すると汎化性能悪化するらしい

DeepLearning 論文読み NLP

The EOS Decision and Length Extrapolation paper https://arxiv.org/abs/2010.07174 Benjamin Newman, John Hewitt, Percy Liang, Christopher D. Manning github https://github.com/bnewm0609/eos-decision データセット Dyck-(k, m), SCAN, WMT2009 pro…