一般化カテゴリ発見

Generalized Category Discovery

f:id:e4exp:20220112210220p:plain f:id:e4exp:20220112210324p:plain

  • 一般化カテゴリ発見というタスクを提案
    • ラベル付けされた画像集合とされていない画像集合から、ラベルなし集合の全画像を分類するタスク.ラベルなし画像は既存カテゴリor新規カテゴリに属する
    • 新規カテゴリ発見(NCD)というタスクは存在したが,ラベルなし画像はすべて新規カテゴリから来ると仮定していた
  • NCDの代表手法をベースに提案タスクをvitバックボーンで学習し,分類ヘッドが過適合することを発見
  • パラメトリック分類器を排除してk-meansと対比学習を利用したモデルを提案
    • ViTモデルを対比的に学習し,特徴空間でクラスタリングを行う
    • オンライン学習には対応していない
  • ラベルなしデータでカテゴリ数を推定する方法を提案

モバイルUI要素に説明を付与する widget captioning

Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements

f:id:e4exp:20220101211208p:plain f:id:e4exp:20220101211236p:plain

  • android App UIの要素に説明を付与するタスク, widget captioningを提案
    • スクリーンリーダー等のアクセシビリティ機能はwidget captionに依存しているが,開発者が手動で付与するのは負担になる
    • 特に画像ベースの要素の半数以上がキャプションがないというデータも
  • CNN+transformerでimageとview hierarchyを入力してキャプション生成するtransformerベースのモデルを提案
    • ビュー階層の各要素から既存の説明文, 要素タイプ, クリック可能性, の埋め込みを抽出.さらにbboxの座標値,前順・後順のトラバーサル時のシーケンス位置,深さ,をカテゴリ値として埋め込みを抽出,すべて連結してtransformer encoderに入力(要素の数=系列長)
    • 要素の画像をresnetで特徴抽出し,ビュー階層encoded特徴と結合して射影し,transformer decoderに入力.こちらは要素数だけ個別に同じインスタンスでdecodeする(decoderのインスタンス数=要素数)
  • ablationで提案手法の有効性を示している.指標はevalcococapのBLUE1,2, R, C, M, SでBLEU2=32.2など.人間による評価も行いfull modelに対する支持率は78.64%
  • dataはRICOベースのandroid UIデータを人間がキャプション付与(6,470のアプリの21,750画面にわたる61,285のUI要素に対して、162,859のキャプション)
    • caption長さは平均2.72で非常に短い.述語+目的語の形式が多い

Attentionのみのモデルで翻訳タスク大幅改善, Transformer

Attention Is All You Need

f:id:e4exp:20211229185515p:plain

f:id:e4exp:20211229185554p:plain

  • RNNもCNNも使用せずattentionによりWMT2014英->独 翻訳で28.4BLEU達成.前のsotaから2ポイント改善
  • RNNは自己回帰のため1サンプル内での並列化は不可能(かつ系列長が異なるサンプルのbatch化も困難).提案手法は1サンプル内では全部のtokenを並列に処理するため高速
  • self attentionでは入力をQuery, Key, Valueに変換し,Qの一つのベクトルと,K全部の内積を計算, 正規化してsoftmaxしてVの重要度を示す重みを求める.(実際はQを行列としてその全部のベクトルに対してこれを計算)
    • 単一のattention計算の代わりにQ,K,Vをそれぞれ小さい次元に分割してattn計算し,結果を結合して射影するmulti head attentionを導入すると有益(newstest2013の英->独 翻訳で検証)
    • RNNではtoken入力の順番が位置情報を提供しているが,提案手法では位置エンコーディングとしてtokenに位置に応じたサイン/コサイン関数ベースの値を加算する.learnableな埋め込みを使用した実験も行い,sinのほうが長いシーケンスに外挿するとしている
  • 長期依存性をモデリングする効率に関して,自己アテンション層は定数の逐次実行操作で全ての位置を結ぶが、リカレント層はO(n)の逐次実行操作を必要など.提案手法が効率的

長文に強い相対位置埋め込みを持つモデル RoFormer

RoFormer: Enhanced Transformer with Rotary Position Embedding

f:id:e4exp:20211229152913p:plain

  • 相対位置埋め込みを回転行列で表現したtransformer.各tokenに対する積として実行し,意味上は各tokenベクトルを回転させる効果になる
  • トークン間積の長期的減衰に有利な特性を持つ(おそらく,近いトークン同士よりも遠いトークン同士の場合にベクトルに与える変化が少なくなる?).この性質は他の相対位置埋め込みでも成り立つ
  • 系列長が長くなると(1,024で実験),絶対位置埋め込みのBERT等よりもテスト性能が向上.中国語の法律事例マッチデータセットCAIL2019-SCMでの実験.
  • この手法が長文に対して他のモデルより優れた性能を示す理由は明らかではない

クロスモーダル事前学習不要のVQAモデル, Multimodal Bitransformer

Supervised Multimodal Bitransformers for Classifying Images and Text

f:id:e4exp:20211227203619p:plain
Architecture

  • VQAにおいて,個別に事前学習済みの画像encoder, text encoderを組み合わせてBERTベースモデルでSAすることで,VilBERTのようなクロスモーダル事前学習モデルに匹敵する性能が出る
    • 画像encoderはresnet152を使用しており物体検出も不要
    • MM-IMDB, FOOD101, V-SNLIの3つのVQAデータセットで評価しており,さらにユニモーダルデータだけでは解くことが難しいデータを集めた版も作成している
      • BertとImg分類器の予測値が基底真理クラスと最も異なる例を集めた
      • (Goyal et al.、2019 でVQAではテキスト情報が過度に支配的であるとしている)
  • 学習済みモデルの凍結を解除するタイミングについてablationを実施し,画像エンコーダの早期凍結解除は最も効果的としている

Jigsaw: 大規模言語モデルのコード生成に前/後処理を追加し精度改善

Jigsaw: Large Language Models meet Program Synthesis

https://arxiv.org/abs/2112.02969

ICSE'22, 2021/12/06

  • 大規模事前学習言語モデル(GPT-3, Codex.PTLMと呼ぶ)は自然言語からコード生成可能であるが,変数名変換とAST-to-AST変換による後処理モジュールを追加して生成コード(Pandas)の品質を向上さるJigsawを提案

f:id:e4exp:20211224193802p:plain
構造図

f:id:e4exp:20211224194114p:plain
言語モデルに投げる前の処理

モデル

  • 入力は自然言語記述とテストケース(入出力例)
  • モデルはPTLMをブラックボックスとして使用し,後処理ではAPI関数と引数の組み合わせ検索, PTMLの出力を修正する変換ルールの学習/更新を行う
    • 変数名の変換, 引数の変換についてはAutopandasツール(9)で使用されているアプローチを採用(GNN).PTLMの出力から自然言語によるクエリでメソッド名を抽出しデータを集め,学習.Autopandasのジェネレータを拡張し、リストや辞書のような複雑なデータ型を考慮し、考慮するAPIのセットを拡張
    • 演算子や括弧の付与に関してはAST-to-ASTの変換(BluePencil(26)ベース)で対応する
      • ユーザがJigsawの生成結果を修正したものを収集し,類似のデータをクラスタ化, クラスタ内の全データを扱える単一のAST変換をオンラインで学習させる
      • データ点が既存のクラスタ内にグループ化されるなら既存のクラスタのAST-AST変換がより一般的な変換として再学習可能かどうかを確認し、可能であれば再学習
    • 前処理として,コンテキストバンクから現在のクエリに類似した要素を選び,PTLMへ与えるコンテキストに追加する.類似性はtf-idf及びtransformerで算出する.コンテキストバンクは更新される

データ

  • 2つのデータセットを作成( PandasEval1 68個のPython Pandasタスク, PandasEval2 21のPandasタスク 25人のユーザと2回のセッションで実施したハッカソンで、図解として提示)

評価

  • Jigsawはコンテキスト選択戦略に関係なく、ブラックボックスPTLMより15%〜40%精度(Acc)が向上.PandasEval2_S2データセットで,後処理のコンテキストバンクを更新すると15~30%精度(Acc)向上

vision分野で多様な下流タスクに適用できる基礎モデルFlorence

Florence: A New Foundation Model for Computer Vision 2021/11/22 https://arxiv.org/abs/2111.11432

f:id:e4exp:20211224151250p:plain
Fig.2 Overview of building Florence

  • 画像ドメインで多様な下流タスク(分類、検索、オブジェクト検出、VQA、画像キャプション、ビデオ検索、アクション認識など)に適用できる汎用的な事前学習モデルFlorenceを提案
    • モデルは階層型vision transformer(CoSwin)の画像encoderとTransformer 言語encoderでimage-text間のcontrastive学習を行い,下流タスクは個別のタスクでdecoderを学習
    • FLD-900M(FLDはFLorenceDatasetの略)と呼ばれる9億の画像-テキストペアデータセットを構築
  • ImageNet-1Kのゼロショット分類では、トップ1の精度が83.74、トップ5の精度が97.18、COCO微調整では62.4mAP、VQAでは80.36、Kinetics-600では87.8