ゼロから作るDeep Learning 2,第2章まとめ

  • WordNetなどのシソーラスから類義語の取得や単語間の類似度の計測等ができる
    • シソーラスは作るのが大変.新語に対応する必要がある
    • 現在ではコーパスを使って単語ベクトル化するアプローチが主流
  • 単語ベクトル化の手法は,「単語の意味は周囲の単語によって形成される」という分布仮説に基づくものがほとんど
    • カウントベースの手法は,各語彙に対して,その単語の周囲の単語の頻度をカウントして集計.(共起行列と呼ぶ)
      • 共起行列をPPMI(正の相互情報量, positive pointwise mutual information)行列に変換し,それを次元削減(SVD)することで巨大なスパースベクトルを小さなdenseベクトルに変換できる
      • 単語のベクトル空間では,意味的に近い単語はその距離が近くなることが期待される