文書の特徴ベクトル化

Bag-of-words

文書中に含まれる単語について、頻度によらず出現したかどうかのみを特徴とするベクトルをBag-of-wordsという。

TF-IDF

Bag-of-wordsベクトルの出現フラグの代わりに、単語の出現頻度や珍しさを反映した値を持つベクトルをTF-IDFという。 情報検索分野でも頻出。

  • N個の文書
  • は、番目の文書における語の出現回数
  • TF (term freq.)
    • の文章における出現割合
  • IDF (inv. doc. freq.)
    • の珍しさ
  • TF-IDF
    • の文書における重要さ