文書の特徴ベクトル化
Bag-of-words
文書中に含まれる単語について、頻度によらず出現したかどうかのみを特徴とするベクトルをBag-of-wordsという。
TF-IDF
Bag-of-wordsベクトルの出現フラグの代わりに、単語の出現頻度や珍しさを反映した値を持つベクトルをTF-IDFという。 情報検索分野でも頻出。
- N個の文書
- は、番目の文書における語の出現回数
- TF (term freq.)
- 語の文章における出現割合
- IDF (inv. doc. freq.)
- 語の珍しさ
- TF-IDF
- 語の文書における重要さ