作业 3

计22-1

TF=100/1000=0.1TF=80/1000=0.08TF_我 = 100 / 1000 = 0.1 \\ TF_爱 = 80 / 1000 = 0.08

IDF=log(语料库文档总数/包含该词的文档数)=log(10,000,000/100,000)log(100)2IDF_我 = log(语料库文档总数 / 包含该词的文档数) \\ = log(10,000,000 / 100,000) ≈ log(100) ≈ 2\\

IDF=log(语料库文档总数/包含该词的文档数)=log(10,000,000/10,000)log(1000)3IDF_爱 = log(语料库文档总数 / 包含该词的文档数) \\ = log(10,000,000 / 10,000) ≈ log(1000) ≈ 3

TFIDF=TFIDF=0.12=0.2TFIDF=TFIDF=0.083=0.24TF-IDF_我 = TF_我 * IDF_我 = 0.1 * 2 = 0.2 \\ TF-IDF_爱 = TF_爱 * IDF_爱 = 0.08 * 3 = 0.24

"我" 的 TF-IDF 值为 0.2,词 "爱" 的 TF-IDF 值为 0.24。关键词是 TF-IDF 值更高的 "爱"。