nlp

TF-IDF

TF是指特定词在包含其的文件中出现的频率。

IDF是指包含该词的文件占全部文件数的比例的倒数的对数。

tf*idf就是词重要性度量。但是一般可以按行(样例)进行正则化,将tf*idf规范到0-1,并且这样子相同词在不同样例中的数值(重要性)也就不再一样。等于是进一步考虑到了整个句子结构的特性。