Структура формулы
TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова tj в пределах отдельного документа.
t = число различных терминов в коллекции документов
tfij = число вхождений термина tj в документ Di.
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.
idfj=log(d/dfj), где d = число всех документов, dfj = число документов содержащих tj.
Пример:
Дата добавления: 2015-08-26 | Просмотры: 416 | Нарушение авторских прав
1 | 2 | 3 | 4 | 5 | 6 |
|