АкушерствоАнатомияАнестезиологияВакцинопрофилактикаВалеологияВетеринарияГигиенаЗаболеванияИммунологияКардиологияНеврологияНефрологияОнкологияОториноларингологияОфтальмологияПаразитологияПедиатрияПервая помощьПсихиатрияПульмонологияРеанимацияРевматологияСтоматологияТерапияТоксикологияТравматологияУрологияФармакологияФармацевтикаФизиотерапияФтизиатрияХирургияЭндокринологияЭпидемиология

Структура формулы

Прочитайте:
  1. II. СТРУКТУРА И ОБЪЕМ ДИСЦИПЛИНЫ
  2. III. Структура иммунной системы у животных и птиц
  3. VI. Графическая структура темы занятия
  4. VI. Графическая структура темы занятия
  5. VII. Логическая структура темы.
  6. АНТИГЕННАЯ СТРУКТУРА
  7. АНТИГЕННАЯ СТРУКТУРА
  8. Антигенная структура бактериальной клетки.
  9. Антигенная структура бактерий. Групповые, видовые, типовые антигены. Перекрёстнореагируюшие антигены. Антигенная формула.
  10. Антигенная структура.

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова tj в пределах отдельного документа.

 

t = число различных терминов в коллекции документов

tfij = число вхождений термина tj в документ Di.

 

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.

 

idfj=log(d/dfj), где d = число всех документов, dfj = число документов содержащих tj.

 

Пример:

 

 

 


Дата добавления: 2015-08-26 | Просмотры: 373 | Нарушение авторских прав



1 | 2 | 3 | 4 | 5 | 6 |



При использовании материала ссылка на сайт medlec.org обязательна! (0.003 сек.)