Смысловые ориентиры
Составление плана будущей аннотации заключается в выделении некоторых смысловых ориентиров, которые на 3-м этапе будут развернуты более подробно. В качестве таких ориентиров выступают:
1) основные темы и подтемы исходного текста;
2) основные аспекты исследования;
3) основные ключевые предложения, словосочетания и слова.
Автоматическое аннотирование(Компьютер)
Автоматическое реферирование и аннотирование — одно из направлений компьютерной обработки естественно-языковых текстов*. И в этом качестве оно относится к фундаментальным технологиям ИИ.
При составлении с помощью компьютера аннотации также используются как ключевые предложения (в том виде, что и при составлении реферата), так и ключевые слова и словосочетания. Последние перечисляются вслед за реляторами вида: «В статье рассматриваются следующие вопросы:...», «Книга посвящена следующим проблемам:...», «Статья раскрывает следующие понятия:...» и т.д.
Потребности в средствах автоматического реферирования и аннотирования испытывают: корпоративные системы документооборота; поисковые машины и каталоги ресурсов Internet; автоматизированные информационно-библиотечные системы; каналы вещания; службы рассылки новостей и др.
Основные виды автоматического реферирования можно увидеть из таблицы ниже.
Существует много способов автоматического реферирования, которые довольно четко подразделяются на два направления - квазиреферирование и краткое изложение содержания первичных документов. Квазиреферирование основано на экстрагировании фрагментов документов - выделении наиболее информативных фраз и формировании из них квазирефератов.
В рамках квазиреферирования(поверхностный метод) выделяют три основных направления, которые в современных системах применяются совместно:
1) статистические
2) позиционные
3) логико-семантические(индикаторные)
Суть статистической группы методов заключается в том, что:
1) ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз;
2) ключевым предложением считается предложение текста, которое:
а) имеет несколько ключевых слов;
б) содержит ключевые слова на небольшом расстоянии друг от друга.
Принадлежность слова, словосочетания или предложения к числу ключевых определяется специальными статистическими коэффициентами.
В позиционных методах автоматического реферирования и аннотирования ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Такие предложения, как правило, содержат информацию о целях, методах, выводах и результатах исследования, описанного в первичном документе. Важность тех или иных предложений с указанной точки зрения определяется экспертами путем изучения семантической структуры первичных документов определенного типа.
Семантические методы формирования аннотаций предполагают два основных подхода:
1) Метод синтаксического разбора предложений
2) Методы, опирающиеся на понимание естественного языка.
В первом случае используются деревья разбора текста. Процедуры автоматического реферирования манипулируют непосредственно деревьями, выполняя перегруппировку и сокращение ветвей на основании сответствующих критериев. Такое упрощение обеспечивает построение аннотации - структурную "выжимку" исходного текста.
Второй подход основывается на системах искусственного интеллекта, в которых также на этапе анализа выполняется синтаксический разбор текста, но синтаксические деревья не порождаются. В этом случае формируются семантические структуры, которые накапливаются в виде концептуальных подграфов в базе знаний. В базах знаний избыточная и не имеющая прямого отношения к тексту информация устраняется путем отсечения некоторых подграфов. Затем информация подвергается агрегированию методом слияния оставшихся графов или их обобщения. В результате преобразования формируется концептуальная структура текста - аннотация, т.е. концептуальные "выжимки" из текста.
Многоуровневое структурирование текста с использованием семантических методов позволяет подходить к решению задачи реферирования путем:
- удаления малозначащих смысловых единиц. Преимуществом метода является гарантированное сохранение значащей информации, недостатком - низкая степень сжатия, т.е. сокращения объема реферата по сравнению с первичными документами;
- сокращения смысловых единиц - замена их основной лексической единицей, выражающей основной смысл;
- гибридного способа, заключающегося в уточнении реферата с помощью статистических методов, с использованием семантических классов, особенностей контекста и синонимических связей.
Дата добавления: 2015-08-26 | Просмотры: 470 | Нарушение авторских прав
1 | 2 | 3 | 4 | 5 | 6 |
|