Системы автоматического аннотирования и реферирования текста

Реферат – связный текст, кратко выражающий не только центральную тему документа, но и цель, методы, основные результаты описанного исследования или разработки.

Аннотация – краткое изложение содержания документа с общим представлением о его теме.

Машинный реферат – последовательность предложений исходного текста либо таблица, в ячейках которой ключевые слова или словосочетания (первый машинный реферат был сделан в 1958 году).

Этапы построения реферата человеком:

Подготовительный (чтение текста и осмысление документа в целом);

1)   Аналитический (референт выделяет основные смысловые единицы (предложения, слова, словосочетания), строит план реферата);

2)   Этап непосредственного построения реферата (выделенные ранее единицы располагаются в единый вторичный текст в соответствии с планом).

В качестве смысловых единиц реферата могут быть:

1)   Полное (без изменений) ключевое предложение исходного текста;

2)   Перефразированное ключевое предложение;

3)   Предложение из ключевых слов и словосочетаний;

4)   Предложение, обобщающее несколько предложений исходного текста.

Смысловые единицы аннотации:

1)   Ключевые слова или словосочетания исходного текста с предшествующими им специальными словами – реляторами («тема состоит в том, что» и проч.);

2)   Специальные предложения исходного текста, содержащие элементы («рассматривается важная проблема» и проч.)

 

ПК должен уметь:

1)   Находить в тексте ключевые слова, словосочетания, предложения;

2)   Находить в тексте менее значимые единицы;

3)   Составлять из текстовых единиц смысловые единицы реферата\аннотации.

Методы автоматического реферирования:

1)   Статистический: в данном методе ключевое слово – это знаменательное слово текста, которое с учётом синонимов встретилось в тексте наибольшее число раз.

а)         Задача: по формуле где
F – число повторений слова в тексте,
m – число абзацев, где есть это слово,
N – количество слов в тексте,
n – количество абзацев в тексте
составить алгоритм, позволяющий получить:

–                аннотацию текста в виде слов-реляторов со следующими за ними ключевыми словосочетаниями текста – ключевыми существительными со стоящими перед ними определениями, выраженными прилагательными или причастиями;

–                словесный реферат текста в виде последовательной цепочки ключевых предложений – предложений, содержащих три и более ключевых слова.

–                Словоупотребление – цепочка символов, заключённых между двумя пробелами.

–                Словоформа – словоупотребление вне текста. Несколько словоформ, имеющих одно и то же лексическое значение, образуют слово.

б)         Алгоритм решения задачи:

–                ПК по каждому абзацу составляет алфавитно-частотный словарь словоформ;

–                Все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста;

–                Система «чистит» словарь, сжимая его до словаря потенциальных ключевых слов:

  1. Удаляется служебная и общепринятая лексика;
  2. Объединяются грамматические формы одного и того же слова;
  3. Объединяются синонимы;
  4. Удаляются слова, встреченные только в одном абзаце;

–                Словарь потенциальных опорных слов делится (с помощью Кважн) на

  1. Словарь главных опорных слов;
  2. Словарь второстепенных опорных слов;

–                Строится аннотация, составленная из слов-реляторов со следующими за ними ключевыми словосочетаниями, состоящими из главного опорного слова и определения.

2)   Позиционные: основным критерием этих методов является место или позиция предложения в тексте:

а)         Метод заглавия (основное содержание текста выражается текстом заголовка) – составляет словарь ключевых слов на основе заголовков\подзаголовков;

б)         Метод локализации (работает на текстах узкой тематики) – идея в том, что в таких текстах предложения о цели и результатах занимают фиксированное место.

3)   Логико-семантические: исследуют структуру и семантику текста.

а)         Ключевое предложение – предложение с наибольшей функцией весомости влияют различные факторы:

б)         Связь с левым и правым окружением;

в)         Наличие в предложении семантически значимых слов;

г)         Выделение текста шрифтом и т.д.

Каждый метод имеет достоинства и недостатки, используются комбинированно.

Данные методы относятся к направлению квазиреферирования, основаны на выделении из текстов наиболее информативных предложений, передающих основной смысл документа. Текст, полученный путём соединения отрывочных фрагментов, лишён гладкости.

Сегодня появились методы второго направления на выделение из текстов наиболее информативной информации и создания с помощью неё новых текстов. Такое реферирование приближается к интеллектуальному реферированию. Данные системы работают сразу с несколькими источниками, а также способны работать с видео.

КОММЕНТАРИИ