Системы автоматического порождения письменного текста

Занимаются с 70-х, однако нет единой теории текстообразования, не может быть создана единая теория порождения текста из-за неоднозначного определения понятия «текст»:

1)   Создатели диалоговых систем под текстом понимают любую реплику из нескольких слов;

2)   Создатели систем генерации метеосводок или статистических отчётов понимают под текстом некоторую таблицу;

3)   Создатели инструкций понимают под текстом цепочку несвязанных между собой предложений, относящихся к одному объекту.

 

Этапы порождения текста:

1)   Стратегический (решение, что писать) – результат: семантическое представление будущего текста;

2)   Тактический (решение, как писать) – результат: собственно текст в языковой форме.

 

Общая структура системы порождения письменного текста:

а)         Оболочка: определяет назначение порождающей системы (диалог, сказка, стих и т.д.), содержит базу данных из 2 частей:

–                Нелингвистическая (понятия, связи, отношения между понятиями конкретной предметной области);

–                Лингвистическая (формализованные сведения о конкретном языке):

  1. Списки морфем;
  2. Слова с лексикой;
  3. Синтаксические структуры предложения;
  4. Семантико-синтаксические структуры абзацев и всего текста;

б)         Планировщик выполняет функции:

–                Определяет ту информацию, которая должна быть в тексте;

–                Определяет, как она будет представлена;

–                Определяет порядок следования абзацев;

–                Устанавливает порядок следования синтаксических составляющих в пределах текста;

–                Осуществляет языковое оформление взаимосвязи предложений в тексте;

–                Осуществляет построение синтаксических структур предложений текста;

–                Осуществляет выбор соответствующей лексики.

в)         Лингвистический реализатор обеспечивает грамматическую правильность текста и принимает все окончательные грамматические и морфологические решения.

Виды компьютерных систем порождения текста:

1)   Системы, работающие на основе шаблонных технологий (строят будущий текст, манипулируя готовыми предложениями и словосочетаниями как строительными блоками; просты и надёжны, находят широкое промышленное применение; содержание порождённого текста представляется в виде фрагментов текстов, созданных ранее людьми, поэтому выглядит естественно, однако работает только с жёсткими типами текстов);

2)   Системы, работающие на основе лингвистически мотивированных технологий (для создания текста системе нужны сложные знания структуры содержания создаваемого текста и сложные лингвистические знания, которые позволяют выразить содержание языковыми средствами; промышленных систем такого рода нет).

 

Системы распознавания речи

Данной проблемой учёные занимаются около 70 лет, первая промышленная система была создана в Японии второй половине 80-х, её называли системой надиктовки текста в ПК (диктографами), данная система имела узкую специализацию.

 

Под распознавание речи ПК понимают такое распознавание, которое подробно восприятию речи человеком, в любых условиях и при общении с любым человеком.

 

Решению проблемы мешает:

1)   Отсутствие чётких теоретических представления, которые описывали бы весь комплекс преобразований, осуществляемых нервной системой при переработке речевых сигналов;

2)   Обладание слитно произнесённой речью:

3)   Размытой границы слов:

4)   Влияния соседних звуков друг на друга;

5)   Нечётким выговором и даже исчезновением функциональных слов;

6)   Наличие в голосе говорящего экстралингвистической информации, указывающей на пол, возраст и т.д.;

7)   Большое значение в процессе речевого общения паралингвистических средств коммуникации:

а)         Кинесика (мимика, жесты);

б)         Фанация (характеристика голоса);

в)         Проксемика (расстояние между людьми).

 

Поэтому сегодня АРР может осуществляться только при определённых ограничениях:

1)                 Распознавание изолированно произнесённых слов;

2)                 Распознавание речи с настройкой на голос пользователя;

3)                 Распознавание с опорой на небольшой, заранее определённый словарь.

 

IBM – лидер в продуктах такого рода с системой ViaVoice (140 слов в минуту). Популярной системой надиктовки является DragonSystem.

 

Алгоритм распознавания:

  1. Ввод устной речи, обработка данных (убор шумов);
  2. Деление звукового потока на сегменты;
  3. Выделение в каждом сегменте минимальной акустической единицы – слова;
  4. Сравнение выделенных единиц с эталонами.

 

Промышленные системы распознавания речи условно делятся на 4 группы:

  1. Средства речевого управления (ПК, телефон);
  2. Средства надиктовки текста;
  3. Информационно-справочные системы в диалоговом режиме в качестве автоответчика;
  4. Средства идентификации человека по образцу речи.

 

 

Системы автоматического синтеза речи

Методы:

1)   Кодирование (запись в двоичной системе речевых сигналов с их последующим восстановлением)

а)         По существу ПК здесь служит устройством для записи речи, слова и фразы записываются в ПК заранее и в нужный момент воспроизводятся по командам);

б)         Недостаток:

–                Сказать фразу, не введённую в память, нельзя;

–                Для хранения речевых сигналов в непосредственной форме нужен большой объём памяти;

в)         Преимущества:

–                Естественное звучание речи;

–                По качеству речь приближается к человеческой;

2)   Фонетический синтез речи (акустическое моделирование голосового тракта человека)

а)         Синтезатор по этому методу принципиально отличается от синтезатора по первому методу – имеет неестественное звучание, говорит голосом робота;

б)         Обычно осуществляется по орфографическому тексту, написанному человеком, ПК в нём умеет преобразовывать буквы в фонемы, фонемы в аллофоны и синтезировать непрерывный речевой сигнал с использованием аллофонов диктора, выбираемых и базы данных;

в)         Наиболее перспективен, так как речь генерируется действительно самим ПК.

3)   Математическое моделирование голосового тракта человека:

а)         Словарь в синтезаторе этого вида, как и в первом методе, создаётся с участием человека, но здесь в память записываются не слова и фразы, а производится выделение числовых характеристик звуков речи и интонации фраз, что позволяет уменьшить объём требуемой памяти.

б)         Речь естественна, для её генерации числовые характеристики по специальным командам преобразуются в звуковые сигналы.

 

Сейчас ведутся разработки над тем, чтобы синтезированная речь была звучала живо, эмоционально, естественно. Решение этой проблемы позволит создавать системы синхронного перевода, активнее использовать ПК при обучении языку, а также людям с нарушениями зрения.

КОММЕНТАРИИ