Понимание и порождение устной и письменной речи с помощью ПК

Пока ПК, обладающие возможностью обрабатывать письменные тексты и устную речь, имеют в памяти ограниченные конкретной предметной областью базы знаний.

База знаний – определённым образом организованные лингвистические и нелингвистические данные и правила их обработки.

Речемыслительная деятельность человека – очень сложный и неизученный до конца процесс, поэтому сегодня нельзя говорить о его полном моделировании на ПК.

 

Существующие экспериментальные промышленные системы обработки текста и речи созданы с учётом наложения определённых ограничений на их функционирование. Созданы для решения частных задач.

 

Компьютерные системы понимания связного текста:

Проблема понимания текста ПК находится на начальный стадии изучения. Разные точки зрения на эту проблему, разные уровни понимания, построены различные системы понимания текста. Наиболее сложным для понимания являются тексты, описывающие взаимоотношения и поступки действующих лиц, так как в ПК должны храниться большие базы данных об окружающем мире. Более простые – тексты с описанием объектов статического мира. Понимание в таких системах трактуется как извлечение из текста наиболее существенной информации. Полученная в результате информация может пополнить базу данных ПК или быть отправлена пользователю.

Под передачей пользователю понимают способность ПК отвечать на вопросы пользователя относительно событий в тексте не в виде слов иди предложений, а в виде связного текста. Согласно современным теориям автоматического понимания текста ПК понял текст, если он может:

1)   Кратко изложить его содержание;

2)   Отвечать на вопросы к этому тексту;

3)   На основе текста создать картинку\схему и т.д.;

4)   Приведённые в тексте сведения представить в иной форме (таблицы, графика);

5)   На основе анализа текста на одном языке выдать адекватную информацию на другом языке;

6)   Сравнить содержание двух разных текстов и выдать информацию об их сходствах и различиях;

7)   Путём анализа одного или нескольких текстов извлечь некие знания, которые можно было бы поместить в базу данных.

 

Уровни понимания письменного текста (выделяются при соотнесении с основными уровнями языка):

а)  Морфологический – сводится к автоматическому приписыванию каждому слову его морфологических характеристик (наиболее освоенный вид понимания текста), в последние годы стал легко реализовываться в рамках лексико-грамматического анализа корпусов текстов;

б)         Синтаксический – суть в автоматическом выделении в каждом предложении текста членов и установлении между ними различных типов связей;

в)         Семантический – в процессе автоматически устанавливаются значения выделенных на синтаксическом уровне составляющих предложений. ПК определяет, выражаются ли подлежащее одуш.\неодущ. Существительным, сказуемое глаголом движения\чувств, обстоятельство времени/места. Подобные процедуры идут с опорой на окружение слова.

г)         Гиперсинтаксический (прагматический) – выяснение семантических отношений между предложениями текста и выявлением соответствующей тексту ситуации реальной действительности.

 

ПК, понимающий письменный текст, должен иметь в своей базе данных:

1)   Знания о языке текста;

2)   Правила использования этих знаний;

3)   Знания о реальном мире (конкретной предметной области);

4)   Правила использования знаний о фрагменте реального мира;

5)   Знания о пользователе, желающем от ПК понимания текста.

 

Типы автоматического понимания:

1)   Понимание-узнавание (в ПК есть лишь знания о языке) – суть в том, что ПК узнаёт морфологическую структуру каждого слова, проводит синтаксический анализ каждого предложения, узнаёт в исходном тексте ключевые слова, словосочетания и предложения);

2)   Понимание уподобление (ПК имеет знания о языке и правила их использования, считается, что система поняла текст, если она может ответить на вопросы по нему) – суть в нахождении готового ответа своей базе данных, ранее данных человеком, так как она уподобляется человеку;

3)   Понимание-прогнозирование (ПК ориентированы на понимание текстов узкой специальности, должны иметь знания о языке, правилах их использования и предметной области.) – считается, что система поняла текст, если может определить, какой объект или событие предметной области соответствует фрагментам текста. Однако одним и тем же фрагментам текста могут соответствовать разные объекты, поэтому их соотношение можно определить лишь с определённой долей вероятности. Отсюда и прогнозирование).

4)   Понимание-объединение (в базе данных системы 4 вида вышеназванных знаний) – объединяя эти виды знаний, ПК должен уметь делать выводы, умозаключения по тексту, и объяснять, почему она сделала такой вывод (работа экспертных систем);

5)   Понимание-объяснение (в ПК есть все 5 видов вышеназванных знаний) – ПК должен уметь объяснить пользователю, как она поняла текст. Так как система должна дать ответ любому пользователю с учётом уровня его образования, используется диалог «ПК->пользователь».

 

Сегодня проблема автоматического понимания текста реализована в:

1)   Автоматических системах реферирования и аннотирования и перевода текста;

2)   Информационных и информационно-поисковых системах;

3)   Экспертных системах.

 

КОММЕНТАРИИ