Понимание ЕЯ-высказывания | MetodPro.ru

Реклама на сайте

Понимание ЕЯ-высказывания


 Это сложная задача, в результате решения которой должно формироваться формализованное представление входного предложения на внутреннем языке системы. Если охарактеризовать причину сложности задачи обработки естественного языка то следует указать на неопределенность, которая проявляется в виде множественности значений слов, неоднозначности смысла фраз, неполноты высказываний и т.д. Неполнота высказываний часто допускается в диалогах между людьми. При этом возможны лексические и грамматические ошибки, пропуски одного или нескольких слов с целью сжатия высказывания, повторы. Важным является ответ на вопрос о том, насколько методы понимания высказываний приспособлены к обработке указанных видов неопределенностей. Выделяют два основных подхода к построении подсистем понимания высказываний:

1)      рациональный (детерминистский).

2)      Эмпирический (стохастический).

 

В рамках первого подхода основное внимание уделяется разработке грамматических правил и баз знаний, отражающих специфические знания, ограниченные предметной областью.

Второй подход основан на привлечении к решению задачи методов статистики и машинного обучения. В это случае, подсистема понимания высказываний обучается на больших количествах реальных языковых данных.

 

Рациональный подход.

К рациональному подходу относят большую группу методов анализа и интерпретации предложений естественного языка:

1)      метод сетей переходов.

2)      Метод расширенных сетей переходов.

3)      Метод сопоставления с образом.

4)      Метод трансформационных грамматик.

5)      Метод семантических грамматик.

6)      Метод падежной грамматики и другие.

 

В качестве примера рационального подхода рассмотрим методы сетей переходов, основанные на выполнении грамматического разбора с помощью продукционных грамматик. Алгоритмы грамматического разбора в таких грамматиках подразделяются на две группы: разбор сверху вниз и разбор снизу вверх. При разборе сверху вниз, который начинается с символ, представляющего предложение, предпринимается попытка построить дерево грамматического разбора, листья которого сопоставимы со словами анализируемого предложения. В ходе разбора снизу-вверх, выполняется поиск последовательности правил продукций, сводящих множество слов предложения к одному корневому символу дерева грамматического разбора, соответствующего анализируемому предложению. Основной проблемой, которая возникает на каждом шаге применения указанных алгоритмов разбора, является выбор правила. Если выбор будет ошибочным, то анализатор может не распознать правильное предложение. Чтобы исключить такие случаи, применяется алгоритм возврата к альтернативным правилам продукции. На практике это может приводить к экспоненциальному росту объема вычислений.

Существует большое число алгоритмов построения дерева грамматического разбора. Широкое распространение при анализе ЕЯ-предложений получили алгоритмы, основанные на методе расширенных сетей переходов. Анализаторы, осуществляющие разбор предложений с помощью сети переходов, представляют грамматику в виде множества направленных подграфов (сетей переходов с конечным числом состояний). Каждая сеть соответствует нетерминальному символу грамматики. Метки дуг таких сетей могут быть представлены как терминальными, так и нетерминальными символами. Путь из начального состояния сети перехода в конечное состояние соответствует продукционному правилу, ассоциированному с сетью перехода. При этом метки дуг, которые встретились на пути из начального в конечного состояние, образуют правую часть правила продукции. При разборе сверху-вниз, анализатор пытается найти путь в сети переходов, представляющей предложение. Для этого анализируются метки дуг сети переходов. Если метка соответствует терминальному символу, то анализатор сопоставляет его с очередным словом анализируемого предложения. Если дуга отмечена меткой нетерминального символа, то анализатор рекурсивно ищет путь в сети переходов данного нетерминального символа. В случае неудачи выполняется возврат к другим возможным вариантам продолжения поиска пути. Если же в сети обнаружен путь из начального состояния в конечное, то рассматриваемой входное предложение является синтаксически правильным относительно заданной грамматики. Сети переходов обеспечивают построение деревьев разбора для КСГ. Такие грамматики широко применяются при определении языков программирования, но они плохо подходят для представления синтаксических правил естественных языков, относящихся к группе контекстно зависимых языков. Для того, чтобы адаптировать КСГ к анализу естественных языков, с правилами продукции связывают присоединенные процедуры, выполняющие необходимый контекстный анализ. Соответствующие сети переходов, в которых с дугами связывают как метки, так и присоединенные процедуры называют расширенными сетями переходов (РСП). Указанные присоединенные процедуры выполняются тогда, когда активизируется соответствующая дуга сети переходов. В РСП анализаторах терминальным и нетерминальным символом грамматики приписываются определенные признаки, например: часть речи, корень, число, время и т.п. Присоединенные процедуры обеспечивают присвоение значений признакам символов и проверку определенных условий. Если некоторые условия не выполняются, то соответствующий переход в РСП сети терпит неудачу.

С помощью присоединенных процедур так же обеспечивается построение дерева грамматического разбора, которое в дальнейшем используется при формировании внутреннего описания ЕЯ-высказывания, отражающего его семантику.



Методические пособия

  • Системы автоматизированного проектирования
  • Социология молодёжи
  • Общая социология
  • Криптография
  • Проектирование трансляторов
  • Компьютерная графика
  • Моделирование систем
  • Информационная безопасность
  • Теория вычислительных процессов
  • Логические основы искусственного интелекта
  • Проектирование распределённых информационных систем