А. А. Красилов Язык и знание. Семантическая грамматика русского языка



Скачать 443.55 Kb.
страница1/4
Дата09.07.2014
Размер443.55 Kb.
ТипДокументы
  1   2   3   4
А.А.Красилов

Язык и знание.

Семантическая грамматика русского языка
Излагаются основы и основания семантической грамматики, состоящей из правил получения смысла текстов русского языка и предназначенной для восприятия их программами вычислительных машин при автоматическом решении задач по заданиям или автоматическом синтезе программ. Основной категорией грамматики является понятие, определяемое именем (термином) и значением (смыслом). Текстовые фразы и абзацы после обработки по правилам принимают значение (смысл), по которому после логического вывода получается решение задания или определяется экологическая чистота текста. Устанавливается соотношение между классической грамматикой (совокупность правил образования слов и предложений) и семантической. Описываемая грамматика предназначена для построения интеллектуальных систем решения заданий пользователя.
Введение

Определение информатики, данное в [1], ориентировано на обработку «научной информации». Это определение нами развито в [2]. Новое определение отражает современное состояние информатики и связано с проблемами обработки знаний. Самым важным вопросом обработки знаний (в том числе и «научной информации»), представленных текстами, является вопрос о смысле текстов. Современная оценка смысла текстов связана с понятием «ключевое слово». Для написания статьи сработали три стимула. Первый - упорная работа над созданием интеллектуальных систем (Интелсис [3-6]), призванных обеспечить пользователя средствами решения его задач, без привлечения программистов, средствами русского языка. Второй - публикация лекции известного американского лингвиста Н.Хомского [7] о сопоставлении и согласовании языка и знаний. Третий - желание восстановить исследования Г.Фреге, Б.Рассела и Л.Витгенштейна [8]. Первый стимул вызвал необходимость рассмотрения естественного языка (ЕЯ) в качестве средства общения человека с компьютером, второй - привел к критическому настроению от способов понимания смысла любых текстов, передающих знания, а третий - привел к поиску исходной сущности в понимании смысла текстов.

Истоки воззрений на смысл текстов находятся в трудах Лейбница [9], который исследовал начала символического языка как универсального средства анализа научного мышления. Клини в своей монографии [10] показал примеры сопоставления ЕЯ и символического языка. Длительная работа со средствами написания программ и развития интеллекта компьютера позволили автору вплотную заняться изучением сущности грамматики русского языка [11] и поиском алгоритмов понимания ЕЯ. Мы ограничимся рассмотрением только русского языка, в предположении, что для других ЕЯ сохраняется общий конструктивный подход для формирования алгоритмов понимания текстов. В лекциях Хомского делается попытка искать смысл текста с помощью средств классической грамматики ЕЯ. Этот подход оправдывается только частично, даже в том случае, когда над текстами строятся графы связи слов.
Мы рассмотрим альтернативный подход к методам определения смысла текстов. Проблема сопоставления «язык-знание» сложна, поэтому необходимо сделать крутой поворот от привычных правил понимания текстов к необычным (правда только на первый взгляд).

Тексты на ЕЯ после ввода в память компьютера подвергаются переводу во внутреннее представление, которое должно максимально сохранять смысл исходного текста. Проблема перевода с одного ЕЯ (исходный язык) на другой (объектный язык) состоит в построении текста на объектном языке таким образом, чтобы смысл исходного текста сохранился максимально (или полностью). Требованию сохранения смысла должны удовлетворять все рассматриваемые задачи. При переходе к внутреннему представлению текстов возникает реальная и разрешимая проблема построения универсальной грамматики и универсального языка, который мы именуем языком «Лейбниц». Универсальная грамматика не пригодна для всеобщего использования человеком, она выполняет специальные функции построения Интелсис или программ перевода.

На основе алгоритмов понимания ЕЯ представляется возможным построение новой грамматики русского языка, которая по составу допустимых ею текстов не отличается от классической грамматики, но которую понимает и человек, и компьютер. Классическая грамматика русского языка [11] нами именуется синтаксической грамматикой (СиГ), поскольку она содержит правила построения слов, словосочетаний и предложений, а новая грамматика - семантической (СеГ), поскольку она дает правила «вычисления смысла» всего текста. Именно СеГ русского языка является предметом нашего рассмотрения. Язык, порождаемый СеГ, называется языком профессиональной прозы (ЯПП). Профессиональность ЯПП определяется составом лексикона. Язык поэзии можно и надо изучать с точки зрения передачи знания, но он очень уж активно использует принцип умолчания.

Научить компьютер пониманию ЕЯ - это главная цель построения СеГ. Другая цель состоит в обучении пользователя общению с компьютером, в котором содержатся знания об определенных предметных и проблемных областях. Указанные цели являются взаимодополняющими и не противоречат ни современной грамматике русского языка, ни запросам обладателя компьютера, не знающего средств написания программ. С помощью компьютера реализуется соотношение логика-язык-реальность через деятельность человека. Правильность отражения знаний о действительной или воображаемой реальности выражается отсутствием противоречий в знаниях и подтверждается практической проверкой. Философские концепции типа «связь логики с реальностью», «логическое отображение реальности посредством языка» или «решение проблемы связи знания, языка и реальности» предлагается проанализировать читателю. Основная концепция статьи состоит в построении и применении СеГ для ввода, обработки и вывода нового знания с помощью программы Интелсис на основе знаний и запросов пользователя [5].

Исходными лексемами, как начальными кирпичиками текстов в СиГ, являются слова. По традиции в словах ищется смысл. Все толковые словари составлены по принципу «слово - смысл слова». Эта традиция и является камнем преткновения для нашего рассмотрения. Толковые словари обобщают каждое слово по многим областям их применения, но не по всем (!). Иногда слову придается несколько смыслов в зависимости от контекста. Кроме этого, наш критический взгляд направлен на ограниченные возможности СиГ, которая не рассматривает ряд лексем (например, дата или время). Построение же СеГ связано с расширением возможностей грамматики ЕЯ. Заметим, что запись фраз по правилам СеГ должна удовлетворять правилам СиГ, но не наоборот.

Информатика проникла во все отрасли знания [2]. Но она доступна пока только программистам, а с помощью готовых программ другим пользователям компьютеров, для которых подготовлена программа. Программы стоят дорого. Необходимо обеспечить каждого пользователя средствами самому решать свои задачи с помощью компьютера без написания программ, а для этого надо построить инструментарий Интелсис с учетом языка данной группы пользователей, на основе их знания, которые должны быть переданы в Интелсис на ЯПП.

СеГ построена не на голом месте. Она понималась человеком интуитивно. Развитие СеГ шло от методов программирования, от развития средств общения с компьютером. После появления первой вычислительной машины (ВМ) были осмыслены понятия адреса и содержимого ячейки памяти. Понятие адреса постепенно развилось в понятие идентификатора, затем в понятие имени и, наконец, достигло своего апогея - стало использоваться понятие термина. Понятие содержимого ячейки памяти развивалось чисто технически. Постепенно рассматривались содержимое одного двоичного разряда, байта - 8 двоичных разрядов, слова - 16 или 32 двоичных разрядов, набора слов, последовательности наборов слов и т.д. Смысл содержимого выявлялся только при выводе на печать или экран последовательностей преобразованных нулей и единиц, только тогда человек мог увидеть внешнее представление содержимого. Аналогично этому рассуждают об адресе и содержимом «ячеек памяти» человека. Адресом в письме и речи является термин. Только через внешнее представление (речь, письмо, действия) можно понять содержимое «ячеек памяти» человека.

Трудно рассчитывать на полное описание СеГ в объеме статьи. Мы рассмотрим только ее основы. Чтение изложения СеГ или фрагментов грамматики языка Лейбниц не требует специального знания, как и чтение грамматики ЕЯ. При знакомстве со статьей может показаться, что СеГ учит программированию. Это не так, поскольку Интелсис воспринимает задания, представленные в СеГ, которые не являются конкретными программами, и лишь условно их можно назвать логическими программами. Процедурные языки - языки приказов - обеспечивают пошаговое описание (это допускается в СеГ), как это делается при описании алгоритмов, но при этом не используются формальные языки.
1. Основания для создания новой грамматики

Создание и применение Интелсис требует понимания смысла текстов, поскольку она работает на основе знаний, получаемых от специалистов. Кроме словесных текстов знания передаются в виде чисел, символов, дат, таблиц, записей, функций и программ. СиГ не содержит правил построения таких объектов для передачи знаний. Поэтому каждая группа создателей программ для компьютера самостоятельно вводит свои грамматические правила, которые неизвестны другим пользователям даже той же специальности. Только использование единой СеГ позволит применять Интелсис каждому специалисту.

Обратим внимание читателя на то, что фразы, недопустимые на ЕЯ становятся допустимыми в СеГ, если выполнены ее правила. Обычно используют классический пример правильной фразы Я наблюдал как прощаются друзья и сопоставляют ее с неправильной фразой Я слышал прощание. Последняя фраза становится правильной в поэзии или в других областях знаний. Она является правильной и в СеГ. Если условно говорить о синтаксическом и семантическом русском языке, порождаемых соответствующими грамматиками, то первый шире по составу фраз второго в силу использования в нем большого контекста для понимания слов. Но сопоставление языков по передаваемому для Интелсис смыслу приводит к обратному соотношению.

Основной тезис СеГ состоит в следующем. Исходный смысл содержится только в термине, который может быть и однословным. Слово не несет смысла, если оно не является термином. Смысл всего текста состоит в том, чтобы быть истиной. Если смысл текст - ложь, то он содержит некоторое противоречие. Таково требование для каждого текста и требование Интелсис к фразам, передающим знание компьютеру.

В процессе построения правил СеГ необходимо определить объекты (в частности, слова) и понятие знания. Определение объектов является скорее техническим делом. А вот определение знания требует некоторого усилия для преодоления классического (или общеупотребительного) понимания этого термина. При этом надо учитывать, что определение знания обычно формировалось человеком для человека, умеющего интуитивно доосмысливать каждое понятие. Теперь определение знания надо построить так, чтобы возникло понимание определения компьютером. Заметим, что после формирования нового определения знания, станет ясным, что оно годится и для человека, иначе он не приобретет возможности общения с компьютером. Итак, главная цель описания СеГ состоит в определении алгоритма понимания текстов расширенного русского языка по правилам этой грамматики.

В основе деятельности человека лежат знания, при общении между людьми знания выражаются на каком-либо ЕЯ. Для разрешения вопросов или проблем с помощью компьютера необходимо иметь средства представления знаний. Эти средства имеют определенный уровень интеллектуальности. Для обучения компьютера чаще всего используются процедурные представления, имеющие вполне определенные недостатки (их дюжина), компенсируемые многократным составлением программ. Существуют многие формализованные или формальные языки представления знаний, которые помимо своего профессионального языка должен знать пользователь.

Представление знаний в памяти Интелсис требует понимания того, что знания, передаваемые текстами ЕЯ, разложимы на элементы, которыми может оперировать Интелсис. Элементарным знанием является пара <имя, значение>, представляющая простой факт. Имя изображается термином, а значение имеет двоякую форму представления: внутренняя форма, которую можно понять только при анализе кодов в ячейках памяти, и внешняя форма, которая выражается лексемами. В примере погода холодная термин погода - имя, а термин холодная - значение. Логическая связь или отношения фактов (композиция) образует простое знание или фразу - часть законченной мысли. Внешнее представление простого знания выражается формулами. В примере погода холодная и идет дождь использованы два факта и логическая связка и. Логическая совокупность простого знания, обычно представляемая набором предложений ЕЯ, называется абзацем, который выражает законченную мысль. Отдельную законченную мысль мы называем прикладной аксиомой, и пользователь уверен, что она является истиной. Прикладная аксиома определяет некоторый предмет, его свойства, явление или действия с предметами. Совокупность прикладных аксиом определяет базу знаний (БЗ). При анализе всего введенного в память Интелсис знания прикладная аксиома может войти в противоречие с ранее введенными аксиомами, тогда пользователь решает сам, как выйти из такой ситуации. Важно автоматически найти такие противоречия.

В БЗ Интелсис заведомо введены фундаментальные знания (они обычно содержатся в книгах и учебниках школы или вузов), а затем вводятся конкретные профессиональные знания, содержащиеся в данной специальности и в запросах. Запросы пользователь формирует сам, включая дополнительные знания. В БЗ накапливаются две вещи: имена понятий, в которых пользователь выражает профессиональные знания, и прикладные аксиомы, логически связывающие понятия. Эти два главных атрибута представления знаний рассматриваются.

Основные сложности ЕЯ препятствуют его изучению и использованию при построении машинных систем работы с текстами ЕЯ. Это и значительные размеры контекста для определения понятия, и многозначность слов, и большое число грамматических категорий СиГ, и огромный размер словаря. Первая сложность состоит в том, что понятие в ЕЯ имеет обширный контекст для его определения. Это означает, что каждое понятие в конечном счете имеет определение, но оно локализуется весьма сложно (возможно и не в данном тексте). Например, контекстом данного понятия может быть память человека, содержимое книг библиотеки и др. Вторая сложность состоит в том, что ЕЯ использует синонимы так, что один и тот же термин может иметь различные значения в различных контекстах. Еще одна сложность использования ЕЯ - это число грамматических категорий СиГ, которое оценивается несколькими сотнями. И, наконец, последняя сложность - наличие огромного словарного запаса ЕЯ. Этих четырех черт ЕЯ достаточно для понимания сложности работ с ним.

Поиск противоречий между элементами знания сводится к проблеме отладки БЗ (экологии знания [12]), которая состоит в определении локальной или глобальной непротиворечивости, независимости и полноты конкретных знаний. Проблема отладки разрешается так. При последовательном вводе знаний по абзацам каждый раз решается логическое уравнение, а затем определяются свойства БЗ. По этому решению можно судить о непротиворечивости и/или независимости добавляемого знания. Не следует сбрасывать со счетов традиционные методы отладки знаний. К ним относятся: установление грамматической правильности фраз ЯПП, контроль за точным выполнением количественных ограничений, алгоритмическая, системная и концептуальная отладки. Все эти методы, как обычно, имеют программную реализацию и осуществляются автоматически. Смысловая отладка знания в Интелсис по существу реализуется автоматически или с участием пользователя на этапе ввода знаний и внесения изменений в соответствии с СеГ.

Повторы фактов или утверждений о фактах легко устраняются, они никогда не изменят базового знания. На них следует обращать внимание только для того, чтобы охарактеризовать источник знания, что скорее всего относится к области эмоциональных исследований. Интелсис автоматически находит локальные или глобальные противоречия. Локальные противоречия возникают часто, они могут быть даже полезными для «чистки» знания. Глобальные противоречия требуют существенного пересмотра знаний. В полной мере к экологии знаний можно отнести проблему полноты. Достаточно ли знаний для решения заданий компьютеру? Если решение задания состоит из новых (или известных) фактов, то знание полно, иначе нужно пополнение, поскольку решение содержит утверждения о фактах. Интелсис подскажет, в какой части такое пополнение необходимо осуществить.

Проблемы использования различных видов знания чрезвычайно важны. В современных компьютерах используется алгоритмическое (процедурное) знание, обычно представленное программами. Кроме этого вида знаний имеются лингвосемиотические знания (описательные, плохо формализуемые), семантические знания (или языковые), концептуальные знания (понятийные, применяемые в системах программирования), фактографические знания (данные из базы, используемые через СУБД), теоретические знания (или логические, применяемые вручную или через СУБЗ) и кибернетические знания (технологические, конструкторские или системные), которые учитываются (или не учитываются) в процессах разрешения организационных проблем. СеГ ориентирована на все эти виды знаний. Сложность здесь вызвана тем, что переход от представлений различных видов знания к алгоритмическому знанию приводит к потере части знания. Например, было задано программисту решить задачу об устойчивости двух фирм. У программиста имеется некоторое понимание метода решения этой задачи, поэтому он проявляет инициативу и решает задачу подходящим образом, не задумываясь над огромными материалами о деятельности фирм. Другой подход состоит в том, чтобы сообщить знания всех видов Интелсис и сформулировать ему задание в пользовательской постановке.
  1   2   3   4

Похожие:

А. А. Красилов Язык и знание. Семантическая грамматика русского языка iconУчебной дисциплины (модуля) Наименование дисциплины (модуля) История русского языка (историческая грамматика русского языка, история русского литературного языка) Рекомендуется для направления подготовки
«Историческая грамматика русского языка» изучается после курсов «Введение в языкознание», «Старославянский язык», «Русская диалектология»,...
А. А. Красилов Язык и знание. Семантическая грамматика русского языка iconНемного о значении и употреблении повелительного наклонения видов глогола русского языка Ⅰ
Язык является орудием общения человечества. Грамматика — это одна из важнейших составных частей языковедческих наук русского яыка....
А. А. Красилов Язык и знание. Семантическая грамматика русского языка iconУчебной дисциплины (модуля) Наименование дисциплины (модуля) История русского языка (Историческая грамматика русского языка) Рекомендуется для направления подготовки
Курса «История русского языка (историческая грамматика)» соответствует Федеральному государственному образовательному стандарту по...
А. А. Красилов Язык и знание. Семантическая грамматика русского языка iconРуководство к выполнению контрольных работ по дисциплине «Историческая грамматика русского языка» для студентов заочного обучения
Историческая грамматика русского языка как научная и учебная дисциплина. Предмет и задачи курса
А. А. Красилов Язык и знание. Семантическая грамматика русского языка iconСемантическая эволюция лексической системы русского языка: тенденции, векторы, механизмы 10. 02. 01 русский язык
Семантическая эволюция лексической системы русского языка: тенденции, векторы, механизмы
А. А. Красилов Язык и знание. Семантическая грамматика русского языка iconЯзык разметки грамматических правил grrml
С использованием языка grrml размечена грамматика русского языка по словарю А. А. Зализняка. Приведены примеры использования языка...
А. А. Красилов Язык и знание. Семантическая грамматика русского языка iconНа уроках русского языка в начальной школе
М. В. Ломоносова в области языкознания, где он является основоположником. Им написана первая грамматика русского языка с систематически...
А. А. Красилов Язык и знание. Семантическая грамматика русского языка iconЗачем изучать иностранный язык?
Знание сила, а знание иностранного языка великая сила, так говорит наша учительница иностранных языков. Иностранный язык очень важный...
А. А. Красилов Язык и знание. Семантическая грамматика русского языка iconВопросы к экзамену по курсу "Историческая грамматика русского языка"
Предмет, задачи и значение исторической грамматики русского языка как научной и учебной дисциплины
А. А. Красилов Язык и знание. Семантическая грамматика русского языка iconВопросы к зачёту по курсу «Старославянский язык»
Церковнославянский язык и его региональные изводы. Роль старославянского языка в истории русского литературного языка и церковнославянское...
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org