Об одной псевдоассоциативной модели текста



Скачать 134.04 Kb.
Дата01.10.2014
Размер134.04 Kb.
ТипДокументы
Об одной псевдоассоциативной модели текста

Карпов В.Э.



karpov_ve@mail.ru

НИИ Информационных технологий, Москва

в.н.с., доц., к.т.н.


Москва, 2009
Рассматривается модель организации бинарной ассоциативной связи между лексемами, основанная на метрической оценке степени близости. Приводятся примеры применения этой модели в задаче генерации псевдолитературных текстов.

Введение


Экспериментальная информатика, как и подобает техническому направлению, основана прежде всего на попытках ответить на вопрос типа «Что будет, если ...?». Благо, в отличие от иных областей, ставить в ней эксперименты – пусть и виртуальные – значительно легче. Хотя суть от этого не меняется. Разница между вопросами «Что будет, если смешать азотную и серную кислоту, а затем добавить целлюлозы?» и «Что будет, если посчитать расстояние между словами в предложении?» невелика.

Настоящая статья посвящена как раз ответу на второй вопрос.

Итак, что может дать механизм, оценивающий ассоциативные (точнее, псевдоассоциативные, т.к. приставка псевдо- обычно ни к чему не обязывает, а ответственность снимает) связи между лексемами на основе всего-навсего их взаимного расположения в тесте? Без учета синтаксиса, семантики, прагматики, опираясь исключительно на лексический (или в лучшем случае – морфологический) анализ.

Будем считать, что необходимое введение в предметную область уже сделано. Обзоры многочисленных методов, обоснование важности частотно-лексических критериев, актуальность задачи с точки зрения построения автоматических анализаторов, авторефераторов и тезаурусопостроителей, а также философские рассуждения о языковых моделях мира, аксиоматических объектах и прочее оставим для большой, серьезной работы.


Суть метода


Представим анализируемый текст T в виде множества предложений Pi. (Название «предложение» здесь достаточно условно. На самом деле речь идет о некоторой смысловой единице – фразе в общем случае.)

T = {Pi}, i=1..N.

Каждое предложение – это упорядоченное множество лексем li

Pi = {li1, li2, ..., lik}.

Введем понятие величины псевдоассоциативной связи между лексемами li и lj одного предложения. Нас интересует функционал, который определяет степень близости между лексемами на основе анализа их взаимного расположения. При этом желательно, чтобы степень близости находилась в интервале [0..1].

В простейшем случае этот функционал может быть определен так:



, ij (1)

Параметр  в знаменателе необходим для принудительного ослабления связи между соседними лексемами.

Теперь можно определить бинарные псевдоассоциации между лексемами уже на множестве предложений, т.е. на тексте. Для этого применяется следующая итерационная процедура.


  • Берется очередное предложение текста Pi.

  • Пусть на предыдущем шаге между лексемами A и B была установлена связь r'(A, B).

Если анализ Pi дает по формуле (1) между этими лексемами степень близости r''=r(A, B), то результирующее значение бинарной псевдоассоциации можно определить как

r(A, B) = r'+r''-r'r'' (2)

Это, во-первых, гарантирует сохранение итоговой оценки близости в интервале [0..1], а во-вторых – монотонно увеличивает степень связи между лексемами по мере того, как они встречаются совместно по ходу анализа предложений текста.


  • Далее процесс повторяется.

Построенное таким образом множество пар бинарных псевдоассоциаций можно рассматривать как ассоциативную модель текста.

Интересно, что эта модель является работоспособной даже в самом примитивном случае, когда из текста выделяются предложения (на уровне просмотра теста до подходящего знака препинания), а лексемами объявляются последовательности символов без учета морфологии и правил словообразования.

После построения сети можно ввести слово и получить множество ассоциированных лексем. Ранжированных, например, по степени их близости. Помимо степени близости, полученной по формуле (2), можно использовать и общее количество ассоциаций для данной пары li, lj (сколько раз эти лексемы встречались вместе в одном предложении) – частоту ассоциации ij. Тогда в качестве интегральной оценки степени ассоциации можно рассматривать, скажем, произведение частоты и близости ijrij.

Здесь можно вновь вернуться к формуле (1). Принудительное ослабление степени связности связано с тем, что наибольшую близость имеют лексемы, стоящие в соседних позициях. При отсутствии параметра  соседние лексемы имели бы максимальную, единичную ассоциативную близость, даже если бы во всем тексте они встретились вместе лишь однажды. На самом деле, вместо функционала (1) можно было бы использовать и более тонкие функции – показательно-степенные или гиперболические, лишь бы обеспечивались их ограниченность и монотонность.

Следует отметить, что в [1] описывается несколько похожий механизм, однако в нем рассматриваются ассоциативные связи на основе частот повторения лексем в тексте. При этом каждое предложение рассматривается как вектор частот появления в нем лексем.

Расширения метода


Естественным улучшением предложенного механизма является использование морфологических словарей. Помимо уменьшения размера множества ассоциаций за счет исключения вариаций словоформ одной и той же лексемы, появляется возможность реализации выборочных ассоциаций. Например, можно узнать какие свойства (прилагательные) или действия (глаголы) ассоциируются с данным словом (лексемой).

Кроме того, в качестве запроса ассоциаций можно вводить множество лексем. В этом случае появляется ряд ассоциативных окрестностей, возможно - с пересечениями. Пересечение ассоциаций можно контрастировать за счет увеличения весов связей. Для этого можно использовать ту же формулу (2).

Построенная описанным выше способом сеть отражает бинарные ассоциации. Очевидно, что при желании можно рассматривать и более сложные, транзитивные ассоциации. Например, если между лексемами A и B существует связь rAB, между B и C существует связь rBC, а между A и С непосредственных ассоциаций нет (эти лексемы ни в одном предложении не встречались вместе), то естественным было бы установление связи

rAC=rABrBC

Эксперименты


Суть экспериментов заключалась в определении того, какие ассоциации на один и тот же ряд слов возникают у различных авторов. Исследуемыми произведениями являлись стихи Б. Окуджавы (Поэтический сборник 97), повесть М.Пришвина «Кладовая солнца», а также два произведения В.Шукшина - сказка «До третьих петухов» и повесть «Печки-лавочки». Ассоциируемым рядом – стандартный набор: «женщина», «любовь», «плакать», «жизнь», «смерть», а также пара «жизнь+смерть».

Далее приведены некоторые псевдоассоциации, разбитые по категориям: глаголы, прилагательные и существительные.


Булат Окуджава. Поэтический сборник 97.

ЖЕНЩИНА

  • любить, строгать, глядеть, плакать, подарить, красть, щуриться, гореть, потерять, очаровать, поминать, полюбить, излететь

  • величество, сердце, муж, тревога, лапка, лик, тень, вдова

ЛЮБОВЬ

  • вечный, старый, суетливый, счастливый, долгий, дешевый, короткий, верный, чистый, высокий, молчаливый, сезонный, рядовой, легкий

  • стоить, выбрать, спать, восславить, возвращаться, поверить, удивить, рифмоваться, касаться, осыпаться, прокричать, умереть, соседствует, ждать, прибавить, настроить, уместиться, говорить, нарисовать

  • часовой, управление, разлука, мир, дорога, музыка, надежда, слово, ласка, кровь, сердце, тягота, слабость, мистерия, беда, слава, арбат, горе, подруга, вера, награда, природа, восторг, цена, май, смерть, ум, печаль, штука, пуля, злоба, момент, юность, даль, тревога, венок, удел, грусть

ПЛАКАТЬ

  • тихий, маленький, упорный

  • смеяться, улететь, уйти, пить, горевать, тосковать, грезить, радоваться, кричать, пожить

  • дети, женщина, девочка, шарик, девушка жених, муж, старушка, поэт, мария, пот, барабанщица, труд, пикник

ЖИЗНЬ

  • короткий, прекрасный, странный, длинный, довоенный, земной, тихий

  • любить, кроить, загадать, кончить, даваться, оплакать, укорачивать, учить, оскудеть, играть, проноситься, звать, встретить, течь таять, дорожить, спрашивать, жаждать

  • песенка, охотник, земля, смерть, поэма, бог, выбор, слава, минута, праздник, дым, надежда, дама, дурак, господин

СМЕРТЬ

  • славный, геройский, голодный

  • распахнуть, накрыть, предчувствовать, касаться, бранить, гулять, пророчить, звать

  • жизнь, горе, любовь, муж, крыло, враг

ЖИЗНЬ+СМЕРТЬ

  • короткий, прекрасный, странный, длинный, славный, геройский, голодный, довоенный, тихий

  • звать, любить, кроить, загадать, кончить, распахнуть, накрыть, предчувствовать, бранить, гулять, оплакать, учить, оскудеть, играть, проноситься, пророчить, таять, дорожить, жаждать

  • песенка, охотник, земля, поэма, бог, выбор, горе, слава, минута, праздник, любовь, пол, муж, дым, надежда, дама, дурак, враг, щека, господин, супруг


М.М.Пришвин. «Кладовая солнца»

ЖЕНЩИНА

  • бывать, нападать

ПЛАКАТЬ

  • горький

ЖИЗНЬ

  • дикий

  • мочь, прилетать, переть, окончить

ЖИЗНЬ+СМЕРТЬ

  • дикий

  • мочь, прилетать, переть, окончить

  • несчастная

  • лес, антипыч

Василий Шукшин. «До третьих петухов» + «Печки-лавочки»



ЖЕНЩИНА

  • смешливый

  • выйти, продолжать, подождать, подстегнуть, спросить, молвить

  • беременная, болтливость, врач

ЛЮБОВЬ

  • местный

ПЛАКАТЬ

  • плясать, сказать

ЖИЗНЬ

  • семейный, привольный, нормальный, ритмичный, тихий

  • наладить, звать, думать, танцевать, начаться

  • друг, мелочь

ЖИЗНЬ+СМЕРТЬ

  • семейный, привольный, нормальный, ритмичный, тихий

  • наладить, звать, думать, танцевать, начаться

  • мелочь

МУЖИК

  • рослый, золотой, хороший, хитрый

  • петь, приманивать

  • город, история, хороший

Первым очевидным выводом является необходимость построения ассоциативных сетей для отдельных текстов. Либо, в худшем случае, для отдельных авторов. Построение сети для целого множества текстов может привести к вырождению ассоциаций: статистически в «очень большой» сети каждая лексема так или иначе найдет ассоциацию.

Это тем более важно, что подобная процедура позволяет, в частности, определять специфику «авторского» текста (см. довольно неожиданные ассоциации у того же Б.Окуджавы).

Насыщенность сети очень сильно зависит от формы выражения мыслей, т.е. строения предложений. Скажем, стихотворные произведения зачастую строятся из коротких предложений, на которых просто невозможно строить ассоциации (А.Блок. «Ночь. Улица. Фонарь. Аптека…»). Здесь имело бы смысл в качестве основной единицы выбирать не предложение, а четверостишие. Тем не менее, проанализированные стихи Окуджавы имеют явно большую ассоциативную насыщенность, нежели проза Пришвина и Шукшина. Отчасти это может быть объяснено, видимо, как большей повторяемостью парных лексем, так и тем, что выбранные поисковые слова (женщина, любовь и т.п.) просто чаще повторяются у поэтов.

Выявленные ассоциации позволяют не только анализировать текст, выявляя, скажем, манеру и стиль автора, но и создавать стилистические подражания. Например, задавая структуру предложения, можно получить его «авторскую» реализацию.

В [2], [3] приведены примеры того, как из структуры (ПРИЛСУЩГЛПРЕДЛ(ПРИЛ, СУЩ)), в зависимости от требуемой минимальной степени связности (ассоциативной близости), могут получаться различные варианты. Например, эта структура для степени связности в 0.1 для сети текста Тургенева «Муму» порождала фразу



«Богатырская сила подействовала через крепкую думу».

То же, но при степени 0.15:



«Богатырская сила подействовала через старшую приживалку».

А при 0.5 это превращалось в



«Богатырская кровать находилась в особенном внимании».

Имея генератор структур фраз (синтаксический анализатор), можно получать множество фраз. Например, сугубо «тургеневских»:



О силе второпях и между

Ну только это так, одна собака

Сила подействовала и косила так

Ну что, зрелый брат, промолвил Степан

Такова ходила сила через старшую приживалку умильную

Сила работала в одинокой избе

Такова ходила молва о богатырской силе немой

Подобного рода фразы хороши для названий, эпиграфов, белых стихов и прочих случаев, когда требуется либо домысливать за автором, выискивая сокровенный смысл, либо достаточно осознания красоты и неожиданности образов.


Об одном применении


В [2] и [3] описана система генерации псевдолитературных произведений - текстов на основе словарно-шаблонного механизма. Используя базу данных шаблонов, система позволяла генерировать сказки, детективы, «сериальные» истории. Одной из задач при построении такого генератора являлось получение не схематического, а почти законченного текста, с авторскими отступлениями, эпитетами и проч. При этом в качестве авторского художественного наполнения использовалась предложенная модель бинарных ассоциаций между лексемами.

Более того, была предпринята попытка придания тексту не только художественного вида, но и своего рода авторского стиля.

Для этого на основе ряда литературных текстов строились ассоциативные сети, используемые при построении авторского стиля. Например, на основе ассоциативной сети, построенной по тексту Тургенева «Муму», можно определить, какие, скажем, наречия ассоциированы с тем или иным глаголом. И тогда мы получим тексты вида

«От огорчения СКОРО умер Глухой Колобок.

И, ТЯЖЕЛО смеясь, пошел Чебурашка дальше.

ВСЕГДА получал Чебурашка то, чего НИКОГДА [не] хотел»

Подчеркнем еще раз, что здесь глаголы берутся из шаблонов, а наречия генерируются системой исходя из имеющейся ассоциативной сети.

То же касается и подбора соответствующих существительным прилагательных и т.п. На этом может быть основано внедрение в макетный текст различного рода эпитетов и прочих художественных дополнений.

В [2], [3] детально описывается структура шаблонов, из которых строится текст, а также методы построения сюжетных линий. Ниже приведен пример одного из порожденных системой эпизодов.



А время продолжало свой неумолимый бег...

Далека дорога от каракум до леса. В лесу было тихо и спокойно.

Восьмого марта Посмотрела сильная Василиса Прекрасная - сидит глупый Соловей-Разбойник.

В глазах Соловья-Разбойника мелькнула тревога.

А что дальше было? А вот что.

Как начала Василиса Прекрасная кричать на Соловья-Разбойника.

Сильно расстроился Соловей-Разбойник. Василиса Прекрасная улыбнулась.

При построении этого текста системой выбирался ряд шаблонов по определенным правилам. В частности, шаблон описания перемещения:



; Универсальный переход

link { "", ""

{"Далека дорога от до ."

"Не легок путь от до ."

"От до пришлось добираться на попутках."}}

Или шаблон описания встречи персонажей:



tmeet { +-, AB,

{ "Как <начать.A> кричать на .\n

Сильно <расстроиться.B> ."

}}

Очевидно, что, имея подобного рода шаблоны, вполне реально генерировать не только тексты, но и сценарии для последующей автоматической анимации или хотя бы иллюстрирования полученного произведения.

Вот пример сгенерированного фрагмента сценария, соответствующего вышеприведенному тексту

Текст "Эпизод 2."

; место_отправки(Каракумы)

Текст "А время продолжало свой неумолимый бег..."

Текст "Далека дорога от каракум до леса."

Текст "В лесу было тихо и спокойно."

Текст "Восьмого марта"

Фон "Лес"

; время (Восьмого марта)

Слева "Василиса Прекрасная"

Справа "Соловей-Разбойник"
ИдтиКЦентру "Василиса Прекрасная"

ИдтиКЦентру "Соловей-Разбойник"

Имеет "Соловей-Разбойник" "Волшебный кубок"

Текст "посмотрела сильная Василиса Прекрасная - сидит глупый Соловей-Разбойник.\n В глазах Соловья-Разбойника мелькнула тревога."

ЖдатьОстановки

Текст "А что дальше было? А вот что."

Текст "Как начала Василиса Прекрасная кричать на Соловья-Разбойника.\n Сильно расстроился Соловей-Разбойник."

Ударить "Василиса Прекрасная" "Соловей-Разбойник"

Текст "Василиса Прекрасная улыбнулась."

ИдтиНаправо "Василиса Прекрасная"
КонецЭпизода

Жирным шрифтом выделены управляющие команды сценария. Для его проигрывания, разумеется, необходимо иметь некую библиотеку изображений – персонажей, мест действия, имеющихся предметов и т.п. Ниже приведен кадр из подобного рода «мультипликационного» фильма.



Разумеется, изображение достаточно схематичное, однако «естественность» движений и развитость выразительных средств – это уже вопрос сугубо технический.


Заключение


Описанный метод генерации текстов, анимация и прочая автоматизация псевдолитературного труда – это, конечно, лишь некий эффектный казус. Гораздо интереснее ответить на вопрос, что может дать модель бинарных ассоциаций между лексемами, каковы возможные применения это модели.

И здесь автору остается только выразить надежду в том, что найдется психолингвист, который сможет обосновать связь между мыслью, моделью мира и способом их выражения, в том числе – способом взаимной расстановки слов в предложении. Или когнитолог, могущий увидеть в графическом изображении псевдоассоциативной сети какие-нибудь закономерности. Или специалист в области автоматического тезаурусо- , онтолого- или автореферато- строения. Или нейро-, психо- лингвистический программист. Или эксперт-литературовед, наконец.



Вот тогда можно было бы обосновать предложенный механизм с предметно-методологической точки зрения. И главное – объяснить, зачем все это было нужно и что можно отсюда извлечь.

Литература


  1. Чанышев О.Г. Ассоциативная модель естественноязыкового текста //Вестник Омского университета, 1997, Вып. 2. С. 17-20

  2. Карпов В.Э., Мещерякова Т.В. Об автоматизации нетворческих литературных процессов //Информационные технологии №8, 2004. с.56-63.

  3. Карпов В.Э. Об одном методе генерации псевдолитературных произведений //Труды Девятой национальной конференции по искусственному интеллекту с международным участием, т.2, М.Физматлит, 2004, с.794-808







Похожие:

Об одной псевдоассоциативной модели текста iconОт модели реферата к модели понимания текста
Причем не развернутого, информативного, а сжатого, индикативного и лишь научных текстов
Об одной псевдоассоциативной модели текста iconТ. А. ван Дейк и В. Кинч стратегии понимания связного текста глава I. К созданию модели стратегической обработки связного текста исследование
Новое в зарубежной лингвистике. Вып. ХХIII. Когнитивные аспекты языка. – М.: Прогресс. 1988. – 320 с
Об одной псевдоассоциативной модели текста iconПрочитайте текст, состоящий из 6 частей ( a-f). Перед вами 5 вопросов (1-5) к разным частям текста. Установите в каких частях текста можно найти ответы на эти вопросы
Установите в каких частях текста можно найти ответы на эти вопросы. Ответ на каждый вопрос можно найти только в одной части текста....
Об одной псевдоассоциативной модели текста iconИсследование одной модели водонефтяных слоистых структур
Теоретическое и численное исследование одной модели водонефтяных слоистых структур
Об одной псевдоассоциативной модели текста iconВосстановление модели объекта по его снимкам
С одной стороны известно [1], что точное решение невозможно, но, во-первых, имеется не просто набор проекций, а снимки сделанные...
Об одной псевдоассоциативной модели текста iconМетодика формирования умений продуцирования связного высказывания на основе интегративной модели анализа лирического текста у учащихся 6 класса общеобразовательной школы 13. 00. 02 теория и методика обучения и воспитания (русский язык)
Методика формирования умений продуцирования связного высказывания на основе интегративной модели анализа лирического текста у учащихся...
Об одной псевдоассоциативной модели текста iconРекомендации по сборке модели-копии броненосца «Петр Великий»
В модели применена поблоковая сборка. Все детали относящиеся к одному блоку обозначены одной и той же начальной цифрой. Детали, относиящиеся...
Об одной псевдоассоциативной модели текста iconМатематические модели демографии
Соотношение между математическими моделями, методами и реальностью. Стохастические и детерминированные модели. Модели Мальтуса и...
Об одной псевдоассоциативной модели текста iconВиари и Керкгоффс в 1888 г офицер французской армии маркиз де Виари
Виари в одной из своих научных статей, посвященных криптографии, обозначил греческой буквой X любую букву шифрованного текста, греческой...
Об одной псевдоассоциативной модели текста iconВ современном мире реклама играет весьма существенную роль и во многом определяет векторы и динамику развития общества
Коммуникативные модели рекламного текста в средствах массовой информации
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org