Концептуальные положения создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации



Скачать 139.19 Kb.
Дата09.07.2014
Размер139.19 Kb.
ТипДокументы
Концептуальные положения

создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации

Состояние проблемной области

В настоящее время исследования в области автоматической обработки текстовой информации активно проводятся многими государственными и коммерческими организациями практически всех развитых стран. Целью данных исследований является создание семантических анализаторов текстовой информации для основных языков.

Вопросы создания поисковых систем до настоящего времени решаются с минимальным участием лингвистов. Это обусловлено использованием при решении вышеупомянутых задач в основном статистических методов. Несмотря на это, за долгие годы четко определились области, в которых наиболее сильны позиции профессиональных лингвистов. Это лексико-грамматический анализ предложения, синтаксический анализ предложения, нахождение имен собственных в тексте и автоматическое реферирование.

Реализация полного лингвистического анализа текстовой информации предполагает решение следующих задач:

- лексического анализа;

- морфологического анализа;

- синтаксического анализа;

- семантического анализа.

Перечень данных задач упорядочен по логическим этапам реализации полного лингвистического анализа текстовой информации. Каждая последующая задача является более трудоемкой, по сравнению с предыдущими, что обусловлено возрастающей сложностью ее формализации. Реализация задач лингвистического анализатора зависит от особенностей обрабатываемого (обрабатываемых) языков, на которых изложена текстовая информация.

Таким образом, перспективные поисковые системы (машины) должны включать в свой состав программно-технические комплексы, реализующие полный перечень задач лингвистического анализа текстовой информации (см. рис. 1).

Лучшие из существующих поисковых систем выполняют функции морфологического анализа текстовой информации (как индексируемых текстов, так и запросов пользователей), а также выполняют отдельные элементы синтаксического анализа предложений. Алгоритмы работы существующих поисковых систем основаны на поиске в заранее проиндексированных текстах ключевых слов. Запрос пользователя поисковой системы состоит из ключевых слов, и может включать в себя управляющие символы формализованного языка запросов. Использование языка запросов обеспечивает более точные результаты поиска, однако, требует от пользователя его знания. Язык запросов для каждой поисковой системы уникален, поэтому на практике пользователи редко им пользуются. Это обуславливает снижение качества поиска за счет увеличения количества найденных документов с неадекватной информацией и необходимости их последующего просмотра и анализа.


Синтаксический анализ текстовой информации позволяет выделить семантические элементы предложения - именную группу, терминологическое целое, предикативную основу. Это позволяет повысить интеллектуальность процесса обработки тестовой информации на основе обеспечения работы с более обобщенными семантическими элементами.

Реализация семантического анализа текстовой информации предполагает обязательное использование экспертных систем, систем искусственного интеллекта для выявления семантики информации. В настоящее время отсутствуют сложившиеся подходы к реализации задачи семантического анализа текстовой информации, что во много обусловлено недостаточно полной проработкой научного направления создания систем искусственного интеллекта.

Существующие технологии лингвистической обработки текстовой информации

Лексический анализ заключатся в разборе текстовой информации на отдельные абзацы, предложения, слова, определении национального языка изложения, типа предложения, выявлении типа лексических выражений (бранных, жаргонных слов) и т.д. Он не представляет существенной сложности для реализации.

1. Морфологический анализ (Part-of-Speech-tagging)

Задача морфологического анализа - автоматически распознать, какой части речи принадлежит каждое слово тексте (каждому слову поставить в соответствие лексико-грамматический класс).

Данная задача может быть выполнена для русского языка практически со стопроцентной точностью благодаря его развитой морфологии. В английском языке простой алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс (синтаксическую часть речи) работает с точностью около 90 %, что обусловлено лексической многозначностью английского языка. Для проведения морфологического анализа русскоязычных текстов обычно используется компьютерная версия грамматического словаря Зализняка, а для проведения морфологического анализа англоязычных текстов используется компьютерная версия грамматического словаря Мюллера. Для улучшения точности морфологического анализа в случае определения частей речи многозначных слов используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах, оперирующих словами и кодами.

Большинство вероятностно-статистических алгоритмов использует два источника информации:

1. Словарь словоформ языка, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься у данной словоформы.

2. Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели.

Алгоритмы, основанные на продукционных правилах, используют правила собранные автоматически с корпуса текстов, либо подготовленные квалифицированными лингвистами.

Оба подхода дают примерно одинаковый результат. При их использовании раздельно, либо в различных комбинациях, точность лексико-грамматического анализа улучшается до 96-98 %. Поскольку точность при лексико-грамматическом анализа текста вручную также имеет определенную погрешность (0,5-2 %), можно считать, что точность лексико-грамматического анализа в автоматическом режиме достигла практически точности лексико-грамматического анализа в ручном режиме.

2. Синтаксический анализ (Text Parsing)

В отличие от морфологического анализа текста, синтаксический анализ - развивающаяся область прикладной лингвистики. Цель синтаксического анализа - автоматическое построение функционального дерева фразы, т.е. нахождение взаимозависимостей между разноуровневыми элементами предложения. Считается, что, имея успешно построенное функциональное дерево фразы, можно выделить из предложения смысловые элементы: логический субъект, логический предикат, прямые и косвенные дополнения и различные виды обстоятельств. Существует большое количество различных количество подходов к синтаксическому анализу текстов, которые реализованы в следующих программных продуктах:

- Ergo Linguistic Technologies Parser;

- Functional Dependency Grammar;

- Link Parser,

- Star4Win (STARLING).

В последнее время над задачами синтаксического анализа предложения работает множество исследовательских групп, и на настоящий момент можно считать, что в рамках синтаксического анализа предложения частично решена и уже нашла применение в производстве задача автоматического выделения именных групп. Что же касается полного синтаксического разбора предложения, данная проблема в полном объеме в настоящее время еще не решена.

3. Семантический анализ

Целью семантического анализа является определение информативности текстовой информации и выделение наиболее важной информации из обрабатываемого текста. Проведение автоматизированного семантического анализа текста предполагает решение задачи выявления и оценки смыслового содержания текста. Данная задача является трудно формализуемой вследствие необходимости наличия совершенного аппарата экспертной оценки качества информации. Это, в свою очередь, требует наличия априорно в самой системе семантического анализа гигантского объема полной информации по оцениваемым рубрикам для проведения оценки смыслового содержания текста. Таким образом, теряется всякий смысл создания поисковой системы, которая должна иметь в своем составе полную информацию по достаточно широкому кругу оцениваемых рубрик, и которая будет осуществлять оценку смыслового содержания индексируемых документов. Это обусловлено тем, что поисковая система перерождается в громоздкую энциклопедическую систему оценки информативности индексируемых текстов.

Поэтому, семантический анализатор поисковой системы должен обеспечивать выделение смысловой информации индексируемых текстов на основе обобщенного критерия о встречающихся именных группах, группах терминологических целых, предикативных основах в условиях отсутствия априорно полной информации по оцениваемым рубрикам.

В настоящее время отсутствуют поисковые системы, реализующие в данном понимании семантический анализ текстовой информации.

При создании поисковых систем, основанных на рубрикаторах могут быть использованы алгоритмы автоматического реферирования текстовой информации (Automatic Text Summarization). На рынке присутствует очень небольшое количество традиционных программ реферирования, то есть таких, которые выделяют наиболее весомые предложения из текста используя статистические алгоритмы, либо слова-подсказки (Inxight Summarizer, Extractor, TextAnalyst).

Таким образом, в настоящее время не решена задача создания поисковой машины, реализующей в полном объеме лингвистическую обработку текстовой информации.
Предложения по созданию интеллектуальной технологии лингвистической обработки текстовой информации в поисковых системах

В отличие от существующих поисковых систем интеллектуальная технология лингвистической обработки текстовой информации предполагает реализацию этапов лексического, морфологического, синтаксического и семантического анализа.

Лексический анализ текстовой информации заключатся в разборе абзацев, предложений, слов текста, определении кодировки текста (национального языка изложения), типа предложения, выявлении типа лексических выражений (исключении бранных, жаргонных слов).

В существующих поисковых системах морфологический анализ используется для поиска ключевых слов во всех возможных значениях словоформ. В наиболее совершенных существующих поисковых системах (например, Яndex) обеспечивается возможность эвристического подбора возможных словоформ для неизвестных слов. В интеллектуальной поисковой системе этап морфологического анализа используется также для определения частей речи для индексируемых слов текстовой информации. При обработке запроса пользователя на этапе морфологического анализа производится поиск синонимов и тематически связанных слов.

Так как в существующих поисковых системах реализован поиск текстовой информации на основе ключевых слов или формализованного языка запросов, то синтаксический и семантический анализ практически не используется. В интеллектуальной поисковой системе этап синтаксического анализа используется для определения членов предложения, а также для выделения семантических элементов предложения (именной группы, терминологического целого, предикативной основы). При этом этап семантического анализа используется для оценки релевантности проиндексированных текстов запросу пользователя.
Новые качества интеллектуальной поисковой системы:

  1. Обработка запроса пользователя, представленного на естественном языке.

  2. Повышение релевантности результатов поиска запросу пользователя на основе учета семантики запроса и синтеза ответа поисковой системы.

  3. Обеспечение поиска с учетом смыслового содержания многозначных слов.

  4. Реализация поиска с учетом синонимов и тематически связанных слов.

  5. Обеспечение автоматической интегральной оценки семантического смысла проиндексированной текстовой информации.

  6. Возможность автоматического перевода запроса пользователя с естественного языка на формализованные языки запросов существующих поисковых систем.


Новым в технологии создания интеллектуальной поисковой системы является:

- реализация диалога интеллектуальной поисковой системы с пользователем в ходе оценки введенного им запроса и формирования ответа системы;

  • использование словаря синонимов и словаря смыслового содержания многозначных слов на этапе морфологического анализа;

  • реализация разработанных уникальных алгоритмов лексического, морфологического, синтаксического и семантического разбора текстовой информации, а также интегральной оценки релевантности семантического смысла проиндексированной текстовой информации запросу пользователя.


Издержки интеллектуальной поисковой системы

  1. Более сложный алгоритм функционирования лингвистического процессора (по сравнению с существующими поисковыми системами) требует несколько больших затрат вычислительных ресурсов. Однако, основные затраты вычислительных ресурсов (времени обработки) приходятся на этап индексирования текстов, который проводится заблаговременно в фоновом режиме (на этапе накопления индексированной информации в поисковой системе).

  2. Немного большие затраты памяти для хранения проиндексированных текстов.


Уверенность в достижении цели основана на следующем.

  1. Разработаны основные алгоритмы реализации всех этапов (морфологического, синтаксического, семантического) обработки текстовой информации.

  2. Реализованы в модели лингвистического процессора уникальные алгоритмы лексического, морфологического, синтаксического и семантического разбора текстовой информации.

  3. Реализован уникальный морфологический словарь интеллектуальной поисковой системы, включающий в себя словари синонимов, однокоренных слов и смыслового содержания многозначных слов.

  4. Реализованы алгоритмы индексации текстовой информации и ведения баз данных проиндексированных текстов.

  5. Реализованы алгоритмы интегральной оценки релевантности семантического смысла проиндексированной текстовой информации запросу пользователя.

  6. Проведена сравнительная оценка функциональных характеристик разработанной интеллектуальной поисковой системы с наиболее известными существующими поисковыми машинами (см. приложение).


Оценка затрат на развитие, поддержку и эксплуатацию интеллектуальной поисковой системы.

1. Затраты на развитие интеллектуальной поисковой системы определяются целесообразностью проведения следующих работ:

- совершенствование реализованных уникальных алгоритмов функционирования интеллектуальной поисковой системы для повышения эффективности ее функционирования;

- разработка программных комплексов интеллектуальной поисковой системы для различных операционных систем;

- разработка программных комплексов интеллектуальной поисковой системы для различных национальных языков.

2. Затраты на поддержку интеллектуальной поисковой системы определяются целесообразностью проведения следующих работ:

- реализация программных доработок по рекомендациям системных аналитиков;

- проведение рекламной и маркетинговой политики;

- регистрация и поддержка доменного имени сервера интеллектуалной поисковой машины.

3. Затраты на эксплуатацию интеллектуальной поисковой системы определяются целесообразностью проведения следующих работ.

- организация функционирования интеллектуальной поисковой системы (организационные и технические мероприятия, такие как, например, содержание штата сотрудников, восстановление технического ресурса интеллектуальной поисковой системы);

- пополнение морфологического словаря интеллектуальной поисковой системы;

- индексация актуальной, наиболее семантически значимой текстовой информации интернет-серверов.
Технико-экономическое обоснование перспективности проекта

Коммерческая перспектива проекта создания интеллектуальной поисковой системы состоит в высокой прибыльности инвестиций в высокотехнологичные разработки и в небольших сроках окупаемости затрат на создание интеллектуальной поисковой системы.
Принципы построения иноязычных версий интеллектуальной поисковой системы.

1. Правовые.

Патентование технологии построения ИИПС.

Лицензирование использования патента и товарного знака.

2. Организационные.

Учреждение национальных компаний (фирм) с правом использования лицензий на защищенную патентом технологию ИИПС.

Отработка организационной структуры подразделений:

  • разработки, развития и эксплуатации;

  • коммерческих;

  • служб сопровождения (доменных имен) функционирования национальных ИИПС в составе Интернет.

3. Производственные.

  • наше методическое руководство;

  • передача национальным компаниям общих компонент технологии создания ИИПС (программных оболочек лингвистического анализа, программных оболочек системных словарей, индексирования текстовой информации, систем управления базами знаний и базами данных, синтеза ответа системы и оценки релевантности информации запросу пользователя).

  • разработка силами национальных компаний национальных морфологических словарей, баз знаний синтаксического и семантического анализа;

совместная разработка модулей лексического анализа текстов.

Концептуальные положения создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации
Для создания полного комплекта программного обеспечения (ПО) поисковой машины необходимо разработать следующие программные компоненты:

- ПО лингвистического процессора;

- ПО поискового сервера;

- ПО системы управления базами данных индексированных текстов;

- ПО индексатора текстов (spider);

- сервисное ПО.
Для реализации семантической обработки текстовой информации лингвистический процессор должен включать в свой состав:

- лексический сервер;

- морфологический сервер;

- синтаксический сервер;

- семантический сервер;

- словарь исключаемых слов;

- морфологический словарь индексируемых текстов (включая вложенные словари синонимов, однокоренных и тематически связанных слов);

- подсистему логического вывода;

- базу знаний лингвистического процессора.
Этапы создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации

Основным элементом поисковой машины, во многом определяющем ее характеристики, является лингвистический процессор. Поэтому первоочередной задачей является создание лингвистического процессора, реализующего задачи лексического, морфологического, синтаксического и семантического анализа. Задачу создания поисковой машины целесообразно разбить на два этапа. На перовом этапе необходимо создать действующую модель лингвистического процессора, а на втором этапе реализовать полнофункциональную версию программного обеспечения лингвистического процессора в составе поисковой машины. Более детально содержание этапов создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации представлено в плане работ.

Использование интеллектуальной технологии лингвистической обработки текстовой информации в поисковых системах позволит обеспечить повышение качества их функционирования.






Похожие:

Концептуальные положения создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации iconИстория развития программного обеспечения
Сотворение компьютерного мира. Вы будете одними из творцов виртуального мира. Вы наверняка знаете много имен тех людей которые приложили...
Концептуальные положения создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации iconКодирование текстовой информации
Для представления текстовой (символьной) информации в компьютере используется алфавит мощностью 256 символов. Один символ из такого...
Концептуальные положения создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации iconКодирование текстовой информации
Для представления текстовой (символьной) информации в компьютере используется алфавит мощностью 256 символов. Один символ из такого...
Концептуальные положения создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации iconКонспект урока по ивт в 9 классе «Кодирование текстовой информации»
Создать у учащихся полное представление о кодировании текстовой информации в компьютере
Концептуальные положения создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации iconДоклад система персонализации функциональности и интерфейса портала предоставления финансовой информации «Reuters Knowledge»
В сфере создания и продажи программного обеспечения, существует понятие персонализации программных систем
Концептуальные положения создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации iconПодход развивается в проекте eContent, который направлен на обработку естественно-языковой текстовой информации
Київ-187, проспект Академіка Глушкова, 40, Інститут програмних систем нан україни
Концептуальные положения создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации iconИнтегрированная среда разработки программного обеспечения Visual Basic, Borland Delphi
Интегрированная) среда разработки программного обеспечения (англ. Ide, Integrated development environment) — система программных...
Концептуальные положения создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации iconРазработка общего программного обеспечения
Такая последовательность может, например, состоять из ввода некоторой текстовой последовательности, нажатии определенной последовательности...
Концептуальные положения создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации iconВсего по плану 72 часа занятий, из них 36 часов аудиторных занятий (6 дней по 6 часов ежедневно), 36 часов самостоятельной работы (с общением по электронной почте с тьютором)
Целью проекта является создание и развитие национальной системы, обеспечивающей высокопрофессиональными кадрами отечественную сферу...
Концептуальные положения создания программного обеспечения поисковой машины, реализующей морфологическую, синтаксическую и семантическую обработку текстовой информации iconСпецкурс "Архитектура распределенных систем программного обеспечения "
Понятие распределенных систем программного обеспечения. Виды и свойства распределенных систем программного обеспечения. Виды архитектуры...
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org