Учебно-методический комплекс по дисциплине « дв3» «Компьютерные технологии в лингвистических исследованиях»



Скачать 438.59 Kb.
страница1/2
Дата26.07.2014
Размер438.59 Kb.
ТипУчебно-методический комплекс
  1   2
Министерство образования и науки Российской Федерации

Федеральное государственное бюджетное образовательное учреждение


высшего профессионального образования
«Армавирская государственная педагогическая академия»

Кафедра информатики и информационных технологий обучения



Учебно-методический комплекс по дисциплине
«М1.ДВ3» «Компьютерные технологии в лингвистических исследованиях»

(шифр) (наименование дисциплины)

Направление подготовки 035700.68 «Лингвистика»
Магистерская программа «Германские языки. Теория текста: лингвистический анализ и интерпретация»

Составитель: Неверов А.В.


Утверждено на заседании кафедры

информатики и информационных технологий обучения

Протокол №___от

Зав. кафедрой__________________Бельченко В.Е.

Армавир, 2012
Обоснование УМК

Учебно-методический комплекс по дисциплине «Компьютерные технологии в лингвистических исследованиях» разработан в соответствии с требованиями ФГОС ВПО (вариативный компонент) к обязательному минимуму содержания и уровню подготовки дипломированного выпускника и предназначен для студентов, обучающихся по направлению 035700.68 «Лингвистика».

Учебно-методический комплекс дисциплины рекомендован к утверждению учебно-методической комиссией на заседании кафедры информатики и информационных технологий обучения от «_____» ___________ 20__ г., протокол № __.

Автор (составитель): доцент Неверов А.В.


Рецензенты: ______________________________________
------------------------------------------------------------------------------------------------------------
Учебно-методический комплекс дисциплины утвержден

на заседании Учебно-методической комиссии кафедры информатики и информационных технологий обучения

«____»_________________ 20___ г. протокол № ____

Председатель УМК __________________/ _________________________

(подпись) Ф.И.О.

Учебно-методический комплекс дисциплины согласован с руководителем программы «Германские языки. Теория текста: лингвистический анализ и интерпретация»

«____»_________________ 20___ г.

Руководитель программы


_________________/ Черкасова И.П./

(подпись) Ф.И.О.



Представление содержания УМКД

Пояснительная записка 4

Распределение часов и учебно-тематический план дисциплины 5

Список рекомендуемой литературы (основной, дополнительной) 6

РАБОЧАЯ ПРОГРАММА ДИСЦИПЛИНЫ 7

Оценка качества онлайн перевода - Translation Looks Like (TLL) 22

Исследование онлайн-переводчиков 23




Пояснительная записка


Краткая характеристика предмета изучения.
Компьютерные технологии в лингвистических исследованиях – современная, быстро развивающаяся область, возникшая вследствие растущих потребностей лингвистики во внедрении компьютерных технологий для работы с большими массивами языковых данных. На современном технологическом уровне лингвистику уже не удовлетворяют просто электронные библиотеки или полнотекстовые базы данных. Лингвисту нужны электронные корпуса, т.е. такие электронные коллекции текстов, которые: отобраны исходя из некоторых принципов, специально подготовлены и размечены, и в которых с помощью специальных программ можно искать необходимые фрагменты текста по заданным параметрам. Теоретические и практические аспекты использования информационных технологий в лингвистике и являются предметом изучения учебной дисциплины «Компьютерные технологии в лингвистических исследованиях». Здесь рассматривается компьютерная лингвистика как одно из направлений прикладной лингвистики.

Цель дисциплины: формирование у студентов компетенций необходимых при использовании компьютерных технологий в проведении лингвистических исследований.

Задачи дисциплины:

  • рассмотреть прикладную лингвистику как научное направление и место компьютерной лингвистики в ней;

  • изучить технику и практику работы с лингвистическим материалом средствами компьютерных технологий.

В результате изучения дисциплины «Компьютерные технологии в лингвистических исследованиях» студент должен:

знать / понимать

• методы и технологии, обеспечивающие общение человека с ЭВМ на естественном или ограниченном естественном языке

• методы математического моделирования в лингвистике;

• теоретические основы методов количественного анализа в лингвистике.;



уметь

• пользоваться компьютерными словарями: автоматически отыскивать по запросу словарную статью, запоминать страницы, устанавливать закладки, выполнять переходы по тексту и др.;

• пользоваться системами компьютерного перевода;

• применять методы статистических исследований в лингвистике.


Содержание курса определено требованиями Федерального государственного образовательного стандарта по направлению 035700.68 «Лингвистика», примерной основной образовательной программой, разработанной учебно-методическим объединением по образованию в области лингвистики.

Распределение часов и учебно-тематический план дисциплины


Таблица 1. Распределение трудоемкости (в часах) дисциплины

Форма обучения

Семестр, курс изучения

Объем часов

Часы аудиторных занятий:

Часы самост. работы

Форма

текущего контроля



Формы

рубежного и промежу­точного контроля



Всего

Из них:

лекций

Практич. занятий

Лабораторн занятий

Очная

1

72

24

6



20

46

зачет

тестирова­ние, контроль­ная работа

В соответствии с требованиями ФГОС ВПО в результате освоения дисциплин обучающийся должен овладеть комплексом компетенций. Выполнение этого требования проверяется при аттестации образовательной программы, в том числе путём контроля остаточных знаний обучающихся.

Таблица 2. Распределение компетенций, формируемых в ходе изучения дисциплины



Коды компетенций

Название компетенции

Форма текущего контроля качества компетенции

ОК - Общекультурные компетенции профиля




ПК-21

умеет работать с основными информационно-поисковыми и экспертными системами, системами представления знаний, синтаксического и морфологического анализа, автоматического синтеза, распознавания и понимания речи, обработки лексикографической информации и автоматизированного перевода, автоматизированными системами идентификации и верификации личности

индивидуальное задание, тестирование

ПК-22

владеет методами когнитивного и формального моделирования естественного языка и методами создания метаязыков

индивидуальное задание, тестирование

ПК-23

владеет современными методиками сбора, хранения и представления баз данных и знаний в интеллектуальных системах различного назначения с учетом достижений корпусной лингвистики

индивидуальное задание, тестирование

ПК-24

владеет современными методиками разработки лингвистического обеспечения в автоматизированных системах различного профиля

индивидуальное задание, тестирование

Список рекомендуемой литературы (основной, дополнительной)


Основная литература

  1. Марчук Ю. Н. Компьютерная лингвистика. – М.: Восток-Запад, 2006. – 320 с.

Дополнительная литература

  1. Леоньтева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы – М.:Академия, 2006. – 304 с.

Периодические издания

  1. Информационные технологии. Ежемесячный теоретический и прикладной научно-технический журнал(с приложением). ISSN 1684-6400 Подписной индекс 72656.

Интернет-ресурсы

  1. Каталог лингвистических программ и ресурсов сети Интернет. http://www.rvb.ru/soft/catalogue/catalogue.html.

Министерство образования и науки Российской Федерации

ФГБОУ ВПО «Армавирская государственная педагогическая академия»

Кафедра информатики и информационных технологий обучения



РАБОЧАЯ ПРОГРАММА ДИСЦИПЛИНЫ


«М1.ДВ3» «Компьютерные технологии в лингвистических исследованиях»

Направление подготовки 035700.68 «Лингвистика»


Магистерская программа «Германские языки. Теория текста: лингвистический анализ и интерпретация»
Степень выпускника магистр

Форма обучения очная

Армавир – 2012 г.

Лист согласования
Составитель: Неверов Александр Владимирович,
кандидат педагогических наук, доцент

Рабочая программа дисциплины (модуля) утверждена

на заседании кафедры информатики и информационных технологий обучения

«____»_________________ 20___ г. протокол № ____


Заведующий кафедрой __________________/ Бельченко В.Е./

Рабочая программа дисциплины (модуля) утверждена

на заседании Учебно-методической комиссии кафедры информатики и информационных технологий обучения

«____»_________________ 20___ г. протокол № ____

Председатель УМК __________________/ ___________________________________

(подпись) Ф.И.О.


-----------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------
Рабочая программа дисциплины (модуля) согласована с руководителем магистерской программы по направлению 035700.68 «Лингвистика», профиль «Германские языки. Теория текста: лингвистический анализ и интерпретация»

(наименование программы)

«____»_________________ 20___ г.

Руководитель программы

_________________/ Черкасова И.П./

(подпись) Ф.И.О.


1. Цели освоения дисциплины

Целями освоения дисциплины «Компьютерные технологии в лингвистических исследованиях» являются формирование у студентов компетенций необходимых при использовании компьютерных технологий в проведении лингвистических исследований.



2.Место дисциплины в структуре основной образовательной программы

Дисциплина «Компьютерные технологии в лингвистических исследованиях» относится к вариативной части общенаучного цикла.

Для освоения дисциплины студенты используют знания и умения, сформированные в ходе изучения предметной области «Информатика» на предыдущем уровне образования.

Освоение данной дисциплины является основой для последующей научно-исследовательской работе студента.

Таблица 1. Распределение трудоемкости (в часах) дисциплины

Форма обучения

Семестр

Трудоемкость

Лекции, час

Практич., час

Лаб.раб., час

СРС, час

Форма аттестации

зач.ед.

час

очная

1

5

72

6



20

46

зачет

Таблица 2. Распределение трудоемкости (в часах) дисциплины



Дидактический минимум содержания дисциплины

Содержательно-логические связи

Коды учебных дисциплин, практик



Коды формируемых компетенций

на которые опирается содержание учебной дисциплины

для которой содержание учебной дисциплины выступает опорой

Прикладная лингвистика как научное направление; компьютерная лингвистика как одно из направлений прикладной лингвистики



НИР.Б.1

ПК-21

Компьютерные словари



НИР.Б.1

ПК-21, ПК-23, ПК-24

Системы компьютерного перевода



НИР.Б.1

ПК-21, ПК-23, ПК-24

Математическое моделирование в лингвистике: метод статистического анализа



НИР.Б.1

ПК-22

Лингвостатистический метод и его особенности



НИР.Б.1

ПК-22



3. Требования к результатам освоения содержания дисциплины

Процесс изучения дисциплины направлен на формирование элементов следующих компетенций в соответствии с ФГОС ВПО магистратуры по направлению 035700.68 «Лингвистика»:



профессиональные компетенции (ПК):

ПК-21: умеет работать с основными информационно-поисковыми и экспертными системами, системами представления знаний, синтаксического и морфологического анализа, автоматического синтеза, распознавания и понимания речи, обработки лексикографической информации и автоматизированного перевода, автоматизированными системами идентификации и верификации личности;

ПК-22: владеет методами когнитивного и формального моделирования естественного языка и методами создания метаязыков;

ПК-23: владеет современными методиками сбора, хранения и представления баз данных и знаний в интеллектуальных системах различного назначения с учетом достижений корпусной лингвистики;

ПК-24: владеет современными методиками разработки лингвистического обеспечения в автоматизированных системах различного профиля.

В результате освоения дисциплины обучающийся должен:



знать / понимать

• методы и технологии, обеспечивающие общение человека с ЭВМ на естественном или ограниченном естественном языке

• методы математического моделирования в лингвистике;

• теоретические основы методов количественного анализа в лингвистике.;



уметь

• пользоваться компьютерными словарями: автоматически отыскивать по запросу словарную статью, запоминать страницы, устанавливать закладки, выполнять переходы по тексту и др.;

• пользоваться системами компьютерного перевода;

• применять методы статистических исследований в лингвистике.



владеть

  • компьютерными технологиями при проведении научных исследований.

4. Структура и содержание дисциплины «Компьютерные технологии в лингвистических исследованиях»
Таблица 3. Содержание дисциплины

№ раздела

Наименование раздела

Содержание раздела

Форма текущего контроля



Прикладная лингвистика как научное направление.

Прикладная лингвистика как научное направление. Развитие прикладной лингвистики и её достижения.

тестирование



Компьютерная лингвистика как одно из направлений прикладной лингвистики

Цель компьютерной лингвистики. Компьютерные инструменты в лингвистических исследованиях.

тестирование



Компьютерные словари

Назначение и возможности компьютерных словарей. Технология работы со словарями.

защита лабораторных работ



Системы компьютерного перевода

Назначение и возможности систем компьютерного перевода. Технология работы с системами компьютерного перевода.

защита лабораторных работ



Математическое моделирование в лингвистике: метод статистического анализа

Методы статистического анализа в научных исследованиях в лингвистике

защита лабораторных работ



Лингвостатистический метод и его особенности

Обоснование методов количественного анализа и создание алгоритмов их практического применения в лингвистике

защита лабораторных работ

Таблица 4. Тематический план по дисциплине



№ п/п

Раздел курса, темы занятий

Всего часов

Всего аудитор­ных часов

Из них

СРС

Лекц.

Лаб.



Прикладная лингвистика как научное направление.

5

3

1

2

5



Компьютерная лингвистика как одно из направлений прикладной лингвистики

5

3

1

2

5



Компьютерные словари

17

5

1

4

9



Системы компьютерного перевода

17

5

1

4

9



Математическое моделирование в лингвистике: метод статистического анализа

14

5

1

4

9



Лингвостатистический метод и его особенности

14

5

1

4

9

Итого:

72

26

6

20

46


5. Образовательные технологии

Темы, входящие в содержание курса, транслируются в форме лекций. Во время лекции укрупненные дидактические единицы передаются в экстраактивном информационном режиме для достижения глобальных целей воспитания и развития.

На занятиях лабораторного цикла каждый студент получает индивидуальное задание, направленное на формирование компетенций определенных данной рабочей программой. Во время выполнения заданий в учебной аудитории студент может консультироваться с преподавателем, определять наиболее эффективные методы решения поставленных задач. Если какая-то часть задания остается не выполненной, студент может продолжить её выполнение во время внеаудиторной самостоятельной работы.

Для оценивания результатов изучения дисциплины используется бально-рейтинговая система.



6. Содержание форм, методов, средств организации образовательного процесса

6.1.Темы(содержание) лекционных занятий

Лекция 1. Прикладная лингвистика как научное направление. Компьютерная лингвистика как одно из направлений прикладной лингвистики.

Прикладная лингвистика – это научное направление в языкознании, которое ориентировано на лингвистическое обеспечение информационных систем разных типов, т.е. на прикладные задачи – машинный перевод, компьютерное обучение иностранным языкам и т.п. От теоретической лингвистики она отличается тем, что:

- изучает не язык в его состоянии (т.е. системе), а язык в действии (т.е. в общении);

- решает конкретную прикладную задачу, создавая языковые модели, и при этом не претендует на объяснение фактов языка (как теоретическая лингвистика);

- ориентирована на конкретные подъязыки (т.е. на выборочные знания о языке), а не на весь язык в целом.

Прикладная лингвистика использует автоматическую обработку языка в его устной и письменной формах, т.е. она связана с широким использованием ЭВМ в процессе лингвистического анализа.

Большое внимание прикладная лингвистика уделяет систематизации лингвистического материала и их классификации. Поэтому развитие прикладной лингвистики и ее достижения позволили создать большие банки хранения лингвистической информации (картотеки и словари), которыми пользуются специалисты по гуманитарным наукам

В связи с этим основной особенностью прикладной лингвистики является использование новых методов анализа языка и новых приемов его описания. В частности, в прикладной лингвистике широко используются методы математики, например, статистический метод и метод моделирования, которые помогают автоматизировать процесс лингвистического исследования.

Ядром прикладной лингвистики является структурная и математическая лингвистика. Их задачей является разработка и совершенствование структурных и формальных методов анализа и описания языка.

Одним из направлений в прикладной лингвистике является компьютерная лингвистика. Ее цель – разработка методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.

При моделировании функционирования языка в тех или иных условиях, ситуациях и сферах компьютерная лингвистика ориентируется на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных. Таким образом, компьютерная лингвистика как прикладная дисциплина выделяется прежде всего по инструменту – т.е. по использованию компьютерных средств обработки языковых данных.

Важнейшие направления компьютерной лингвистики следующие:

- создание систем обработки естественного языка (например, систем обработки связного текста);

- разработка информационно-поисковых систем (документальных, т.е. в которых хранятся тексты, и фактографических, т.е. в которых хранятся факты, представленные не только в текстовой форме, то и в форме таблиц, формул и т.п.);

- создание гипертекстовых систем (т.е. множества текстов со связывающими их отношениями);

- разработка компьютерных технологий составления и эксплуатации словарей.

В рамках компьютерной лингвистики создаются специальные программы – базы данных, компьютерные картотеки, программы обработки текстов, которые позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее. Компьютерная лингвистика занимается также и машинным переводом.

Лекция 2. Компьютерные словари. Системы компьютерного перевода.

Компьютерные словари стали сегодня непременной частью личной библиотеки любого интеллигентного человека, в том числе и ученого-лингвиста. Словари и сама концепция электронной книги оказались как будто созданными друг для друга. Поэтому на сегодняшний день в магазинах имеется неплохой ассортимент компьютерных словарей иностранных языков.

Примерно за десять последних лет компьютерный словарь научился:

- сам находить нужное слово,

- заговорил,

- уместился в удобном компакт-диске,

- начал активно помогать пользователю учиться.

Вторую жизнь в электронном виде получили многие известные словари.

Новый Большой англо-русский словарь (НБАРС) объемом 250.000 слов под редакцией академика Ю.Д. Апресяна был переведен на компьютер компанией МультиЛекс в 1996 году и с тех пор неоднократно совершенствовался. Кроме этого, в программной оболочке МультиЛекс имеются: англо-русский и русско-английский словарь под редакцией О.С. Ахмановой и Е.А.М. Уилсон (40.000 слов), англо-русский словарь В.К. Мюллера (60.000 слов), русско-английский словарь под редакцией А.И. Смирницкого (55.000 слов) и коллекции специальных словарей.

Многие из популярных компьютерных словарей интересны тем, что в них можно найти географические справки, очерки о явлениях культуры и даже имена и биографии известных людей.

Компьютерный словарь может выполнять множество служебных функций.

1). Автоматически отыскивать по запросу словарную статью. Это произошло примерно в 1995-1996 годах. Сегодня работа в любом из электронных словарей начинается с "окна поиска" - строки, где достаточно набрать слово, которое вы ищете. Именно эта не очень сложная функция экономит время при использовании электронных словарей.

2). Запоминать страницы, которые вы открывали, и возвращаться по команде "Назад" туда, где вы побывали только что; следующим шагом можно вернуться туда, где были еще раньше, и так идти по своим следам, в принципе, сколь угодно долго.

3). Практически все словари позволяют "выписывать" нужные слова в "блокноты" или "ставить закладки".

3). Выполнять функцию "гипертекст". Например, словарь Апресяна в книжном варианте - англо-русский. Но электронная версия имеет дополнительную возможность: "отметив" мышкой на экране любое русское слово (или набрав его в окне поиска), мы получаем полную подборку словарных статей, где слово встречается. При переводе с русского на английский такая функция даже полезнее обычного русско-английского словаря, потому что она позволяет полнее видеть контекст.

В толковом словаре Collins смысл гипертекста иной - не случайно на его обложке стоит лозунг "Думай и говори по-английски". Толковый словарь - спутник ученика, уже перешедшего к полному погружению в изучаемый язык. Если в толковании нового слова встретилось еще одно или несколько непонятных слов, достаточно щелкнуть на любом из них мышкой, и вы переходите уже к его словарной статье. Легко и вернуться к первому слову. Так технология этого словаря позволяет прощупать и прочувствовать смысл нового слова.

У Longman'а гипертекст работает так же, только в урезанном объеме. Щелкнуть мышкой имеет смысл только на том слове, что выделено цветом - а таких обычно всего два-три в словарной статье.

Аналогичный эффект дает функция англо-русско-английского "обратного перевода" в Partner. Там после выбора русского слова на экране появляется набор его возможных английских синонимов без комментариев. Берем один - видим спектр его значений уже на русском. Вновь выбираем один перевод и так, в принципе, до бесконечности. "Обратный перевод" наглядно демонстрирует, что полных синонимов (кроме специальных терминов, конечно) в разных языках почти нет. Именно в этом и состоит "изюминка" процесса изучения новых слов…

4). Выполнять функцию текстового редактора. Так, окно поиска словарей Collins позволяет помещать для пословного разбора целые фрагменты текста, с которым вы работаете. В аналогичное окно Lingvo при определенной сноровке можно перетаскивать мышкой слова непосредственно из окна Word или другого приложения Windows.

5). Некоторые словари предлагают и другие возможности. Partner пытается найти в словарной базе даже слова, написания которых вы не знаете! Для этого в окне поиска надо набрать слово так, как вы его услышали - DOTA вместо daughter, PIS вместо peace и так далее - а программа, принимая в расчет возможные орфографические ошибки, постарается подобрать правильные варианты. После этого можно прослушать предложенные слова, выбрать похожее на то, что вы ищете, и посмотреть перевод.

6). В 1997-98 годах ведущие разработчики начали озвучивать свои словари, а примерно с 2000 года компьютерный словарь обязан быть говорящим. Где-нибудь на его экране обычно размещена кнопочка с изображением репродуктора; щелкнув мышкой по ней, можно услышать, как звучит выбранное слово.

7). Ряд словарей снабжен системой быстрого заучивания новых слов. Само собой, такая система еще не превращает словарь в учебник. Однако любой курс английского построен так, что к каждому уроку дается пригоршня новых слов - и выучить их с интерактивным словарем намного проще.

8). В компьютерном словаре пользователь может формировать "блокноты". Чтобы внести слово в "блокнот", достаточно щелкнуть по нему правой кнопкой мыши. Блокноты открываются, копируются, редактируются и удаляются как обычные компьютерные файлы.

9). Многие словари дают возможность практиковаться в произношении выбранных слов, позволяют ученику не только записывать и прослушивать собственное произношение, но и сравнить график (осциллограмму) собственной речи с дикторской.

Этапы развития компьютерного перевода

Первые программы машинного перевода появились в 50-х годах, через несколько после рождения компьютера. В это время машинный перевод был объектом научных исследований, т.е. изучались возможности машинного перевода текстов. В это время компьютерный перевод не получил еще широкого распространения. Этому две причины:

- дороговизна времени работы компьютера,

- невозможность его оперативно использовать, т.к. в это время было коллективное пользование ресурсами компьютера.

В начале 80-х годов компьютеры начали завоевывать мир, т.е. получили широкое распространение. Время их работы подешевело и доступ к ним можно было получить в любую минуту. А значит, машинный перевод стал экономически выгодным.

В эти и последующие годы стали более совершенными программы компьютерного перевода. Это позволило достаточно точно переводить многие виды текстов и активно использовать программы компьютерного перевода.

Однако некоторые проблемы машинного перевода остались до сих пор нерешенными. Поэтому современный компьютер не может дать полноценный перевод. Например, он не всегда может понять содержание текста в полной мере. Кроме того, он не понимает языковых нюансов, намеков в тексте, того, что называется тонкой игрой слов.

Принципы работы компьютерного переводчика.

Компьютерный переводчик работает следующим образом:

- предложение расчленяется на части речи,

- в нем выделяются стандартные конструкции,

- слова и словосочетания переводятся по находящимся в памяти машины словарям,

- затем переведенные части речи собираются по правилам другого языка.

Трудности машинного перевода.

Трудности машинного перевода связаны с особенностями функционирования языка. Они могут быть разного характера – стилистические, лексические, синтаксические, страноведческие, художественные.

1). Он не всегда учитывает значения, которые может иметь слово в разных стилях речи.

2) Делает ошибки в переводе слов в устойчивых словосочетаниях и фразеологизмах,

3) Не учитывает «красоты языка», т.е. дополнительные смыслы, которые возникают при изменении порядка слов.

4) Не может определить, как изменяется значение слова в зависимости от контекста.

Особенности автоматического перевода технического текста и литературного текста.

Перевод технического текста отличается от перевода литературного текста. При техническом переводе важно знать принятые за рубежом стандарты обозначений тех или иных понятий. При литературном переводе требуется получить текст, по художественной ценности максимально близкий к оригиналу.

При переводе технических текстов, если правильно выбрать словарь по специальности, к которой относится текст, то получается вполне удовлетворительный результат. Этот перевод почти не требует помощи человека. Если компьютер используется для перевода литературных текстов, то получается черновой вариант текста, так называемый подстрочник. Подстрочник превращается в произведение искусства человеком, который слабо знает язык оригинала, но является хорошим литературным редактором. При переводе художественных текстов компьютер пока не может заменить переводчика.

Современные переводные программы

Современные компьютерные переводные программы постоянно совершенствуются.

1). Современные системы машинного перевода обязательно имеют средства редактирования текстов.

2). Создаются системы компьютерного перевода с элементами искусственного интеллекта (в них имитируется мыслительная деятельность человека).

В мире существует очень много программ машинного перевода. В России наиболее распространены системы Stylus (фирма «ПроМТ») и ПАРС (фирма «Лингвистика 93»). Stylus предназначена для профессионального перевода больших объемов информации (это очень дорогая программа).

Имеется Система ПАРС. Она достаточно удобна для бытового использования и доступна (т.к. стоит недорого). К ней имеется большой набор словарей по различным темам: вычислительная техника, медицина, химия и т. Д). Эта система хорошо работает в среде Windows 3.1 и более поздних версий. Эта система имеет некоторые особенности работы.

А) Если перевод осуществляется впервые после запуска программы, перед его началом потребуется указать используемые словари. Словари выбираются в зависимости от стиля и тематики текста.

Б) системы машинного перевода могут ошибаться из-за наличия в тексте сокращений, заканчивающихся точкой. Сокращения будут перенесены в текст без перевода, и их нужно перевести вручную.

В) в переводимом тексте должны отсутствовать переносы.

Сейчас наблюдается повышение интереса к системам машинного перевода в связи с развитием Internet. Доминирует там английский язык. Для облегчения просмотра страниц Internet на незнакомом пользователю языке появились дополнительные системы, которые немедленно переводят нужные фрагменты Web¬страницы.

Лекция 3. Математическое моделирование в лингвистике: метод статистического анализа. Лингвостатистический метод и его особенности

Статистические данные – это количественные сведения о какой-либо совокупности объектов, которые имеют общие признаки, способные изменяться качественно и количественно.

Статистический метод – это комплекс приемов и принципов, согласно которым производятся сбор, систематизация, обработка и интерпретация статистических данных с целью получения научных и практических выводов.

Математическое содержание приемов и принципов статистического метода образует математическая статистика, которая является отраслью прикладной математики. Основными категориями математической статистики являются вероятность, частота, случайная величина, выборка, корреляция и др.

В традиционной статистике различаются две группы методов:

- описательные методы,

- методы оценивания.

Задача описательных методов – представить исходные данные в компактной и наглядной форме (в виде таблиц, графиков) и описать эти данные с помощью разного рода статистик (мер связи, мер концентрации, мер центральной тенденции).

Методы оценивания распадаются на две группы: методы оценивания неизвестных параметров распределения и методы проверки статистических гипотез.

Статистический метод – это универсальный метод познания действительности. Он имеет несомненные преимущества по сравнению с другими научными методами, например, такие как объективность и беспристрастность, строгость и процедурность. Поэтому метод статистического анализа в разных науках активно используется для компактного представления, анализа, обобщения и интерпретации данных наблюдения и эксперимента.

Использование статистических методов в лингвистике не является простой процедурой. Эти две науки требуют «приспособления» друг к другу. Адаптация статистического метода к решению филологических проблем осуществляется в двух направлениях:

- лингвистическое переосмысление статистических категорий (выборка, корреляция и др.);

- статистическое переосмысление лингвистических категорий («язык», «речь», «текст» и др.).

Использование метода статистического анализа требует от лингвиста владения как лингвистической проблематикой, так и аппаратом математической статистики.
Лингвостатистический метод и его особенности

В основе создания лингвостатистического метода лежит представление о том, что наука достигает совершенства лишь тогда, когда использует точные математические методы.

Теоретическое обоснование методов количественного анализа и создание алгоритмов их практического применения в лингвистике – это предмет особой отрасли науки о языке, получившей название лингвостатистики.

Суть лингвостатистического метода заключается в установлении количественных изменений, вызывающих качественные преобразования языковых явлений. Благодаря использованию математических методов исследования языка в рамках лингвостилистики было выявлено, что частота появления тех или иных языковых элементов в речи подчиняется определенным статистическим законам (закономерностям). Это позволяет на основе статистических данных сформулировать определенные закономерности функционирования единиц языка и построения текста.

Лингвостатистический метод широко применяется в современной лексикологии и стилистике. Он используется для изучения как явлений языка, так и явлений речи. Например, с помощью лингвостатистического метода лингвисты изучают количественные характеристики словарного состава в разных стилевых и авторских разновидностях речи. В результате лингвостатистического изучения языка появились частотные словари.

Количественное описание подъязыков науки и техники используется для автоматической обработки языковой информации (создания информационно-поисковых систем), а также в методике преподавания языков.


6.2.Темы лабораторных занятий.

Лабораторная работа № 1. Прикладная лингвистика как научное направление.

Вопросы для занятия.

1. Какое научное направление в языкознании называется прикладной лингвистикой?

2. На решение каких прикладных задач ориентирована прикладная лингвистика?

3. Как отличается прикладная лингвистика от теоретической лингвистики по предмету исследования?

4. Как отличается прикладная лингвистика от теоретической лингвистики по задачам исследования?

5. Как отличается прикладная лингвистика от теоретической лингвистики по материалу исследования?

6. Как отличается прикладная лингвистика от теоретической лингвистики по способам исследования языкового материала?

7. Как отличается прикладная лингвистика от теоретической лингвистики по методам исследования языкового материала?

8. Как отличается прикладная лингвистика от теоретической лингвистики по результатам исследования языкового материала?

9. Какие разделы выделяются в прикладной лингвистике?

10. Дайте сопоставительную характеристику прикладной и теоретической лингвистики, заполнив таблицу.

Сравнительная характеристика прикладной и теоретической лингвистики



Лингвистическое направление

Предмет изучения

Задачи

Материал изучения

Способы исследования

Методы исследования

Результаты исследования

Разделы

Теоретическая лингвистика






















Прикладная лингвистика





















Лабораторная работа № 2. Компьютерная лингвистика как одно из направлений прикладной лингвистики.

Вопросы для занятия.

1. Какое научное направление в языкознании называется компьютерной лингвистикой?

2. Какой научный инструментарий использует компьютерная лингвистика?

3. Назовите важнейшие направления исследований компьютерной лингвистики.

4. Какие научные программы создаются рамках компьютерной лингвистики?

5. Какие научные результаты получены в рамках компьютерной лингвистики?

6. Охарактеризуйте особенности компьютерной лингвистики как одного из направлений прикладной лингвистики, заполнив таблицу.
Компьютерная лингвистика как одно из направлений прикладной лингвистики

Цели исследования

Научный инструментарий

Направления исследований

Научные программы

Научные результаты

Отличительные черты

















Лабораторная работа № 3. Компьютерный словарь ABBYY Lingvo


Теоретический материал.

ABBYY Lingvo — семейство электронных (с 1989) и печатных (с 2007) словарей. Создано российской компанией ABBYY. 13 августа 2008 года вышла новая версия x3 (икс три). 12 августа 2010 года вышла версия для Mac OS X[1]. Объём словарных статей составляет более 8,7 млн.

Lingvo в переводе с языка эсперанто означает «язык», о чём есть статьи в словарях ABBYY Lingvo (LingvoUniversal и LingvoComputer).

Многоязычная версия охватывает 15 языков — русский, украинский, английский, немецкий, французский, испанский, итальянский, турецкий, латинский, китайский, португальский, татарский, казахский, шведский, польский и финский. Также существует Европейская версия — 130 словарей на 7 языках и англо-русско-английский электронный словарь.

В ABBYY Lingvo нет функции полнотекстового перевода, но возможен пословный перевод текстов из буфера обмена. В некоторых словарях на английском, немецком и французском большинство слов[2] озвучены профессиональными дикторами — носителями языка.

В состав программы входит обучающий модуль Lingvo Tutor, помогающий запоминать новые слова.

Помимо существующих 150 профессиональных словарей, результата лексикографической работы сотрудников компании ABBYY и авторитетных бумажных и электронных словарей существует обширная база бесплатных пользовательских словарей для программы. Словари предварительно проверяются и находятся в общем доступе на сайте ассоциации лексикографов Lingvo.

ABBYY Lingvo х5

ABBYY Lingvo x5 Английский язык Домашняя версия — 32 общелексических словаря для англо-русского и русско-английского направлений перевода, а также полностью переработанные и обновленные издания словарей New Oxford American Dictionary и Oxford Dictionary of English, толковые русские словари.

ABBYY Lingvo x5 Английский язык Профессиональная версия — 74 общелексических, толковых, грамматических и тематических словаря для англо-русского и русско-английского направлений перевода, а также полностью переработанные и обновленные издания словарей New Oxford American Dictionary и Oxford Dictionary of English, толковые русские словари.

ABBYY Lingvo x5 9 языков Домашняя версия — 73 общелексических словаря для перевода слов и словосочетаний. Версия «9 языков» включает в себя русский, английский, немецкий, французский, испанский, итальянский, португальский, греческий и финский языки. В версию включены толковые и общелексические словари, а также полностью переработанные и обновленные издания словарей New Oxford American Dictionary и Oxford Dictionary of English 2010 года, русские толковые словари.

ABBYY Lingvo x5 9 языков Профессиональная версия — 162 общелексических, толковых, грамматических и тематических словаря для перевода слов и словосочетаний. Версия 9 языков включает в себя русский, английский, немецкий, французский, испанский, итальянский, португальский, греческий и финский языки.

ABBYY Lingvo x5 20 языков Домашняя версия — свыше 105 общелексических словарей на английском, немецком, французском, испанском, итальянском, португальском, китайском, турецком, украинском, латинском, венгерском, греческом, датском, казахском, нидерландском, норвежском, польском, татарском, финском языках. В версию включены толковые и общелексические словари.

ABBYY Lingvo x5 20 языков Профессиональная версия — 220 общелексических, толковых, грамматических и тематических словаря на английском, немецком, французском, испанском, итальянском, португальском, китайском, турецком, украинском, латинском, венгерском, греческом, датском, казахском, нидерландском, норвежском, польском, татарском, финском языках. В версию включены толковые, общелексические и тематические словари.

Практическая работа с ABBYY Lingvo.
Лабораторная работа № 4. Компьютерные словари немецкого языка в Интернете.

http://www.abbyy.ru/products/lingvo/index.htm – Система электронных словарей Lingvo

http://www.ramtel.ru/dict/ – Двуязычные словари издательства "Русский язык" на Рамблере

http://www.multilex.ru/ – Электронные словари компании Мультилекс

http://www.anriintern.com/slovari/toc.htm – Мир бесплатных on-line словарей

http://www.esperanto.org.ua/vortaro/v_se.htm – Словарь языка "эсперанто"

http://www.ets.ru/livelang/deu.htm – Немецко-русский словарь новых слов и словоупотреблений

http://www.zerkalo-nedeli.com/ie/show/434/37843/ – Татьяна Галковская. Пять словарей в одном кармане

Лабораторная работа № 5. Система компьютерного перевода PROMT


PROMT Standard 9.0 – программа для быстрого перевода текстов, с возможностью настройки для управления качеством перевода. В PROMT Standard 9.0 пользователь может самостоятельно создавать дополнительные словари по тем областям, в которых он работает.

PROMT Standard 9.0 используется для:



  • для перевода сообщений электронной почты в Microsoft Outlook 2000-2010;

  • для перевода документов в форматах .pdf, .rtf.;

  • для перевода сообщений в ICQ, Skype, QIP, MSN Messenger;

  • для работы с текстами специализированной, технической или отраслевой тематики .

Преимущества:

Быстрый перевод самых необходимых текстов

С PROMT Standard 9.0 удобно переводить электронную почту и документы – то, что чаще всего нужно и на работе, и дома.

Возможность создания собственных словарей

Лексика, с которой вы работаете наиболее часто, всегда будет у вас «под рукой» - в отдельном словаре, который вы можете создать, пополнять и редактировать.

Программа, с которой удобно работать

Удобный, простой и понятный интерфейс. Удобные, полные и понятные справочные материалы.

Тематические словари в составе основного словаря

Программа позволяет получать качественный перевод текстов по наиболее популярным тематикам без дополнительных настроек.

Ваш личный раздел My PROMT

Личный кабинет для доступа к обучающим материалам, опросам и другим пользовательским ресурсам и сервисам системы PROMT.

Лабораторная работа № 6. Системы компьютерного перевода в Интернете.

Статистика работы бюро переводов показывает, что автоматические онлайн-переводчики, продукция которых еще 3-4 года назад вызывала гомерический смех, начали теснить профессионалов на рынке. Обстоятельства последнего времени этому чрезвычайно благоприятствовали. Качество машинного перевода здорово повысилось и теперь переводы на трудные языки вроде русского и даже китайского все чаще позволяют получить представление, о чем идет речь в оригинальном тексте.

Что же касается близких или очень популярных языковых пар (например, французский – испанский, русский - украинский, английский - немецкий), то здесь online переводчик может перевести на очень приличном уровне, если текст несложный. В этом можно убедиться, например, переведя программой Google текст с украинского на русский можно получить вполне приемлемый результат. Это означает, что сегодня для потенциального клиента возникает ранее несущественная дилемма – отдать перевод профессионалу, заплатив приличную сумму, или прогнать текст через робота с тем, чтобы после откорректировать его до приемлемого уровня своими силами.

Нет никаких сомнений, что определенная часть рынка останется за переводчиком-человеком. Это художественный перевод, сложный технический перевод с высоким уровнем ответственности. Но для профессиональных переводческих агентств это слабое утешение. Выбор клиента будет делаться в пользу онлайн-переводчика все чаще с каждым годом. Это означает, что сокращение объема работы для традиционных участников рынка есть вещь совершенно неизбежная и отрицать это недальновидно. Так ли это на самом деле?

Проведем сравнение онлайн-переводчиков.


  1   2

Похожие:

Учебно-методический комплекс по дисциплине « дв3» «Компьютерные технологии в лингвистических исследованиях» iconУчебно-методические материалы по дисциплине Компьютерные технологии в лингвистических исследованиях

Учебно-методический комплекс по дисциплине « дв3» «Компьютерные технологии в лингвистических исследованиях» iconУчебно-методический комплекс по дисциплине компьютерные технологии в науке и образовании для направления 030500 «юриспруденция»

Учебно-методический комплекс по дисциплине « дв3» «Компьютерные технологии в лингвистических исследованиях» iconУчебно-методический комплекс для студентов, обучающихся по специальности 070109 «Музыкальное искусство эстрады»
Учебно-методический комплекс по учебной дисциплине «Методика обучения эстрадному пению» составлен в соответствии
Учебно-методический комплекс по дисциплине « дв3» «Компьютерные технологии в лингвистических исследованиях» iconУчебно-методический комплекс для студентов, обучающихся по специальности 070109 «Музыкальное искусство эстрады»
Учебно-методический комплекс по учебной дисциплине «История исполнительства Урало-Сибирского региона» составлен в соответствии
Учебно-методический комплекс по дисциплине « дв3» «Компьютерные технологии в лингвистических исследованиях» iconУчебно-методический комплекс по дисциплине «Типографика-2»
Учебно-методический комплекс «Типографика-2» составлен в соответствии с требованиями Государственного образовательного стандарта...
Учебно-методический комплекс по дисциплине « дв3» «Компьютерные технологии в лингвистических исследованиях» iconУчебно-методический комплекс по дисциплине «Типографика-1»
Учебно-методический комплекс «Типографика-1» составлен в соответствии с требованиями Государственного образовательного стандарта...
Учебно-методический комплекс по дисциплине « дв3» «Компьютерные технологии в лингвистических исследованиях» iconУчебно-методический комплекс по дисциплине «Информационные технологии в экономике»
Охватывает все введенное выражение: 2 + 3
Учебно-методический комплекс по дисциплине « дв3» «Компьютерные технологии в лингвистических исследованиях» iconУчебно-методический комплекс по дисциплине правоведение для специальности: 080500 «Геология нефти и газа»
Данный учебно-методический комплекс составлен в соответствии с требованиями Государственного образовательного стандарта для подготовки...
Учебно-методический комплекс по дисциплине « дв3» «Компьютерные технологии в лингвистических исследованиях» iconУчебно-методический комплекс по дисциплине дс. 02 Экологическая анатомия растений для студентов, обучающихся по специальности 020201. 65 «Биология»
Учебно-методический комплекс по дисциплине дс. 02 “Экологическая анатомия растений” составлен в соответствии с требованиями Государственного...
Учебно-методический комплекс по дисциплине « дв3» «Компьютерные технологии в лингвистических исследованиях» iconУчебно-методический комплекс дисциплины политические технологии: pr и реклама для студентов факультета журналистики
Учебно-методический комплекс дисциплины «Политические технологии: pr и реклама». – М.: Импэ им. А. С. Грибоедова, 2008. – 16 с
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org