Корпусная лингвистика

Корпусная лингвистика - раздел языкознания, изучающий создание, обработку и использование корпусов.

Решение задач, связанных с поиском примеров, иллюстрирующих то или иное языковое явление, а также с уточнением применения отдельных лексем привело к появлению нового направления в прикладной лингвистике - до корпусной лингвистики, то есть науки, изучающая создания корпусов текстов и их использование.

За последнее десятилетие корпусная лингвистика быстро приняла тот опыт, который был накоплен в других достаточно развитых отраслях, объединяемые термином АОТ (автоматическая обработка текста), или АРТ (автоматическое понимание текста), корпусная лингвистика сегодня имеет две линии развития - лингвистический анализ текста и информационный анализ текста.

Информационный анализ реализуется в системах типа ИПС (информационно-поисковые системы), а лингвистический анализ стремится интерпретировать, выявить смысл текста, при этом лингвистический анализ характеризуется локальностью, т.е. проходит в рамках одного предложения. Информационный анализ, наоборот, "видит" текст как целое. Эти два направления развивались почти параллельно, практически никак не соприкасаясь, вследствие чего не получили достаточного развития. Лингвистический анализ не дал корректного машинного перевода, поскольку одна неправильно интерпретирована фраза может в контексте приобретать совершенно иное значение.


1. Корпуса

В настоящее время в научном словаре лингвистов появляются очень близкие понятия: "электронные библиотеки", "массив текстов", "коллекция текстов", "электронный архив", "полнотекстовая база данных". Среди них можно выделить лингвистические корпуса, или языковые корпуса. Корпус текстов - это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области.

Корпус текстов характеризуется четырьмя основными параметрами: во-первых, он должен быть достаточно большого объема, во-вторых, корпус должен быть структурированным или размеченным, в-третьих, тексты, составляющие определенного корпуса, должны быть в электронном варианте; в-четвертых, в понятие "Электронный корпус" входит, как правило, специальное программное обеспечение для работы с этим корпусом.

Ценность корпуса видится в следующем:

  • однажды сделан корпус может многократно использоваться;
  • корпус показывает языковые данные в их реальном окружении, что позволяет исследовать лексическую и грамматическую структуру языка, а также непрерывные процессы языковых изменений, происходящие в языке в течение определенного отрезка времени;
  • корпус характеризуется представительностью, или сбалансированным составом текстов, что позволяет использовать его для тестирования поисковых машин, машинных морфологи, систем перевода, а также использовать его в различных лингвистических исследованиях;
  • корпус имеет важное значение для преподавания языка, поскольку с помощью корпуса можно быстро и эффективно проверить особенности употребления незнакомого слова или грамматической формы.

Работа с корпусами, т.е. с массивами текстов, представленными в электронном виде, давно уже стала одним из основных методов лингвистических исследований. Так, еще в 1960-е годы создавался Брауновський корпус (США) [1], который включает 1 млн. слов; в 1970-е: LOB корпус (Великобритания, Норвегия), который также включает 1 млн. слов. В 1980-е годы начали создаваться такие корпуса, как: Машинный Фонд русского языка, Уппсальского корпус русского языка (Швеция), 1 млн. слов, The Bank of English, Birmingham, 20 млн. слов. В 1990-е создан British National Corpus [2], который включает 100 млн. слов, а также другие национальные корпуса (венгерский, итальянский, хорватский, чешский, японский) объемом 100 млн. слов. В это же время создавался The Bank of English, Birmingham, включающий 600 млн. слов. В начале XXI в. создавались такие корпуса, как American National Corpus [3], 100 млн. слов и Gigaword corpora (английский, арабский, китайский), включающий 1 млрд. слов. Особое внимание следует обратить на русский национальный корпус, над которым работают лингвисты Москвы и Санкт-Петербурга.

Существование корпусов текстов дает возможность значительно расширить и автоматизировать анализ языкового материала, который является важнейшей базой любого лингвистического исследования. Чем больше материалов анализируется, тем выше значимость выводов и уровень их достоверности.

Современные компьютерные программы позволяют находить примеры из корпусов текстов, хранящихся в электронном виде на компьютере. Это экономит значительное количество времени по сравнению с традиционной технологией сбора примеров вручную.

Отметим, что именно аннотация, или разметка, - главная характеристика корпуса, и отличает его от электронных коллекций, библиотек, энциклопедий, широко представленных в современном Интернете. Разметка текста - это приписывание текста определенной информации для удобного анализа.

Существуют различные типы разметки:

  • метатекстового разметка (автор, название, дата создания, объем, тематика текста и т. д.), которая характеризует текст в целом;
  • структурная разметка является информацией о структуре текста, которая позволяет отделить одно слово от другого, выделить границы словосочетания, предложения, текста;
  • лингвистическая разметка заключается в приписывании единицам текста определенной лингвистической информации (отрицательная предложение или вопросительное, управления или примыкания и т. д.).

Как известно, чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса.


2. Конкордансы

Основная статья Конкордансы

Пространство электронных текстовых корпусов позволил результативного использования электронных конкордансы, которые открывают перспективы моделирования языковой картины мира. Конкордансы является специализированной лингвистической приложением, с помощью которой осуществляется автоматическая выборка заданных языковых единиц с электронных текстов. Функцию конкордансы можно сравнить с функцией поиска в текстовом редакторе, однако возможности конкордансы шире - он анализирует не один, а сразу несколько текстов или корпусов электронных текстов, при этом конкордансы выводит на экран информацию о контексте использования заданных языковых единиц. Зависимости от технических возможностей конкордансы может предоставлять информацию о частотности употребления и сочетаемости той или иной языковой единицы, а также дает возможность обращаться к конкретному тексту, в котором был найден пример. Существует электронный конкордансы полных произведений Григория Сковороды на сайте Албертського университета в Канаде (http:// www.arts.ualberta.ca/ ~ ukr / skovoroda / NEW / index.php), а также Он-лайн конкордансы романа Ивана Франко "Перекрестные тропинки" ( авторы: Бук С., Ровенчак А.) на странице Львовского университета (http://www.ktf.franko.lviv.ua/ ~ andrij / science / Franko / concordance.html)


3. Компьютерная лексикография

Безусловно, корпусная лингвистика ярко и четко представляет себя в одном из перспективных направлений - компьютерной лексикографии. Электронные словари и энциклопедии разрабатываются сегодня как автономные и сетевые программные продукты. Не вызывает сомнения тот факт, что электронные словари предоставляют пользователю множество дополнительных возможностей по сравнению с печатными аналогами:

  • позволяют хранить большой объем информации за счет использования гиперссылок;
  • электронный словарь эффективную систему поиска (полнотекстовый поиск, одновременный поиск в нескольких словарях, скорость поиска);
  • в электронных словарях могут применяться средства мультимедиа : озвучивание заглавных слов, введение иллюстративного материала с фотографиями, анимацией, видеофрагментами;
  • возможность использования словарей в локальной и глобальной сетях;
  • значительная экономия времени и материальных ресурсов при создании компьютерных словарей.

Значительный опыт исследований в компьютерной лексикографии позволяет расширить возможности изучения смысловой структуры политического слова. Так, сегодня в научных проектах активно разрабатывается идея, связанная с организацией концептуального пространства языка политики с позиции гипертекстовой единства.

Говоря о специфике содержания такого словаря, отметим, что слово в электронном варианте реализуется в семантическом макрополя, состоящий из нескольких полей, построенных в определенную систему:

  1. поле индексации служит для удобного поиска в базе данных;
  2. поле заглавного слова;
  3. поле грамматической информации, прагматическое нагрузки которой связано с конкретным грамматическим статусом в текстах;
  4. поле этимологических справок;
  5. поле авторского толкования строится не по всей семантической парадигме слова, а лишь по ее основной части, тематически связанной с политической сферой применения;
  6. поле иллюстраций работает для верификации дефиниции, тем самым обнаруживает семантику политического слова в определенном контекстуальном окружении. Важно отметить, что в словаре иллюстрации из текстов разных жанров используются и в традиционном виде как оправдательный контекст (это особенно важно для метафорических значений) и как лексикографический прием, помогающий создать пространственная, временная и социально-историческая перспективы;
  7. поле фразеологии;
  8. поле энциклопедических сведений отражает основные этапы становления данной дефиниции, эволюцию его доминантных признаков.

Компьютерное обеспечение словаря справочного типа состоит из двух составляющих:

  • база данных словаря определяется системой управления базами данных;
  • интерфейс разработан специально для данного словаря. Базой для его реализации послужила язык Delphi, который позволяет осуществлять задачи автоматического поиска слов и удобной навигации внутри словаря.

Приведем лексикографический виртуальный портрет слова эскалация.

Слово в электронном словаре представлено в 4-х полях:

  • поле 1 состоит из блока заглавного слова, блока грамматических помет, етимона. В этом же поле обязательным элементом является блок авторского толкования;
  • поле 2 представлено иллюстративным материалом Корпуса русского национального языка. Эти иллюстрации помогают описать семантическую структуру слова и определить коммуникативный статус слова;
  • поле 3 - микроструктура электронного словаря, включающий дефиниции современных толковых и толково-справочных изданий.
  • поле 4 является, на наш взгляд, необходимым структурной частью электронного справочного издания и содержит энциклопедические сведения о данное понятие. В большом энциклопедическом словаре, например, данное слово определяется как расширение, наращивание (вооружений и т.п.), постепенное усиление, распространение (конфликта и т.д.), обострение (положения и т.п.).

Именно 3-е и 4-и поля могут описать динамику развития семантики слова. Например, слово эскалация в современных словарях политического языка представлено с имплицитным негативным прагматическим компонентом, обусловленным категориальной семой действие, направленное на отрицательный результат, что подтверждается "Полем иллюстраций".

Таким образом, словарь представляет собой систематизированный алфавитный массив ядерной политической лексики. Предлагаемое лексикографическое исследование дает возможность выявить основные тенденции в развитии ядерной политической лексики, обеспечить доступность словаря за счет эффективной системы поиска, а также хранить большой объем информации за счет гиперссылок.