Навчальний посібник Вид-во жду ім. І. Франка Житомир 2013



Pdf просмотр
Сторінка4/7
Дата конвертації25.12.2016
Розмір2.83 Kb.
ТипНавчальний посібник
1   2   3   4   5   6   7
ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
років по тому була випущена і друга частина (близько 20 млн. слів). Особливою прикметою Американського національного корпусу є те, що він містить жанри, які ще не були поширеними за часу створення Британського національного корпусу. Це особисті електронні тести, Інтернет чати та веб сторінки.
У колишньому Радянському Союзі таким мега-проектом став Машинний Фонд російської мови, створений під керівництвом А.П. Єршова та В.М. Андрющенко. Головними цілями цього фонду були укладання представницького корпусу і підкорпусів різних жанрів та розробка комп’ютерних програм опрацювання природної мови, з метою сприяння комплексній
інформатизації лінгвістичних досліджень, включаючи створення граматик та словників. На жаль, цей проект не завершився створенням власне представницького корпусу, хоча були зібрані колекції текстів різних типів. Сьогодні з Машинного Фонду доступні деякі тексти ХІХ століття та газетний корпус за 1997 рік.
У 1992 році була створена організація Європейська корпусна ініціатива (EСI), метою якої були об’єднання і координація зусиль лінгвістів різних країн, що працюють над створенням корпусів текстів на інших, крім англійської, мовах.
Під її егідою було створено біля 50 корпусів текстів (кожен обсягом від 12 тисяч до 5 млн. слів) на європейських мовах. Це об’єднання поставило собі за мету не лише укладання представлених корпусів текстів на європейських мовах, але і створення так званих «паралельних» корпусів.
Сучасний розвиток корпусної лінгвістики (пост 2000-і роки) дуже бурхливий, що підтверджується величезною кількістю нових досліджень у галузі. Про популярність та інтенсивність розвитку корпусної лінгвістики свідчить як чимале число теоретичних і технологічних праць, підручників, так і самих
45

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
корпусів. Йдеться про дослідження у галузі лексичної граматики
[Stubbs 1996; Hunston, Francis 2000; Renouf 2001; Nesselhauf
2005; Exploring the Lexis-Grammar Interface 2009]
, лексикографії та навчання мові [McEnery, Kifle 2002, Altenberg, Granger 2002;
McEnery, Xiao 2004,
Максимів 2008], когнітивної лінгвістики
[Corpora in Cognitive Linguistics 2006; Gilquin 2003; Gries 2003;
Gries, Stefanowitch 2004; Schmidt 2000; Schonefeld 1999], прагматики та дискурс-аналізу [Aijmer and Stentström 2004;
Archer 2005; Baker 2005; Baker, McEnery 2005; Hardt-Mautner
1995; Koller, Mautner 2004; McEnery 2005; Orpin 2005; Partington et al. 2004; Vivanco 2005; Wang 2005], стилістики [Burrows 2002;
Charteris-Black 2004; Corpus-Based Approaches to Metaphor and
Metonymy 2006; Deignan 2005; Semino and Short 2004; Stubbs
2005], перекладознавства [Malmkjær 1998; Zanettin 1998;
Incorporating Corpora. The Linguist and the Translator 2008].
Корпусно-базовані дослідження відбуваються для вивчення значення слова [Partington 2004], фразеології [Hunston 2001,
Лозинська 2009], синтаксичних властивостей граматичних структур [Duffley 2003], дистрибуції граматичних категорій
[Biber 2001]
(детальніше див.: Corpus Linguistics and Written
Language Resources Bibliography
13
).
У цей час корпуси створені для багатьох мов світу (див. веб сайт Дейвіда Лі
14
, на якому розміщено дані про існуючі корпуси та ресурси корпусної лінгвістики).
Найновіші досягнення в царині корпусного мовознавства друкуються у визнаних міжнародних наукових журналах:
Corpus (2001–) (Nice: Laboratoire "Bases, Corpus, Langage",
Université de Nice – Sophia Antipolis)
15
; Corpus Linguistics and
13
liceu.uab.es/
joaquim/language_resources/lang_res/biblio_corpus.html
14
http://www.uow.edu.au/
dlee/CBLLinks.htm
15
http://corpus.revues.org/
46

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Linguistic Theory (2005–) (Berlin – New York: Mouton De
Gruyter)
16
; ICAME Journal, Journal of the International Computer
Archive of Modern English (1987–) (Bergen: Norwegian Computer
Centre for the Humanities)
17
; International Journal of Corpus
Linguistics (1996–) (Amsterdam: John Benjamins)
18
; Language
Resources and Evaluation (2005–) (Dordrecht: Springer)
19
; Literary
and Linguistic Computing (1986–) (Oxford: Oxford University
Press)
20
Таким чином, підсумовуючи огляд історії становлення корпусних студій, зазначимо, що з часу свого становлення до сьогодні корпусна лінгвістика пройшла складний шлях від повного неприйняття у 60-ті роки ХХ століття до магістрального напряму сучасного мовознавства. На сьогодні в науковій спільноті також немає однозначного ставлення до таких досліджень: у них є як віддані прибічники, так і суворі опоненти. Проте необхідно пам’ятати, що незважаючи на революційні можливості корпусної лінгвістики, вона є лише частиною численного методологічного інструментарію сучасної лінгвістичної науки. І як зазначив Ч. Філмор [Fillmore 1992: 35], навіть значні за обсягом корпуси не в змозі відобразити все можливе у мові, натомість і невеликі за обсягом корпуси можуть надати інформацію, яку б нереально було отримати, не звертаючись до корпусних даних.
16
http://www.degruyter.com/view/j/cllt
17
http://nora.hd.uib.no/journal.html
18
http://www.benjamins.com/#catalog/journals/ijcl
19
http://www.springerlink.com/content/1574-020x/
20
http://llc.oxfordjournals.org
47

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
2.3.
Корпусні дослідження в Україні

На сьогоднішній день практично для усіх європейських мов
існує по кілька корпусів текстів різного типу, обсягу та структури. Створення національного корпусу вважається виявом поваги до рідної мови. Хоча для українського мовознавства укладання національного корпусу і впровадження корпусного мовознавства ще перебуває на етапі становлення, у царині вітчизняної корпусної лінгвістики вже здійснено вагомі доробки. На разі у складі Національної словникової бази
Українського мовно-інформаційного фонду НАН України функціонує і постійно розвивається Український національний лінгвістичний корпус (УНЛК), що розробляється під керівництвом академіка НАН України В.А. Широкова
[Корпусна лінгвістика 2005: 103]. Розпорядженням Кабінету
Міністрів України від 11.02.2004 р. № 73-р Національну словникову базу Українського мовно-інформаційного фонду
НАН України внесено до державного реєстру наукових об’єктів, що становлять національне надбання. Створення УНЛК передбачає розв’язання низки вагомих завдань для вітчизняного мовознавства:
1)
створення гами українських словників нового покоління, виконаних як у паперовому, так і в електронному варіанті, включаючи й онлайновий (це орфографічні, орфоепічні, тлумачні, етимологічні, фразеологічні, граматичні, синонімів, антонімів, омонімів та багато інших). До речі, вже зараз у серії «Словники України», яка становить основу
Національної словникової бази України, налічується близько 50 видань, серед яких слід відзначити двотомні Орфоепічний словник української мови та Словник синонімів української мови, п’ять видань Орфографічного словника української мови,
48

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
а також декілька версій першого повномасштабного українського електронного словника на диску – Інтегрованої лексикографічної системи «Словники України», онлайновий варіант якого розміщено на сайті Українського лінгвістичного порталу
21
;
2)
укладання низки перекладних двомовних словникових систем, орієнтованих переважно на інтелектуальне комп’ютерне опрацювання мови, насамперед, на машинний переклад
з та на мови: англійську, німецьку, французьку, іспанську, турецьку, всі слов’янські мови та ряд інших;
3)
розробка та створення комп’ютерних, морфологічних, синтаксичних
і семантичних аналізаторів, систем автоматизованого редагування та інтелектуального пошуку в масивах природномовної інформації, а також ряд інших
[Корпусна лінгвістика 2005: 121].
Обсяг корпусу понад 100 млн. слововживань. Оскільки об’єктом дослідження УНЛК є сучасна українська літературна мова, то стратегія формування корпусу полягає у максимально повному охопленні літературних українських джерел із початку
ХІХ до початку ХХІ століття, тобто за двісті років існування та розвитку сучасної української літературної мови. Корпус представлений текстами різних стилів і жанрів без збереження пропорцій. За необхідності дослідник може самостійно генерувати підкорпуси окремих стилів із врахуванням статистичних параметрів.
Наразі до УНЛК ще немає вільного доступу у мережі
Інтернет, але детальніше про корпус можна дізнатися на сайті
Українського мовно-інформаційного фонду НАН України
22
Крім того, доступ до корпусу надається в межах наукової
21
www.ulif.org.ua
22
http://lcorp.ulif.org.ua/LSlist/
49

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
співпраці Фонду з освітніми установами. Національний центр
«Мала академія наук» працює над пошуком нових форм та засобів оптимізації навчально-дослідницької та науково- дослідницької діяльності дітей і молоді, з-поміж яких апаратно- програмні засоби та мережеві інструменти відіграють важливу роль. Наприклад, продуктивна співпраця національного центру
«Мала академія наук» з колективом Українського мовно-
інформаційного фонду (НАН України) надає школі унікальну можливість використовувати ресурси УНЛК в організації навчально-дослідницької діяльності учнів. У 2012 році з
ініціативи дирекції національного центру «Мала академія наук
України», Українського мовно-інформаційного фонду (НАНУ) та ректорату Житомирського державного університету імені
Івана Франка було створено Експериментально-тематичний центр навчальної та науково-дослідницької діяльності.
Директором Центру (ЕТЦ) стала доктор педагогічних наук, професор кафедри філології і лінгводидактики ЖДУ імені Івана
Франка К. Я. Климова. З самого початку свого заснування
Центр став інтелектуальним осередком, об'єднанням викладачів, аспірантів, магістрантів, студентів університету та учителів та учнів членів МАН у м. Житомирі та області. Одним із головних завдань Центру є популяризація та навчання використанню ресурсів Українського національного лінгвістичного корпусу для написання студентських та учнівських наукових робіт та використанню даних корпусу в практиці викладання навчальних дисциплін [див.: Організація навчально-дослідницької роботи школярів із використанням українського національного лінгвістичного корпусу 2012]. У Центрі також ведеться активна діяльність зі створення Національного корпусу навчально- методичної літератури МАН України.
50

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
На лінгвістичному порталі Mova.info
23
(
Інституту філології
Київського університету імені Тараса Шевченка) представлено
Дослідницький корпус сучасної української мови обсягом у 3 млн. словоформ, який побудований як інформаційно-довідкова система. Це тексти в електронній формі, призначені для з’ясування різних питань, пов’язаних з українською мовою.
Розробленням методики та процедури організації лексикографічного матеріалу на засадах корпусної лінгвістики займаються науковці відділу лексикології, лексикографії та української мови Інституту української мови НАН України, зокрема, це створення електронного варіанта «Словаря української мови» за ред. Б. Грінченка [Балог, Балог 2007]. Над створенням корпусів працюють також лабораторії комп’ютерної лінгвістики в Національному університеті «Острозька академія»
24
та Київському національному лінгвістичному університеті
25
В Україні вже декілька років поспіль відбувається щорічна конференція MegaLing
26
, присвячена різноаспектним корпусним дослідженням. У центрі уваги конференції знаходяться питання, пов’язані з теоретичними засадами корпусної лінгвістики, лексикографії, термінографії, нотографії, концептографії і т.ін.
З’являються оглядово-ознайомлюючі публікації з питань корпусного мовознавства, а також здійснюються теоретичні та прикладні дослідження у цьому річищі (див. Список використаних джерел).
23
http://www.mova.info/
24
http://www.oa.edu.ua/ua/departments/filologist/filol_literature/lexilab/
project3 25
http://www.complinguide.com.ua/Corpora.aspx
26
http://megaling.ulif.org.ua/
51

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Запитання і завдання для самоперевірки
1.
Охарактеризуйте
історичний розвиток корпусних досліджень.
2.
У чому виявляється специфіка доелектронних корпусів?
Назвіть основні лінгвістичні проекти, в яких доелектронні корпуси відіграли значну роль.
3.
Поясніть, чому корпусна лінгвістика почала активно розвиватися на матеріалі англійської мови?
4.
Як були сприйняті корпусні дослідження в лінгвістичній науковій спільноті 60-80-х років ХХ ст.?
5.
Окресліть головні характеристики корпусів першого покоління, назвіть їх.
6.
Чому Браунівський корпус став стандартом створення корпусів на для декількох поколінь?
7.
Визначте основні характеристики корпусів другого покоління.
8.
Назвіть найвідоміші мегакорпуси сучасності.
9.
Охарактеризуйте сучасний етап розвитку корпусних студій у світі та в Україні.
10.
Які, на Вашу думку, перспективи розбудови корпусної лінгвістики в українському мовознавстві?
52

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Розділ 3.
Корпус текстів природної мови

3.1.
Конститутивні параметри корпусу текстів
Центральним для корпусної лінгвістики є поняття «корпус текстів». Адже, одного боку, він виступає головною ціллю, яку ставить перед собою корпусна лінгвістика, а з іншого, постає об’єктом дослідження цієї мовознавчої галузі.
Взагалі лінгвістичний корпус текстів – це надзвичайна річ, унікальність якої полягає не лише в тому, що це велика за обсягом збірка електронних текстів, але і в тих можливостях, яких набуває корпус, за умови, він добре організований і правильно укладений. Доцільність створення й використання корпусів визначається такими передумовами:
1) досить великий (репрезентативний) обсяг корпусу гарантує типовість даних і забезпечує повноту представлення всього спектру мовних явищ;
2) дані різного типу перебувають у корпусі у своїй природній контекстній формі, що створює можливість їх всебічного й об'єктивного вивчення;
3) одного разу створений і підготовлений масив даних може використовуватися багаторазово, багатьма дослідниками й у різних цілях [Захаров, Богданова 2011: 8].
Перед тим, як увійти до лінгвістичної термінології, слово
«корпус» широко використовувалося на позначення збірки або колекції певних текстів. Лише у 1984 році Дж. Аартс та В. Мейс у статті «Corpus Linguistics: Recent Developments in the Use of
Computer Corpora in English Language Research» [Aarts, Meijs
1984]. вперше використали його як термін корпусної лінгвістики. До кінця 90-х років термін «корпус» міцно увійшов
53

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
до лінгвістичного вжитку вже у його традиційному значенні як сукупність стандартно організованих електронних текстів, призначених для проведення конкретних лінгвістичних досліджень.
На сьогодні в обігу корпусного мовознавства наявні декілька трактувань лінгвістичного корпусу текстів (англ.
linguistic corpus
або text corpus). З метою виокремлення конститутивних параметрів корпусу текстів наведемо декілька прикладів визначення терміну «корпус» вітчизняними та зарубіжними корпусними лінгвістами:

корпус – це організована певним чином словесна єдність, елементами якої є цілі тексти чи спеціальним чином відібрані уривки з текстів, що доступні для лінгвістичного аналізу [Meyer 2004: xi];

корпус – це зібрання текстів, яке вважається репрезентативним стосовно даної мови, діалекту або іншої ділянки мови й призначене для використання в лінгвістичних дослідженнях [Francis 1991];

корпус – це певне зібрання текстів, в основі яких лежить логічний задум, логічна ідея, що об’єднує ці тексти. Логічна
ідея втілюється в правилах організації текстів в корпус, алгоритмі і програмі аналізу корпусу текстів та в пов’язаних з цим ідеологією та методологією. Корпус є четвертою фактурою мовлення (тексти на машинному носії)
[Рыков
27
];

корпус – це значне за обсягом цифрове зібрання текстів і текстових уривків, що слугує репрезентативною вибіркою для певного, обмеженого на основі різних параметрів використання мови, а в загальномовному
27
http://corpora.iling.spb.ru/theory.htm
54

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
лексикографічному контексті виступає цільовою вибіркою з мови в цілому [Asmussen 2007: 123];

корпус – це машиночитане, стандартно організоване зібрання репрезентативних для певної мови, діалекту або
іншої підмножин(и) мов(и) писемних або усних текстів, призначених для лінгвістичного аналізу й опису, відібраних
і впорядкованих згідно з експліцитними екстра- та
інтралінгвальними критеріями [Демська-Кульчицька 2005].
Отже, аналіз наведених вище дефініцій дозволяє виділити низку дистинктивних ознак, що відрізняють сучасний корпус текстів від звичайних колекцій текстів в електронній формі
(
електронних бібліотек, архівів): репрезентативність, автентичність, відібраність, збалансованість, машиночитаність.
Зупинимося детальніше на цих ознаках.
1.
Репрезентативність полягає в здатності корпусу відображати всі властивості предметної галузі. Під предметною галуззю розуміється рівень реалізації мовної системи, яка містить феномени, що підлягають лінгвістичному описові.
Предметна галузь для корпусу може бути як завгодно великою або як завгодно малою. Так, якщо йдеться про авторський корпус і лінгвістичний опис стосується авторської мови, то предметна галузь – авторська мова – не буде надто великою, наприклад, у порівнянні з предметною галуззю загальномовного корпусу. Але якщо завданням є побудова національного корпусу, то, відповідно, предметна галузь буде значно більшою
[Демська-Кульчицька 2005: 101-102]. Як зауважують
Т. МакЕнері та інш., репрезентативність більшості корпусів великою мірою обумовлюється двома факторами: набір жанрів, включених до корпусу (збалансованість), та критерій відбору текстів кожного жанру (відібраність) [McEnery, Xiao, Tono 2006:
11].
55

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
2.
Автентичність передбачає відбір реально створеного носієм(ями) мови писемного або усного тексту(ів), уривка(ів) тексту(ів) у процесі реальної комунікації. Дотримання вимоги автентичності є однією зі складових емпіризації фактичного корпусного матеріалу.
3.
Відібраність ставить вимогу обмеження фактичного матеріалу шляхом відбору певних фрагментів мови з усього мовного континууму. Навіть найбільший за обсягом корпус природної мови завжди залишається лише крихітним взірцем усіх усних і писемних текстів, створених усіма носіями мови навіть упродовж одного дня, і навіть сучасні інформаційні технології не дають змоги подати весь цей мовний матеріал, тому необхідна певна вибірка, яка передбачає застосування чітких правил екстрагування даних, що відповідають обраній стратегії побудови корпусу, мотивовані типом корпусу і метою його створення.
4.
Збалансованість полягає у введенні до корпусу пропорційної кількості текстових ресурсів. На практиці, де традиційно використовують різні методики відбору текстового матеріалу до корпусу, одним із доволі складних завдань є досягнення збалансованості. Для досягнення збалансованості корпусу необхідні мінімальні критерії відбору текстів, які мають включати розрізнення між художньою літературою і нехудожньою літературою; книжкою, журналом або газетою; нормативним і ненормативним варіантом мови; з контролем віку, статі та походження авторів.
5.
Машиночитаність є визначальною ознакою до сучасного електронного текстового корпусу природної мови.
Крім електронної форми подання, ця вимога передбачає наявність кодування первинних корпусних даних та лінгвістичну анотацію, хоча на сьогодні це вже параметр «за
56

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
промовчанням», тобто іншим сучасний корпус не повинен бути.
До найбільших переваг комп’ютеризації корпусу відноситься швидкість обробки та легкість оперування великими масивами мовних даних (пошук, відбір, сортування, форматування і т. ін.).
По-друге, комп’ютери надають точні та об’єктивні результати обробки машиночитаних даних. По-третє, комп’ютери виключають можливість впливу людського фактору на аналіз даних, що сприяє отриманню об’єктивних результатів. Нарешті, машиночитаність уможливлює подальшу автоматичну обробку даних корпусу, що в свою чергу збагачує корпус різноманітними метаданими (різними типами розміток).
Звичайно, без комп’ютерної підтримки багато корпусно- базованих досліджень, що були здійснені за останні два десятиліття, були б просто неможливими Е. Тогніні-Бонеллі
[Tognini-Bonelli 2000: 210]
переконана, що саме комп’ютер визначив методологічну модель лінгвістичного пошуку.
Корпус формується з реальних уривків писемного або усного мовлення, не передбачаючи модифікації мовленнєвої дійсності, що перетворює його на категорію емпіричну і дозволяє розглядати фактичний корпусний матеріал як емпіричну базу лінгвістичного дослідження [Демська-
Кульчицька 2003: 41]. Завданням авторів корпусу є зібрати якомога більшу кількість текстів, що відносяться до тієї мови чи підмножини мови, для вивчення якої корпус створюється. Таким чином, можливо стверджувати, що корпус – це зменшена модель мови чи підмови.
Однією із вагомих проблем сучасної корпусної лінгвістики є визначення обсягу корпусу, достатнього для отримання надійних висновків. Так, найбільш загальноприйнятий підхід стверджує, що мінімальний обсяг корпусу повинен становити 1 мільйон слововживань. Проте деякі корпусні дослідники
57

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
зауважують, що будь-який текст чи зібрання текстів теоретично може бути визнаним корпусом (від лат. сorpus – тіло), а тому корпусний аналіз можливо здійснювати навіть на дуже малих за обсягом текстах (наприклад, дослідження М. Стаббса [Stubbs
1996: 81−100] зосереджено на вивченні лінгвістичних особливостей лише двох листів обсягом у декілька сотень слів) або колективну монографію «Small Corpus Studies and ELT»
[Small Corpus Studies and ELT 2001].
Т. МакЕнері та Е. Вілсон констатують, що корпус, як правило, складається з вибірок, що «максимально репрезентують досліджувану область/сферу) [McEnery, Wilson
2001: 24], а це означає, що він повинен бути достатньо великим, щоб надати дані про частоту вживання певних лінгвістичних явищ, надаючи дослідникам можливість визначити, що є типовим, а що рідкісним явищем. Звідси значна кількість теперішніх корпусних досліджень здійснюється як на основі багатомільйонних корпусів [див.: McEnery 2005; Davies 2009;
Millar 2009 ], так і на матеріалі менших спеціалізованих корпусів [див.: Ghadessy and Gao 2001; McEnery and Kifle 2002].
Таким чином, корпус текстів – це машиночитане, збалансоване, репрезентативне зібрання особливо розмічених
(анотованих) текстів, відібраних згідно фіксованих параметрів для досягнення визначеної лінгвістичної мети та досліджуваних нелінійно за принципом гіпертексту.

Кількість корпусних досліджень збільшувалася вдвічі
кожні п’ять років протягом 1976-1991 р. [Johansson
1991].
58

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
3.2.
Типологія та огляд існуючих корпусів
Сучасне корпусне мовознавство має у своєму дослідницькому арсеналі значну кількість корпусів різних типів
і розмірів. Таке розмаїття існуючих корпусів визначається широким спектром дослідницьких і прикладних завдань, для розв'язання яких вони створюються, та особливостями мовного матеріалу, покладеного в основу. Однак варто відзначити, що на разі не існує єдиної загальноприйнятої типології корпусів, а наявні корпусні систематизації різняться засадничими класифікаційними критеріями. Так, наприклад, Т. МакЕнері,
Р. Ксіао та Й. Тоно в класифікації корпусів залежно від дослідницької мети та завдання виділяються такі типи корпусів, як загальні/спеціалізовані корпуси, корпуси писемного/усного мовлення, синхронічні/діахронічні корпуси, учнівські корпуси та моніторингові корпуси [McEnery, Xiao, Tono 2006: 59-70].
У типології корпусів В.В. Рикова виділяються такі типи
28
:
1. За ступенем організації й структурованості:

електронний архів – це тексти на електронному носії, але форма їх представлення на машинному носії не стандартизована й не уніфікована;

електронна бібліотека – тексти тут представлені однорідним і стандартизованим способом;

корпус текстів – форма стандартизована й уніфікована, тексти призначені для відображення частини лінгвістичної реальності;

субкорпус – це деяка автономна частина корпуса.
2. За хронологічною ознакою:

синхронічний;

моніторинговий (відслідковує поточний стан мови);
28
http://corpora.iling.spb.ru/theory.htm
59

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ

діахронічний.
3. За індексацією:

простий;

анотований.
4. За мовою:

одномовний;

двомовний;

багатомовний.
5. За способом застосування й використання корпусу:

дослідницький;

ілюстративний;

паралельний.
6. За способом існування корпусу:

динамічний;

статичний.
Автор російського посібника «Корпусная лингвистика»
В.П. Захаров пропонує власне бачення класифікації типів корпусів на основі набору класифікаційних ознак [Захаров 2005:
13]:
Таблиця 3
Класифікація корпусів за В.П. Захаровим
Ознака
Типи корпусів
Тип даних
писемного мовлення усного мовлення змішаного типу
Мова текстів
російська англійська і т.ін.
«Паралельність»
одномовні двомовні багатомовні
60

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Ознака
Типи корпусів
«Літературність»
літературні діалектні розмовні термінологічні змішані
Жанр
літературні фольклорні драматургічні публіцистичні
Доступність
у вільному доступі комерційні закриті
Призначення
дослідницькі
ілюстративні
Динамічність
динамічні (моніторингові) статичні
Розмітка
розмічені нерозмічені
Характер розмітки
морфологічні синтаксичні семантичні просодичні і т. ін.
Обсяг текстів
повнотекстові
«
фрагментно текстові»
Хронологічний аспект
синхронічні діахронічні
«Спільність»
загальні одного письменника
Структура
центральні й архівні ядерні й периферійні

Орися Демська-Кульчицька пропонує інший підхід до класифікації корпусів, що поданий на Рис.1 [Демська-
Кульчицька 2004: 156-157]:
61

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Рис.1. Класифікація корпусів за О. Демьскою-Кульчицькою

Повнотекстові
(тексти в корпусі подані
повністю)
Фрагментарні
(подані фрагменти
текстів)
Дослідницькі
(застосовують у
лінгвістичних
дослідженнях із метою
формулювання нових
теорій, концепцій тощо)
Ілюстративні
(застосовують для
підтвердження уже
висловлених теоретичних
положень чи гіпотез про
мову)
Дослідницькі
(подають тексти як
цілісні об’єкти, як факт
реалізації мовної
системи)
Інтерпретаційні
(становлять
інформаційно-довідкові
та дослідницькі системи)
Діахронні
(репрезентують мову в
понад часовому зрізі)
Синхронні
(репрезентують мову або
тип тексту певного
визначеного часового
проміжку)
Статичні
(засвідчують стан мови
на певному синхронному
зрізі)
Загальномовні
(репрезентують
загальнонародну,
національну мову)
Спеціалізовані
(скеровані на розв’язання
часткових, особливих,
специфічних науково-
дослідних завдань)
Моніторингові
(динамічні)
(
забезпечують
можливість
відстежувати зміни у
мові, враховуючи аспект
діахронії)
62

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Незважаючи на різноманітність корпусів, можна виділити два основні способи розподілу корпусів на класи:
1) протиставлення корпусів, що укладаються до всієї мови (так звані національні корпуси), корпусам, що укладаються до певної підмови (жанру, стилю, мови певної вікової або соціальної групи, мови письменника або вченого й т.п.); 2) поділ корпусів за типом лінгвістичної розмітки. Хоча існує безліч типів розмітки, більшість реально існуючих корпусів відноситься до корпусів морфологічного або синтаксичного типу (англійською treebanks, що можна перекласти як «банки синтаксичних структур»). При цьому слід підкреслити, що корпус із синтаксичною розміткою експліцитно або імпліцитно містить у собі й морфологічні характеристики лексичних одиниць
[Захаров, Богданова 2011: 20-21].
Розглянемо детальніше зазначені типи корпусів.
Національний корпус – це великий за обсягом корпус, що прагне до об’єднання у своїй структурі текстів найрізноманітніших жанрів і типів (сучасні технології дозволяють вбудовувати в національні корпуси аудіо- і відоматеріали, наприклад, Національний корпус російської мови
29
). Чим більший розмір такого корпусу, чим різноманітніша та точніша розмітка, чим ефективніше програмне забезпечення такого корпусу, тим вища його цінність як лінгвістичного ресурсу. Саме тому лінгвісти і програмісти, що зайняті створенням національних корпусів, головним чином вирішують питання матеріального та технічного оснащення, для того щоб матеріали корпусу були доступні для роботи і задоволення запитів користувачів. Важливість та необхідність створення таких корпусів важко переоцінити, адже, перш за все, вони збирають і зберігають мову для сучасників та майбутніх
29
http://www.ruscorpora.ru/
63

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
поколінь, дані цих корпусів дозволяють аналізувати стан багатьох мов світу у синхронічному та діахронічному аспектах
(якщо корпус включає історичні підкорпуси, а сама можливість поповнення корпусу вже передбачає діахронію).
Наприклад, Національний корпус російської мови (НКРМ) містить близько 200 млн. слововживань з текстів, які відносяться до всіх основних сфер використання російської мови (наукової, офіційно-ділової, публіцистичної, церковно-богословської, художньої, розмовно-побутової, включаючи усну й електронну комунікацію). Робота зі створення корпусу розпочалася в 2000 році, а у квітні 2004 року корпус вже було розміщено на офіційному сайті
30
У корпусі умовно виділяються дві частини – сучасна й діахронічна. Корпус сучасних текстів становлять тексти, що були створені у період 1951-2007 років. Обсяг цієї частини корпуса – 97,5 млн. слововживань, причому половина текстів відноситься до періоду після 2000 року. Діахронічна частина становить близько 53 млн. слововживань і поєднує тексти XVIII століття (1,1 млн. слововживань), XIX століття
(23,3 млн. слововживань прозаїчних текстів і 2,5 млн. слововживань у поетичному корпусі) і 1-ї половини XX століття
(25,4 млн. слововживань).
Основний масив текстів, зібраних у НКРЯ, охоплює період в 200 років, тому він найбільш пристосований для вивчення коротких (кілька десятиліть) і середніх (1-2 сторіччя) мовних змін.
Національний корпус російської мови в цей час включає наступні підкорпуси (субкорпуси) [Плунгян, Рахилина 2009: 21-
35]:
30
http://ruscorpora.ru/
64

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ

глибоко анотований корпус, у якому для кожного речення побудована повна морфологічна й синтаксична структура
(дерево залежностей);

паралельний російсько-англійський корпус текстів, у якому можна знайти всі переклади для певного російського або англійського слова або словосполучення;

корпус діалектних текстів, що включає запис діалектного мовлення різних регіонів Росії зі збереженням їх граматичної специфіки; передбачений спеціальний пошук з урахуванням діалектної морфології;

корпус поетичних текстів, у якому можливий пошук не тільки за лексичними і граматичними, але й за специфічними для вірша ознаками (пошук певної комбінації в сонетах, в епіграмах, у віршах, написаних амфібрахієм, з певним типом римування й т.п.);

навчальний корпус російської мови – корпус зі знятою омонімією, розмітка якого орієнтована на шкільну програму російської мови;

корпус усного мовлення включає розшифрування магнітофонних записів публічного й приватного усного мовлення, а також транскрипти кінофільмів 2000-х років.
Серед відомих національних корпусів також назвемо the
British National Corpus
(обсяг 100 млн. слововживань)
31
, the
American National Corpus (22 млн.)
32
, the PELCRA Referenc
Corpus of Polish Co rpus (100 млн.), the Czech National Corpus
(більше 100 млн.)
33
, the Hungarian National Corpus (187,6 млн.)
34
,
31
http://www.natcorp.ox.ac.uk/
32
http://americannationalcorpus.org/
33
http://korpus.cz/english/co_je_korpus.php
34
http://corpus.nytud.hu/mnsz/index_eng.html
65

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
the Hellenic National Corpus
(корпус сучасної грецької мови, загальним обсягом 47 млн. слововживань)
35
, the DWDS corpus
(обсяг 100 млн. слововживань)
36
, the Slovak National Corpus (339 млн.)
37
, the Modern Chinese Language Corpus
(100 млн. знаків)
38
Інші національні корпуси the FRANTEXT Database for French
39
, the Croatian National Corpus (101,3 млн.)
40
, Korpus 2000 for
Danish (28 млн.)
41
, the National Corpus of
Irish (30 млн. )
42
та інші
[детальніше про
інші корпуси див.: http://www.lancaster.ac.uk/fass/projects/corpus/cbls/corpora.asp].
Як ми вже зазначали у п.2.3, на базі Національної словникової бази
Українського мовно-інформаційного фонду НАН України також активно розробляється Український національний лінгвістичний корпус (УНЛК).
Національним корпусам протиставляються спеціальні, які створюються для вирішення конкретних лінгвістичних задач.
Спеціалізований корпус – це жанрово чи галузево специфічний корпус, що має на меті відобразити певну підмову. Наприклад, the
Guangzhou Petroleum English Corpus містить 411 612 слововживань писемного варіанту англійської мови, відібраних
із текстів нафтохімічної тематики. Сьогодні спостерігається підвищений інтерес до створення та використання спеціалізованих корпусів в освітній та професійних сферах.
Наприклад, the Corpus of Professional Spoken American English
35
http://hnc.ilsp.gr/en/default.asp
36
http://www.dwds.de/
37
http://korpus.juls.savba.sk/index_en.html
38
http://rocling.iis.sinica.edu.tw/CKIP/engversion/20corpus.htm
39
http://www.lib.uchicago.edu/efts/ARTFL/databases/TLF/
40
http://www.hnk.ffzg.hr/default_en.htm
41
http://korpus.dsl.dk/korpus2000/engelsk_summary.php?languk
42
http://www.focloir.ie/corpus/
66

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
(CPSA) складається з транскриптів комунікативних ситуацій з академічної та політичної професійних галузей. The Michigan
Corpus of Academic Spoken English (MICASE) містить біля 1,7 млн. слововживань (близько 200 годин записів) сучасного усного університетського мовлення, що було записано в
Мічиганському університеті.
Всередині цього типу корпусів можливо виділити корпуси одного автора чи одного жанру (наприклад, the Epistolary Corpus of Victorian Women Writers' Letters, the Shakespeare Corpus,
Корпус словаря языка Достоевского).
Надзвичайно ефективними для визначення рівня адекватності перекладу, удосконалення систем машинного перекладу і гармонізації термінології є паралельні корпуси, які складаються з оригінальних та перекладних текстів, що вирівняні по реченнях. Наприклад, до складу Національного корпусу російської мови станом на січень 2013 р. входять 8 двомовних паралельних корпусів: англійсько-російський (та, відповідно, російсько-англійський), німецько-російський, французько-російський,
іспансько-російський,
італійсько- російський, польсько-російський, українсько-російський та білорусько-російський (для кожної мовної пари подані також тексти, що перекладені у зворотному напрямку) [Шведова,
Січінава 2013: 95].
Особливий тип спеціальних корпусів – це так звані корпуси учнівського мовлення або учнівські корпуси (learner corpora), які укладаються з усних і/або писемних текстів, спродукованих особами, що вивчають мову як іноземну. Тут англійський термін
learner
, перекладається лексемою «учнівський», похідною від
іменника учень зі значенням «той, хто вчиться, вивчає щось», тобто під цим прикметником слід розуміти людину, яка навчається, безвідносно до віку.
Такі корпуси почали
67

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
створюватися ще в кінці 80-х на початку 90-х років ХХ століття.
Виділяють такі типи корпусів учнівського мовлення:
1)
комерційні, що ініціюються видавничими компаніями, vs
академічні корпуси, які укладаються навчальними закладами.
Хоча академічних корпусів більше, ніж комерційних, останні вирізняються більшим обсягом та більшою представленістю мов, що є рідними для тих, хто вивчає певну мову. Головними комерційними учнівськими корпусами для англійської мови є the Longman Learners’ Corpus та the Cambridge Learner Corpus, кожен обсягом понад 10 мільйонів слововживань. Академічні корпуси вирізняються різноманітністю структури та обсягу.
Серед них найбільш відомим та представницьким є the
International
Сorpus of Learner English (ICLE), загальним обсягом
2,5 млн. слововживань, в якому представлено есе носіїв 11 національних мов;
2)
великі vs малі за обсягом корпуси учнівського мовлення;
3) учнівські корпуси на матеріалі англійської vs інших мов.
Англійська мова, зрозуміло, домінує над іншими мовами. Серед найбільших учнівських корпусів слід назвати the International
Corpus of Le arner English та 25-мільйонний the Hong Kong
University of Science and Technology Learner Corpus, що містить тексти англійською мовою, створені винятково носіями китайської мови. Меншими за обсягом є учнівські корпуси носіїв норвезької мови (the EVA Corpus of Speech), іспанської мови (the APU Spanish Learner Corpus). Слід зауважити, що кількість учнівських корпусів для інших мов, окрім англійської, невпинно зростає. Для прикладу, вже укладено корпуси для французької, шведської, норвезької, голландської, іспанської, німецької та інших мов;
4) учнівські корпуси писемного vs усного мовлення;
68

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
5) корпуси для безпосереднього vs віддаленого в часі
використання для педагогічних цілей [детальніше про існуючі учнівські корпуси див.: http://www.lancs.ac.uk/fass/projects/ corpus/cbls/corpora.asp].
Корпуси учнівського мовлення є надзвичайно корисними не лише для лінгвістів, що цікавляться особливостями інтермови, але і для викладачів-методистів та спеціалістів, які займаються розробкою навчальних програм з англійської мови, оскільки такі корпуси дозволяють відслідкувати, як реально засвоює учень
іноземну мову (граматику, синтаксис, лексику), що засвоюється з труднощами або ж не засвоюється взагалі. Такі дані допоможуть скоректувати змістовну частину курсу англійської мови (чому навчати) в школах і на курсах.
Іншим типом корпусів, що виділяються за хронологічним параметром і зорієнтовані на вивчення та аналіз еволюційних процесів у конкретній мові, є історичні корпуси. Такий тип корпусів переважним чином укладається на матеріалі текстів однієї мови, відібраних у різні часові проміжки з метою вивчення історичної динаміки мовних змін [Xiao 2008: 401].
Історичні корпуси поділяються на синхронні та діахронні.
Синхронні історичні корпуси базуються на текстах конкретних
історичних періодів, наприклад, the Century of Prose Corpus обмежується текстами 1680-1780 рр. Діахронні історичні корпуси охоплюють довші часові відрізки, як, наприклад, the
Helsinki Corpus of English Texts, що включає тексти за десять століть (730-1710 рр.). Зауважимо, що такий поділ історичних корпусів є досить умовним, оскільки підкорпуси діахронних корпусів можуть розцінюватися як синхронні історичні корпуси
[Claridge 2008: 242].
В іншій класифікації історичні корпуси підрозділяються на динамічні та статичні. Статичні історичні корпуси мають
69

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
кінцевий розмір, а динамічні, навпаки, відкриті для поповнення
іншими текстами. Переважна кількість історичних корпусів включають не повнотекстові матеріали, а текстові вибірки з метою ширшої жанрової презентації (наприклад, наукові та юридичні документи, драматичні та художні твори, щоденники, особисті листи і т.ін.). Історичні корпуси також можуть бути анотованими, включаючи частиномовну й синтаксичну розмітку, та супроводжуватися соціолінгвістичною інформацією
[Vazquez, Esteban-Segura, Marques-Aguado 2011: 120].
Отож найбільш відомим історичним корпусом англійської мови вважається the Helsinki Corpus of English Texts
43
, який було укладено командою дослідників під керівництвом професора
Матті Ріссанен (Хельсінський університет) у період з 1984 по
1991 роки [Vazquez, Esteban-Segura, Marques-Aguado 2011: 121].
Корпус, безперечно, вважається основоположним проектом у галузі укладання історичних корпусів, що активізував подальші дослідження та розробки у цій сфері. Корпус містить біля 1,5 млн. слововживань, представлених у 400 текстах VIII-XVIII століть. Матеріал корпусу поділено на три періоди (Old, Middle and Еarly Modern English) та одинадцять підперіодів приблизно по 100 років. Кожен текстовий документ супроводжується коротким описом, що включає 25 параметрів (наприклад, соціолінгвістична інформація: стать автора, вік та соціальний статус; тип тексту: науковий текст, судовий документ, проповідь, щоденник, п’єса, особистий, офіційний лист і т.ін.).
Така різнопланова розмітка розширює сферу використання корпусу від встановлення та опису мовних змін до широких соціолінгвістичних та жанрових розвідок.
The H
elsinki Corpus of English Texts має декілька синтаксично анотованих версій, що дозволяє здійснювати
43
http://www.helsinki.fi/varieng/CoRD/corpora/HelsinkiCorpus/
70

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
пошук не лише за окремими словами (лексемами) і словосполученнями, але і за синтаксичними конструкціями: the
Brooklyn-Geneva-Amsterdam-Helsinki Corpus of Old English, the
Penn-Helsinki Parsed Corpus of Middle English (1150-
1500 рр., 1,2 млн. слововживань), the Penn-Helsinki Parsed Corpus of Early
Modern English (1500-
1700 рр., 1,7 млн. слововживань), the Penn
Parsed Corpus of Modern British English (1700-1914 рр., 1 млн. слововживань).
Ішим потужним проектом є A Representative Corpus of
Historical English Registers (ARCHER)
44
. Це багатожанровий корпус британського та американського варіантів англійської мови, що містить 1,8 млн. слововживань, представлених у 1037 текстах ранньоновоанглійського та пізньоновоанглійського періодів (1650-1990 рр.). Корпус створений у 1990 році
Д. Байбером та Е. Фінеганом. Сьогодні корпус є закритим проектом, що виконується консорціумом чотирнадцяти університетів із семи країн. Корпус є збалансованою репрезентацією семи писемних (щоденники, листи, художні твори, новини, наукові твори і т.ін.) та трьох усних жанрів
(діалоги з драматичних та прозових художніх творів, проповіді) британського (дві третини корпусу) та американського (одна третя корпусу) варіантів англійської мови. ARCHER супроводжується детальною розміткою граматичних і функціональних категорій, що уможливлює здійснення широкого кола досліджень історичної динаміки мови, дискурсу та жанру.
Крім the Helsinki Corpus та ARCHER, що охоплюють декілька століть, існує низка відомих історичних корпусів, що зосереджені на окремому періоді чи певному стилі або жанрі.
44
http://www.anglistik.unifreiburg.de/seminar/abteilungen/sprachwissens chaft/ls_mair/research/projects/archer
71

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Наприклад, The Lampeter Corpus of Еarly Modern English Tracts
45
– це збалансований корпус англійських текстів за період 1640-
1740 рр. загальним обсягом 1,1 млн. слововживань. До корпусу включено тексти з шести галузей знань (релігія, політика, економіка/торгівля, наука, юриспруденція та некласифіковані тексти). Корпус містить екстралінгвістичну розмітку, що надає
інформацію про автора тексту (ім’я, вік, стать, місце проживання, освіта, соціальний стан, політична приналежність), видавця, час та місце видання, текстові характеристики та бібліографічні джерела. Оскільки корпус надає у розпорядження дослідника повні тексти, то він може бути використаним і для вивчення текстової організації в ранньоновоанглійський період.
The Corpus of Early English Correspondence (CEEC)
46
містить
96 збірок 6039 особистих листів, написаних 778 особами (20% з яких жінки) між 1417 та 1681 роками, загальним обсягом 2,7 млн. слововживань.
Корпус супроводжується соціолінгвістичною інформацією про відправників. The Corpus of Early English Correspondence Extension (CEECE) є продовженням The Corpus of Early English Correspondence, містить 2,2 слововживань та охоплює період з 1681 по 1800 р.
The Zurich English Newspaper Corpus
47
– це корпус газетних текстів, що репрезентує 120 років історії Британської преси з
1671 по 1791 р. загальним обсягом 1,2 млн. слововживань.
Корпус включає повнотекстові газетні матеріали, а спеціальна розмітка дозволяє проводити порівняльні дослідження текстів новин XVII-XVIII ст. із сучасними новинними текстами.
45
http://khnt.hit.uib.no/icame/manuals/LAMPETER/LAMPHOME.HTM
46
http://www.helsinki.fi/varieng/domains/CEEC.html
47
http://es-zen.unizh.ch
72

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
The Innsbruck Computer Archive of Machine-Readable Texts
(ICAMET)
48
містить 500 текстів середньоанглійського періоду загальним обсягом 5,7 млн. слововживань. Корпус підрозділяється на The Prose Corpus (129 текстів, написаних у період з 110-1500), the Letter Corpus (254 листи датованих 1386-
1688 рр.) та the Prose Varia Corpus (переважно переклади та нормалізовані версії середньоанглійських текстів). Головною перевагою даного корпусу є включення до бази повнотекстових матеріалів, а не фрагментів, що дозволяє проводити різноаспектні лінгвістичні розвідки.
The Corpus of English Dialogues (CED)
49
(1560-1760) включає 1,2 млн. слововживань із діалогічних текстів ранньоновоанглійського періоду, датованих 1560-1760 рр.
Оскільки з об’єктивних причин безпосередній доступ до усного варіанта реалізації англійської мови зазначеного періоду відсутній, то корпус укладено на матеріалі текстів, що репрезентують усне мовлення (судові розгляди, свідчення свідків, драматичні твори, діалоги з художніх творів, дидактичні твори у формі діалогу та некласифіковані тексти).
The Corpus of Late Modern English Texts (CLMET)
50
, загальним обсягом понад 10 млн. слововживань, репрезентує тексти різних жанрів за 1710-1920 роки (від особистих листів до художніх і наукових творів, написаних чоловіками та жінками різних соціальних класів).
Слід також зазначити такі історичні корпуси, як the ProQuest
Historical Newspapers, A Linguistic Atlas of Early Middle English
(LAEME), the Corpus of Middle English Medical Texts (MEMT),
48
http://www.uibk.ac.at/anglistik/projects/icamet/
49
http://www.engelska.uu.se/corpus.html
50
http://www.helsinki.fi/varieng/CoRD/corpora/CLMETEV/
73

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
the
Corpus of Early Modern English Medical Texts (EMEMT) та
інші.
За типом мовних даних корпуси поділяються на корпуси писемного, усного мовлення та змішаного типу. У корпусах
писемного мовлення усний варіант реалізації мовної системи не представлений. Найпершим сучасним корпусом писемного англійського мовлення був корпус американського варіанту англійської мови the Brown University Standard Corpus of Present-
Day American English, услід за яким було укладено низку подібних корпусів. Іншими корпусами такого ж типу є the
Australian Corpus of English, що репрезентує австралійський писемний варіант англійської мови (1986- ). The Wellington
Corpus of Wr itten NZ English (WWC) представляє новозеландський писемний варіант англійської мови (1986-1990 рр.), а the Kolhapur Corpus відображає індійський писемний варіант англійської мови (1978-).
Корпуси усного мовлення включають транскрибовані версії реальних усних комунікативних ситуацій. Корпуси усного
мовлення – це спеціальні колекції ретельно відібраних текстових уривків (слів, фраз, речень), вимовлених численними мовцями за різних акустичних умов [Teubert 2007: 126].
Зважаючи на трудомісткість і напруженість збору усних даних порівняно із писемними, ці корпуси є значно меншими за обсягом. Серед корпусів усного мовлення назвемо the London-
Lund Corpus (LLC), the Lancaster/IBM Spoken English Corpus
(SEC), the Cambridge and Nottingham Corpus of Discourse in
English (CANCO DE), the Santa Barbara Corpus of Spoken
American English (SBCSAE) та the Wellington Corpus of Spoken
New Zealand English (WSC).
Підводячи підсумок огляду існуючих корпусів, зазначимо, що різноманіття наявних на сьогоднішній день корпусів аж
74

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
ніяким чином не обмежується наведеними вище даними. З огляду на розширення спектру лінгвістичних завдань, що ставлять перед собою дослідники мови, арсенал корпусної лінгвістики постійно поповнюється новими, більш досконалими розробками.
Запитання і завдання для самоперевірки

1.
Дайте визначення терміну «лінгвістичний корпус текстів»?
2.
Перерахуйте дистинктивні ознаки, за якими корпус текстів відрізняється від електронної бібліотеки та архіву.
Охарактеризуйте кожну з них.
3.
Проаналізуйте наведені класифікації типів корпусів. Яка із класифікацій видається Вам найбільш вдалою. Обґрунтуйте свою точку зору.
4.
Назвіть і схарактеризуйте існуючі типи корпусів. Наведіть приклади до кожного з типів та коротко опишіть основні характеристики цих корпусів.
5.
Відповідно до сфери Ваших наукових інтересів, відвідайте офіційні сторінки згаданих у розділі корпусів, використовуючи наведені у тексті посилання.
Проаналізуйте можливості обраних Вами корпусів, зазначивши їх переваги та недоліки.
75

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Розділ 4.
Поняття корпусної розмітки

4.1.
Типи корпусної розмітки

Лінгвістичний корпус за визначенням є такою колекцією природно мовних текстів, де здійснено розмітку (маркування) хоча б за одним лінгвістичним параметром. Ця ознака є такою, що вирізняє лінгвістичний корпус з-поміж великого числа
інших лінгвістичних інформаційно-інструментальних систем, баз даних та знань [Корпусна лінгвістика 2005: 33]. Процес розмітки (tagging, annotation) полягає в приписуванні текстам і
їх компонентам спеціальних міток (tag, tags):

зовнішніх, екстралінгвістичних (відомості про автора й відомості про текст: автор, назва, рік і місце видання, жанр, тематика; відомості про автора можуть включати не тільки його ім'я, але також вік, стать, роки життя й багато чого
іншого (це кодування інформації має назву метарозмітка);

структурних (розділ, абзац, речення, словоформа);

власне лінгвістичних, що описують лексичні, граматичні та
інші характеристики елементів тексту.
Набір цих метаданих багато в чому визначає можливості, що надаються корпусами дослідникам. Анотація додає цінності корпусу, адже суттєво розширює діапазон дослідницьких питань, що можуть бути досліджені на матеріалі даного корпусу. При виборі цих даних необхідно керуватися цілями дослідження й потребами лінгвістів, а також можливостями по внесенню в текст тих або інших додаткових ознак.
Зауважимо, що у корпусних студіях розрізняють
анотацію
(annotation) та структурне
маркування
(markup) корпусу/корпусних даних. Розмежування цих двох понять
76

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
виходить з визначення анотації Дж. Лічем, згідно якого «процес анотування корпусних даних – це додавання інтерпретованої, лінгвістичної інформації до електронного корпусу усного чи/або писемного мовлення» [Leech 1997: 2]. Під поняттям
«інтерпретована лінгвістична інформація» розуміється така анотація, яка в деякій мірі є продуктом розуміння тексту людським розумом (наприклад, анотація за частинами мови).
Маркування надає відносно об’єктивну верифіковану
інформацію про частини корпусу та структуру кожного тексту
[McEnery, Xiao, Tono 2006: 29].
Зупинимося дещо детальніше на структурній анотації
(corpus markup).
Терміносполука “структурна анотація” у спеціальній літературі має неоднакові дефініції. Найширше її розуміння знаходимо у Ч. Меєра, який використовує цю терміносполуку на позначення і структури тексту, і зовнішньої стосовно нього інформації (його бібліографічний опис, дані про мовців тощо) [Meyer 2002: 81] . У вужчому значенні

структурну анотацію” описують Ґ. Астон і Л. Бернард:
“...корисно вказувати межі глав, розділів, абзаців, речень, і т. д., а також особливу роль заголовків, переліків, приміток, посилань, супровідних підписів, покликів та ін.” [Aston , Burnard
1998: 24].
Міжнародний стандарт кодування текстової
інформації ТЕІ (англ. Text Encoding Initiative – проект кодування текстів), який “репрезентує ті ознаки тексту, які потребують експліцитної ідентифікації з метою сприяти текстовому опрацюванню за допомогою комп’ютерних програм” [ТЕІ]. Під елементами універсальної структури тексту розуміються

Поділіться з Вашими друзьями:
1   2   3   4   5   6   7


База даних захищена авторським правом ©divovo.in.ua 2017
звернутися до адміністрації

войти | регистрация
    Головна сторінка


загрузить материал