Навчальний посібник Вид-во жду ім. І. Франка Житомир 2013




Сторінка3/7
Дата конвертації25.12.2016
Розмір2.83 Kb.
ТипНавчальний посібник
1   2   3   4   5   6   7
ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
висловився Я. Свартвік [Svartvik, 2007: 12], в історії корпусів спочатку був так званий «кам’яний вік», або докомп’ютерний період, коли корпуси укладалися вручну на папері. Ці перші паперові доелектронні корпуси по суті були конкордансами, тобто алфавітними списками всіх ужитих у певному тексті/текстах слів у їх контекстному оточенні. Укладання таких паперових корпусів-конкордансів займало багато часу та вимагало напруженого аналізу, який здійснювався вручну.
Найвагомішу роль доелектронні корпуси відіграли в таких лінгвістичних проектах, як укладання конкордансів Біблії й літературних творів, а також написання граматик і словників
[Meyer, 2008: 1].
Конкорданси Біблії були першими серйозними корпусними дослідженнями лінгвістичного матеріалу. Дослідники Біблії та
їхні помічники уважно проглядали сторінку за сторінкою, рядок за рядком і вручну індексували всі слова. Етимологія латинського слова concordantia – згода, відповідність (con – від прийменника cum означає „з”; cor – „сердце”) пов’язана з початковим ідеологічним підтекстом цієї трудомісткої діяльності, а саме: підтвердити, що Біблія – це гармонійне божественне послання, а не збірка текстів із розрізнених джерел
[McCarthy, O’Keeffe, 2010: 3].
Ім’я францисканця Антонія Падуанського (1195–1231 рр.) пов’язується з першим відомим (анонімним) конкордансом
Біблії (the Concordantiae Morales), укладеного на основі
Вульгати (латинського перекладу Біблії 5 ст.). Відомою працею того ж періоду є конкорданс кардинала Хьюго де С. Каро, який у 1230 році за допомогою 500 монахів-домініканців у монастирі
Сент-Джеймс у Парижі уклав покажчик слів Вульгати. З того часу було укладено ще низку конкордансів Біблії: a Hebrew
Concordance
, укладений Ісаком Натаном бен-Калонімусом у XV
31

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
столітті, а також конкорданс Александра Крудена (A Complete
Concordanсe to the Holy Scriptures) (XVIII століття) та конкорданс Іакова Стронга (Exhaustive Concordance of the Bible), опублікований у 1890 році.
З-поміж цих конкордансів за обсягом та доступністю вирізняється конкорданс А. Крудена (1737 р.), що містив
2 370 000 слів, що за кількістю слів більше, ніж сама Біблія. Як не дивно, його укладання зайняло порівняно невеликий проміжок часу. Якщо для укладання конкордансу кардинала
Хьюго необхідна була допомога 500 монахів, то А. Круден витратив на укладання конкордансу лише два роки, працюючи по 18 годин на день [Fraser 1996].
Дещо згодом услід за конкордансами Біблії почали з’являтися конкорданси літературних творів. Наприклад, конкорданс праць У. Шекспіра Ендрю Бекета (A Concordance of
Shakespeare
) (1787 р.), конкорданс праць Дж. Чосера, що був укладений у 1871 році, проте, зважаючи на трудомісткість, опублікований лише у 1927 році.
Крім конкордансів значні за обсягом вибірки текстів використовувалися ще для укладання ранніх граматик. Як зазначає Ч. Мейер [Meyer, 2008: 3], навіть перші ранні відомі граматики класичних мов також можна вважати написаними на основі корпусів тестів, наприклад, у IV столітті до н.е. граматика Паніні описувала мову Ведів (санскрит), яка збереглася лише в корпусі ведичних текстів. Аристон
Александрійський, грецький учений I століття, у своїй праці
«
Неграматичні слова» описав нерегулярні граматичні конструкції в корпусі текстів Гомера.
Ранні граматики англійської мови також базувалися на класичній традиції використання в якості прикладів цитати з реальних текстів, особливо з художніх творів, як, наприклад,
32

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
граматика Роберт Лоуса «A Short Introduction to English
Grammar
» (1762 р.). Одна з найвідоміших граматик цього періоду – семитомна праця Отто Єсперсена (1909–1949 рр.) «A
Modern English Grammar on Historical Principles» також побудована винятково на прикладах, відібраних з величезної кількості текстів писемного варіанта англійської мови. Отто
Єсперсен належав до тієї плеяди лінгвістів, які були переконані, що лінгвістичний опис повинен базуватися не на вигаданих, а на реальних прикладах із текстів реальної мови. Тенденція до цитування літературних творів як прикладів до граматичних правил продовжилася в граматиках кінця ХІХ – середини ХХ століття такими авторами, як Дж. Керм, Н. Поутсма, Ч. Фріз.
Проте не всі граматисти притримувалися цієї традиції.
Наприклад, у відомій граматиці Генрі Світа «A New English
Grammar» (1892 р.) для ілюстрації аналізованих граматичних категорій використовуються вигадані дослідником приклади.
Дослідження великих масивів текстів також здійснювалися з метою укладання доступних словників. Починаючи зі словника Самуеля Джонсона (1755 р.), лексикографи використовували цитати з текстів відомих письменників, щоб проілюструвати значення слів та особливості їх уживання.
It is impossible for me to put even a remotely accurate
number on the quantity of slips I have had or still have: a
lot of them have been printed in my books, particularly
the four volumes of Modern EnglishGrammar, but at least
just as many were scrapped when the books were being
drafted, and I still have a considerable number of drawers
filled with unused material. I think a total of 3-400,000
will hardly be an exaggeration [Jespersen 1938: 213-215;
translation by D. Stoner].
33

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Лексикограф зібрав 150 000 ілюстративних цитат для 40 000 заголовних слів словника. Основою Oxford English Dictionary
(OED)
, що створювався під керівництвом Джеймса Муррея
(1880 р.), став 5 млн. корпус цитат на картках [McCarthy,
O’Keeffe, 2010: 4; Meyer, 2008: 8].
Багато словників мертвих мов використовували цитати із текстів, що представляли слово в контексті, в якості
ілюстративних прикладів. У сучасній корпусній лінгвістиці цей метод подібний за формою до конкордансу KWIC (Keу Word In
Context). Незважаючи на те, що сучасні комп’ютери суттєво спростили пошук та класифікацію прикладів вживання конкретного слова в текстах різних стилів і жанрів, ідеї використання текстів із корпусу все ще дуже схожі з тими, що використовувалися ранніми лексикографами і філологами, що не мали доступу до комп’ютерних технологій.
Інші масштабні лінгвістичні дослідження, що відбувалися на значних за обсягом масивах текстів у період з 1890-х до 1950- х, здійснювалися лише за фінансової підтримки та залучення великої кількості кваліфікованих помічників. Наприклад, з метою вдосконалення методів скоропису в суді Й. Кадінг (1898 р.) залучив значну кількість помічників Прусської державної служби, щоб проаналізувати частоту вживання слів в 11 млн. корпусі німецької мови. З навчальною метою у період 1920–
1940 рр. Торндайк та Лодж підрахували частоту слів у корпусі англійської мови обсягом до 18 млн. слів для укладення частотного словника слів. Цей словник використовувався для навчальних цілей. Впливовий (важливий) General Service List, укладений Вестом (1953), також побудований за частотним принципом.
34

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Найважливішим та найвпливовішим доелектронним корпусом вважається The Survey of English Usage, укладений
Рендольфом Квірком у 1959 р. в University College London.
Корпус представляв собою велику базу даних на картонних картках, які містили зразки щоденного спілкування (як писемного, так і усного) звичайних громадян. Цей проект став перехідним етапом у становленні корпусної лінгвістики.
Спочатку збереження даних в електронному форматі не передбачалося і лише через багато років по тому відбулося перенесення даних корпусу в електронну форму. Сьогодні базу даних корпусу можна переглянути на офіційному сайті проекту
5

2.2.
Корпусна лінгвістика з 60-х років ХХ ст. до пост 2000-х

Переважна кількість досліджень у царині сучасної корпусної лінгвістики розпочиналася на матеріалі англійської мови. Як зазначає С.А. Шаров [Шаров, 2003: 14], причиною цього був не стільки активний розвиток комп’ютерних технологій у США, скільки інтелектуальний клімат у британській лінгвістиці в 60–80-х роках ХХ століття. У США
5
http://www.ucl.ac.uk/english–usage
Like most facts of interest and importance … information
about the speaker-hearer’s competence … is neither
presented for direct observation nor extractable from
data by inductive procedures of any known sort

Corpus Linguistics does not exist [N. Chomsky
цит. за
Tognini-Bonelli, 2010: 14]
35

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
період формування засад корпусної лінгвістики (60-ті роки ХХ ст.) був ознаменований розквітом трансформаційної генеративної граматики (ТГГ). Корпусні студії були несхвально сприйняті в тогочасній науковій спільноті та зазнали суттєвої критики від засновника генеративізму Н. Хомського. Дослідник назвав корпусний спосіб накопичення мовних даних неадекватним і хибним для опису породжувальної здатності природної мови, оскільки інтуїція мовця є достатнім джерелом мовного матеріалу [McEnery, Wilson, 2001: 6; Селіванова, 2008:
668; McCarthy, O’Keeffe, 2010: 14].
Інші представники ТГГ також без зацікавлення поставилися до можливості вивчати дані про реальне функціонування мови,
і, як наслідок, провідні лінгвісти-теоретики того часу практично не підтримували й не проявляли зацікавленості до нових корпусів. У 1960-80-х роках корпусну лінгвістику взагалі було витіснено на периферію лінгвістичної дослідної парадигми
США.
На відміну від США, у британській лінгвістиці були сильними емпіричні тенденції, які передбачали використання реальних прикладів для перевірки лінгвістичних гіпотез (у першу чергу дослідження Джона Фьорса та його учнів – Грегорі,
Синклера, Хелідея та інш.) [Шаров, 2003: 15]. Це й привело до створення багатьох корпусів та розробки корпусних досліджень на матеріалі англійської мови.
Проте, незважаючи на непопулярність корпусних досліджень у США, все-таки перший комп’ютеризований корпус, що став стандартом для багатьох інших корпусів, був укладений саме у цій країні.
Корпуси першого покоління. Ідея створення корпусу (уже в сучасному його розумінні) зародилася в 60-х роках ХХ століття під значним впливом здійснених масштабних емпіричних
36

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
досліджень, про які ми вже зазначали. До кінця 1960-х існувало декілька невеликих корпусів, укладених на різних принципах.
Саме значні досягнення в сфері комп’ютерних технологій, а не в лінгвістиці дали поштовх до створення перших електронних корпусів. У середині ХХ століття комп’ютери лише входили у загальний вжиток. Це були перші примітивні машини, з якими було важко працювати, але їхній величезний потенціал було відразу розпізнано і залучено до лінгвістичних досліджень.
Комп’ютеризація текстів розпочалася з Father Busa’s Index
Thomisticus ще до 1950 року (завершено у 1978 р.), продовжуючи наукову традицію укладання конкордансів до праць значимих у культурному аспекті. Перші лінгвістичні корпуси текстів на машинних носіях з’явилися в 60-х роках ХХ сторіччя. За сучасними стандартами вони були дуже малими, але вирізнялися ретельно продуманою організацією.
На початку 60-х років ХХ ст. розпочалися два проекти по обидва боки Атлантики по створенню корпусів в електронному форматі. Ці проекти здійснювались одночасно і незалежно один від одного В університеті Единбурга в Шотландії формувався корпус усного мовлення, що включав транскрибовані версії повсякденних розмов носіїв британського варіанту англійської мови. Цей корпус досяг розміру лише у 300 000 слів. Причиною цьому стали трудомісткий процес збору та транскрибування усного мовлення та відсутність комп’ютера в університеті.
У цей же час у Браунівському університеті (США) Нельсон
Френсіс та Генрі Кучера розпочали укладання одномільйонного корпусу, який було названо за місцем його створення
Браунівським корпусом (the Brown Corpus)
6
. Створення корпусу мало на меті дослідження лінгвістичних особливостей американського варіанту англійської мови. Він містив 500 6
http://www.helsinki.fi/varieng/CoRD/corpora/BROWN/index.html
37

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
текстових уривків обсягом по 2 000 слововживань загальним обсягом біля 1 млн. слів. Тексти булі відібрані із п'ятнадцяти найбільш масових жанрів англомовної друкованої прози США, що були опубліковані в 1961 році: газетні статті (репортажі, передові статті, огляди), релігійна література, професійна література, науково-популярна література, белетристика, зразки ділової прози
(
у тому числі урядові документи), наукова література, художня проза, детективи та наукова фантастика, пригодницька література і вестерни, романтична література, гумористичні розповіді та оповідання (див. табл. 2).
Таблиця 2
Категоризація текстів у Браунівському корпусі
Code
Text category
No. of
samples
Proportion
(%)
A
Press reportage
44 8.8
B
Press editorials
27 5.4
C
Press reviews
17 3.4
D
Religion
17 3.4
E
Skills, trades and hobbies
38 7.6
F
Popular lore
44 8.8
G
Biographies and essays
77 15.4
H
Miscellaneous (reports, official documents)
30 6.0
J
Science (academic prose)
80 16.0
K
General fiction
29 5.8
L
Mystery and detective fiction
24 4.8
M
Science fiction
6 1.2
N
Western and adventure fiction
29 5.8
P
Romantic fiction
29 5.8
R
Humour
9 1.8
Total
500
100
38

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Корпус супроводжувався значною кількістю матеріалів його первинної статистичної обробки — частотний і алфавітно- частотний словник, різноманітні статистичні розподіли.
У. Френсіс та Г. Кучера ставили собі мету представити корпус текстів, що відповідав ясним і чітким критеріям відбору.
Зокрема, укладачами враховувалися такі характеристики, як:
1.
походження і склад тексту (автор повинен був бути уродженим носієм американського варіанту англійської мови, діалогічне мовлення повинно було займати менше половини всього обсягу тексту);
2.
часова віднесеність (всі відібрані до корпусу тексти були вперше опубліковані у 1961 році);
3.
збалансоване представлення різних жанрів;
4.
доступність для комп’ютерної обробки (спеціальні помітки для передачі графічних особливостей тексту і т. п.).
In 1962, when I (W. Nelson Francis) was in the early
stages of collecting the Brown Standard Corpus of
American English, I met Professor Robert Lees at a
linguistic conference. In response to his query about
my current interests, I said that I had a grant from the
U.S. Office of Education to compile a million-word
corpus of present-day American English for computer
use. He looked at me in amazement and asked, ‘Why in
the world are you doing that?’ I said something about
finding out the true facts about English grammar. I
have never forgotten his reply: ‘That is a complete
waste of your time and the government’s money. You
are a native speaker of English; in ten minutes you can
produce more illustrations of any point in English
grammar than you will find in many millions of words
of random text.’[Francis 1982: 7-8].
39

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Перша версія корпусу була представлена простим текстовим форматом (з невеликою кількістю структурної розмітки для виділення абзаців, заголовків, цитованих фрагментів і т. ін.). Пізніше у 1980 році корпус був доповнений розміткою частин мови та морфологічних ознак слів. Поява
Браунівського корпуса викликала загальний інтерес у науковій спільноті та стимулювала наукову дискусію, в якій обговорювалися критерії відбору текстів та потенційні можливості корпусу для наукового аналізу. Корпус швидко перетворився у популярний об’єкт лінгвістичних досліджень. Поступово в процесі його використання вчені дійшли до розуміння того, що провести певні порівняння і виявити конкретні закономірності можливо лише шляхом аналізу значних за розміром масивів текстів, які організовані за визначеними правилами. Так почали проводитися нові дослідження мови вже на більш високому і надійному рівні в межах нового напряму в лінгвістиці, яким стала корпусна лінгвістика.
Браунівський корпус перетворився у певний стандарт для створення інших аналогічних корпусів. Услід за ним з’явився його британський аналог – Ланкастерсько-Осло-Бергенський корпус (the Lancaster-Oslo-Bergen Corpus
7
), що був названий за місцем його створення. Його укладачі притримувались основних принципів укладання Браунівського корпусу – така ж сама середня довжина текстів, такі ж самі способи його представлення на машинному носії (15 жанрів вже британської масової друкованої продукції – 1961 року видання). Анотована версія корпусу з’явилася у 1985 році.
7
http://www.helsinki.fi/varieng/CoRD/corpora/LOB/index.html
40

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Створення Браунівського та Ланкастерського корпусів дало можливість проводити різноаспектні філологічні порівняння двох варіантів англійської мови (американського і британського) на текстах різних жанрів, доступних комп’ютерній обробці.
У 1970-і за моделлю близькою до Браунівського корпусу був створений частотний словник російської мови, укладений на основі корпусу текстів обсягом також в 1 млн. слів, що включав приблизно в однаковому співвідношенні суспільно-політичні, художні, наукові та науково-популярні тексти і драматургію.
Корпус містив внесену вручну лематизацію та частиномовну розмітку.
За форматом Браунівського та Ланкастерсько-Осло-
Бергенського корпусів з деякими модифікаціями було укладено низку інших корпусів, серед яких the Kolhapur Corpus of Indian
English, the Wellington Corpus of Written New Zealand English, the
Australian Corpus of English, the Corpus of English-Canadian
Writing, the Standard Corpus of Present-day English Language
Usage, the London-
Lund Corpus (LLC) (детальніше див.: http://www.uow.edu.au/
dlee/CBLLinks.htm ).
70- ті роки ХХ століття були періодом уповільнення темпів корпусних досліджень. Крім несприйняття ідей корпусної лінгвістики представниками панівного на той час лінгвістичного напряму: генеративної граматики, і як наслідок непопулярність корпусних студій серед більшості лінгвістів, не менш вагомою причиною такого стану були обмежені можливості комп’ютерної техніки. Комп’ютери все ще були величезними
Комп’ютерна обробка 60 000 слів у 1950 роках займала
більше 24 год. Сьогодні – мікросекунди.
41

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
калькуляторами з малим об’ємом пам’яті, а програмне забезпечення не відповідало нагальним потребам дослідників.
Незважаючи на ці об’єктивні причини, у корпусному мовознавстві все-таки були досягнуті певні результати.
Насамперед, це створення корпусів, що перевищили поріг в
1 млн. слововживань. Корпусним дослідникам стало очевидним, що корпус в один мільйон слів є недостатнім для адекватного відображення лексичних і граматичних властивостей мови.
Адже, як відомо, зі статистичної точки зору мова є великим набором нечастих подій, тобто слова з низькою частотою вживання є більш чисельними, ніж слова з високою частотою.
Для отримання надійних даних про особливості вживання мовної одиниці необхідно проаналізувати принаймні сотню прикладів, звідси дані про функціонування низькочастотних одиниць на невеликих за розміром корпусах можуть бути не достовірними. З цієї причини, а також у зв’язку із ростом технічних потужностей комп’ютерів, які стали здатними обробляти великі обсяги текстів, у 80-ті роки ХХ століття у світі було здійснено декілька спроб створити корпуси значно більших розмірів.
Корпуси другого покоління – це продукти Інтернету і характеризуються значним обсягом. Так, у кінці 80-х років у
Великобританії був створений перший мега-корпус, що задав новий стандарт для представницьких корпусів – Британський національний корпус (British National Corpus
8
). Цей корпус характеризується обсягом 100 млн. слів, використанням повних текстів, а не вибірок з текстів, підкорпусом усного мовлення (10 млн. слів), наявністю частиномовної розмітки та доступом через
Інтернет. Для корпусу використовувалася детальна класифікація документів за декількома параметрами: вид мовлення (писемне,
8
http://www.natcorp.ox.ac.uk/
42

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
усне приватне і усне публічне), для писемного за тематикою, типом видання (книги, періодика, машинописні тексти і т.п.), параметром утворення очікуваної аудиторії (високий, середній чи довільний) та складністю мови (складний, середній, простий).

За заданим Британським національним корпусом стандартом були укладені представницькі корпуси багатьох
європейських мов. За цією моделлю були створені національні корпуси іспанської, італійської, хорватської, чеської мов.
Подібний проект Банк англійської мови (the Bank of English) розпочався у 1980-і рр. У 1989 році його обсяг був 20 млн. слів, а у 2012 – 650 млн. слів. Банк англійської мови – це так званий моніторинговий корпус, що покликаний відслідковувати мовні зміни шляхом регулярного поповнення новими текстами та порівняння частотних параметрів, наприклад, таких, як зміна частоти слів та граматичних конструкцій, поява нових слів і т.ін.
Він охоплює англійське писемне та усне мовлення, а також різні територіальні варіанти англійської мови. Цей корпус є
Укладачі BNC для порівняння спробували
представити корпус у вигляді звичайної книжкової
продукції і одержали вражаючі показники. Якщо
видруковувати корпус на тонкому папері з
розрахунку 400 слів на сторінку, то весь його обсяг у
друкованому вигляді займатиме простір близько
10
м
2
. Для того, щоб прочитати цю продукцію зі
швидкістю 150 слів на хвилину, витрачаючи на це 8
годин щодня, знадобилося б 4 роки [Карпіловська
2006: 76]
43

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
продовженням COBUILD (Collins Birmingham University
International Language Database) корпусу Бермінгемського університету, що був розпочатий раніше – у 1980 р. Цей корпус став основою для словника Collins COBUILD English Dictionary та низки англійських граматик.
Банк англійської мови та Британський національний корпус мали потенційну підтримку від видавців, що використовували корпуси для укладання словників і граматик. Такими ж корпусами є Кембриджський
9
та Лонгманівський
10
корпуси, що
є закритими для вільного доступу і використовуються лише авторами та укладачами навчальних матеріалів видавництв.
Ще один вид корпусів представлений Інтернаціональним корпусом англійської мови (the International Corpus of English
11
).
Цей проект розпочався у 1990 році з метою здійснення порівняльного дослідження існуючих варіантів англійської мови. Двадцять центрів у всіх куточках світу працюють над створенням підкорпусів власного національного чи територіального варіанту англійської мови, дотримуючись
єдиного принципу побудови та граматичної анотації.
Успіх Британського національного корпусу у дослідженні британського варіанту англійської мови дав поштовх для створення американського відповідника. У 1999 році було засновано консорціум Американського національного корпусу
(the American National Corpus)
12
. У 2003 році була випущена перша частина (близько 10 млн. слів) корпусу, а за декілька
9
http://www.cambridge.org/gb/elt/catalogue/subject/item2701617/Camb ridge-International-Corpus/?site_locale=en_GB
10
http://www.cambridge.org/gb/elt/catalogue/subject/item2701617/Cam bridge-International-Corpus/?site_locale=en_GB
11
http://ice-corpora.net/ice/
12
http://americannationalcorpus.org/
44



Поділіться з Вашими друзьями:
1   2   3   4   5   6   7


База даних захищена авторським правом ©divovo.in.ua 2017
звернутися до адміністрації

войти | регистрация
    Головна сторінка


загрузить материал