Навчальний посібник Вид-во жду ім. І. Франка Житомир 2013



Pdf просмотр
Сторінка6/7
Дата конвертації25.12.2016
Розмір2.83 Kb.
ТипНавчальний посібник
1   2   3   4   5   6   7
ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
й екстралінгвістичні характеристики і т.д.). Наведемо приклад конкордансу слова witnessed [Baker, Hardie, McEnery 2006: 43]:
Рис. 1. Приклад конкордансу слова witnessed
Розглянемо інший приклад конкордансу слова invade з
BNC-BYU:
Рис. 2. Приклад конкордансу слова invade
94

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Задля підвищення ефективності досліджень до корпусних менеджерів висувається низка загальних вимог. Корпусний менеджер повинен будувати повні конкордансні списки; шукати не лише окремі слова, але й словосполучення; здійснювати пошук по шаблонах (складні запити); сортувати списки за декількома критеріями, що обираються користувачем; давати можливість відображати знайдені словоформи в розширеному контексті; подавати статистичну інформацію по окремих елементах корпусу; відображати леми, морфологічні характеристики словоформ і метадані (бібліографічні, типологічні), що залежать від ступеня розмітки корпусу; зберігати й роздруковувати результати; працювати як з окремими файлами, так і з корпусами, необмеженими по розміру; швидко обробляти запити й видавати результати; підтримувати різні формати текстових даних (txt, doc, rtf, html, xml ін.); бути легким (інтуїтивно зрозумілим) у використанні як для досвідченого, так і для початківця; і т.ін. [Захаров,
Богданова 2011: 55-56].
Як стверджують автори підручника “Corpus Linguistics:
Method, Theory and Practice” Т. МакЕнері та Е. Харді [McEnery,
Hardie 2012: 37-
48], історія розробки конкордансерів (тобто корпусних менеджерів) має тривалу історію, що розпочалася з діяльності Роберто Бузи. У 1951 році він вперше уклав машиночитані корпуси та отримав на їх основі перші автоматичні конкорданси. Хоча Буза і не винайшов конкорданс, оскільки вони укладалися вже протягом довгого часу і до нього
(Див розділ), тим не менш дослідник показав, що із незначними зусиллями процедура конкордансування може бути швидко і якісно застосована до електронних текстів. Це стало переломним моментом, коли укладання конкордансу перетворилося з трудомісткого заняття, що застосовувалося для
95

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
текстів особливого культурного значення (Біблія, Коран, праці
Шекспіра), на технологію, що в принципі може бути застосована до будь-якого тексту. Робота Р. Буза привела до появи конкордансерів першого покоління. Розроблені програми працювали лише на комп’ютері розробників, а тому застосовувати їх на інших комп’ютерах було практично не можливо. Тому кожна дослідницька група розробляла свою власну систему конкордансування і застосовувала її до даних, до яких мала місцевий доступ. Конкордансери першого покоління були функціонально обмеженими. Вони могли укладати лише
KWIC конкорданси, а інші маніпуляції з даними, наприклад створення списку усіх вжитих у корпусів слів, виконувалися окремими програмами. Крім того, перші конкордансери не розрізняли деякі символи, зокрема діакритичні знаки. З появою перших конкордансерів як раз і виникла необхідність створення стандартних правил анотування корпусних даних, щоб можна було безпечно передавати корпуси між дослідними центрами та створювати конкордансери, що будуть працювати на різних комп’ютерах та на різних корпусах. Досвід використання перших конкордансерів засвідчив, що замість однофункціональних програм, на зразок генераторів частотних списків, краще розробляти програми-конкондансери, які б поєднували різні операції та дозволяли різноаспектні маніпуляції з корпусними даними.
Конкордансери другого покоління з’явилися з появою машин сумісних з IBM-продукцією. Стало можливим розробляти конкордансери, які могли без проблем працювати на різних комп’ютерах, наприклад, the KAYE (1990), the Longman
Mini-Concordance (1989), Micro-
OCP (1988). Звичайно, ці програми набагато спростили роботу корпусних лінгвістів.
Якщо до цього над корпусом необхідно було працювати у
96

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
команді з програмістом, який розробляв необхідне програмне забезпечення, то з ПК-конкордансерами будь-який лінгвіст, який умів включати і працювати з ПК, міг використовувати корпуси. Ефект був миттєвим, і з кінця 1980-х років корпусна лінгвістика почала блискавично розвиватися. Проте слід зауважити, що конкордансери другого покоління теж мали багато недоліків і за деякими функціями були нічим не кращі за конкордансери попереднього покоління. Вони виконували мало функцій за винятком KWIC конкордансування, сортували за алфавітом правий та лівий контекст пошукового слова, продукували списки слів та надавали базові статистичні дані по корпусу. Крім того, були неузгодженості щодо кодування деяких символів, а також вони не могли оперувати великими обсягами даних. Разом з тим зростаючі потужності комп’ютерів сприяли появі конкордансерів третього покоління.
Конкордансери третього покоління включають такі добре відомі системи, як Wordsmith, MonoConc, AntConc, Xiara. Ці конкордансери можуть обробляти величезні масиви даних на
ПК (наприклад, 100-мільйонний Британський Національний
Корпус оперується конкордансером Xiara). Крім того, ці програми пропонують більше функцій та роблять більш складні статистичні операції. Конкордансери цього покоління можуть обробляти тексти на значно більшій кількості систем письма.
Примітно, що конкордансери третього покоління дуже схожі один на одного, особливо в аспекті їх базових функцій: конкорданси, частотні списки, сполучуваність (колокації), аналіз ключових слів.
Що ж стосується конкордансерів четвертого покоління, то вони разюче схожі у функціональному аспекті з конкордансерами третього покоління. Проте конкордансери цього покоління розроблялися не з метою розширення способів
97

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
аналізу даних, а для вирішення таких завдань, як обмежена потужність стаціонарних ПК; проблеми, що виникають з несумісними ПК операційними системами; юридичні/правові обмеження на розповсюдження корпусів. З метою дотримання авторських прав на тексти, що включені до корпусу, а також з метою забезпечення швидкого та масштабного доступу сучасні корпуси почали розповсюджувати через спеціальні веб
інтерфейси. На свій запит користувачі в межах секунд отримують обмежений обсяг контексту пошукового слова (1-3 речення) (наприклад, BNC, the Polish PELCRA, the Hellenic
National Corpus). Саме цей тип передачі даних за моделлю клієнт-сервер через специфічний спосіб – World Wide Web – є визначальною рисою цих корпусів. Як приклад програми аналізу корпусних даних четвертого покоління можна назвати систему, розроблену для Британського Національного корпусу
Марком Дейвісом, що була згодом ним розширена для забезпечення доступу до низки значних за обсягом корпусів через сайт corpus.byu.edu [McEnery, Hardie 2012: 37-48].
Для
ілюстрації роботи конкондансеру/корпусного менеджеру розглянемо програму AntConc
54
(розробник Laurence
Anthony).
Ця програма є однією із найзручніших безкоштовних комп’ютерних програм для роботи з корпусом, що може використовуватися у навчальних і в дослідницьких цілях, оскільки конкордансер є ефективним засобом для опанування
іноземної мови, сприяючи засвоєнню вокабуляру, сполучуваності, граматики та стилістики. AntConc має зручний і зрозумілий інтерфейс та пропонує опції потужного конкордансера, генератора частотного списку, аналізатора сполучуваності, а також візуалізує входження досліджуваних
54
http://www.antlab.sci.waseda.ac.jp/
98

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
слів у досліджуваному масиві. Ознайомимося із деякими опціями детальніше.
На рис.1 подано скріншот AntConc, на якому представлено результати роботи опції конкордансу. Дана опція дозволяє здійснювати пошук необхідного слова, видаючи кількість знайдених прикладів та контекст, в якому воно вживається у файлах корпусу. Програма надає можливість пошуку за окремими словами, словосполученнями, з урахуванням чи без урахування регістру клавіатури.


Рис. 1. Опція «concordance» конкондансеру AntConc
кількість знайдених прикладів пошукового слова назва файлу, в якому вживається пошукове слово пошукове слово пошукові опції пошукове слово у контексті файли корпусу
99

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Графік розподілу слова у файлах корпусу показує особливості вживання пошукового слова/словосполучення у частинах тексту файлів корпусу. Розглянемо, як розподіляється словосполучення in this paper у частинах наукової статті (див. рис.2):

Рис. 2. Результати розподілу словосполучення in this paper у
частинах наукової статті
кількість знайдених прикладів пошукового слова чи словосполучення у конкретному файлі
результати пошуку пошукове словосполучення кількість випадків вживання досліджуваного словосполучення
100

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Важливою опцією цієї програми є функція Word Clusters
(аналізатор сполучуваності). Ця функція дозволяє прослідкувати особливості оточення заданих слів/словосполучень в корпусі, регулюючи довжину ланцюжка (див. рис.3):


Рис.3. Результати сполучуваності словосполучення this paper
у досліджуваному масиві

Отже, конкордансер AntConc – це зручна і проста у використанні програма. Хоча вона не пропонує всіх сервісів та функцій, що є у популярних комерційних проектах, ця програма пошукове слово/словосполучення параметри довжини ланцюжка сполучуваності результати пошуку частота досліджуваного слововсплучення у масиві ранг досліджуваного слововсплучення у масиві
101

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
має низку важливих сервісів, необхідних для аналізу корпусу.
Більше про можливості AntConc можна дізнатися на сайті розробників
55
У сучасному розумінні корпус – це завжди комп'ютерна база даних, і в процесі його створення безсумнівним є використання спеціальних програм. Серед цих програм особливе місце займають програми автоматичної розмітки.
Розмітка корпусів є трудомісткою операцію, особливо враховуючи розміри сучасних корпусів. Для морфологічного й синтаксичного аналізу існують різні програмні засоби, які прийнято називати відповідно теггери (taggers) і парсери
(parsers). У результаті роботи програм автоматичного морфологічного аналізу кожній лексичній одиниці приписуються граматичні характеристики, включаючи частину мови, лему (нормальну форму) і набір грамем (наприклад, рід, число, відмінок, перехідність і т.п.). У результаті роботи програм автоматичного синтаксичного аналізу фіксуються синтаксичні зв'язки між словами й словосполученнями, а синтаксичним одиницям приписуються відповідні характеристики
(тип речення, синтаксична функція словосполучення й т.п.).
Однак автоматичний аналіз природньої мови не безпомилковий: він, як правило, дає кілька варіантів аналізу для однієї лексичної одиниці (слова, словосполучення, речення). У цьому випадку говорять про граматичну омонімію. Зняття неоднозначності (морфологічної, синтаксичної) у цілому є однією з найважливіших і найскладніших завдань комп'ютерної лінгвістики. При створенні корпусів для зняття неоднозначності використовуються автоматичні й ручні способи. Корпуси нового покоління включають сотні мільйонів слів, тому висуваються
55
http://www.antlab.sci.waseda.ac.jp/antconc_index.html
102

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
принципи розробки систем, які б мінімізували втручання людини. Автоматичне зняття морфологічної або синтаксичної омонімії, як правило, ґрунтується на використанні інформації більш високого рівня (синтаксичного, семантичного) із застосуванням статистичних методів.
Один із найвідоміших та надійніших тегерів для англійської мови є CLAWS (Constituent-Likelihood Automatic Word Tagging
System)
56
, розроблений в Ланкастерському університеті.
Зазначається, що розмітка тексту вказаним тегером досягає 97% точності. Ця система була використана для анотування
Британського Національного Корпусу. Частиномовні тегери розроблені і для інших мов, наприклад: французької, іспанської, німецької, шведської та китайської.

Запитання і завдання для самоперевірки.
1.
Охарактеризуйте етапи створення корпусу. Чи можливо опустити певні етапи? За яких умов?
2.
Назвіть процедури, що використовуються під час створення корпусу.
3.
Наведіть приклади корпусних менеджерів. У чому полягають їх особливості?
4.
Поясніть сутність стандартизації даних корпусу.
5.
Укладіть міні-корпус англомовних наукових статей з лінгвістики. Для цього з сайту провідного міжнародного
Інтернет-видавництва SAGE (http://online.sagepub.com/ browse/by/discipline)
відберіть 5 наукових журналів по лінгвістиці за останні 2-3 роки. З обраних журналів виберіть по 2 статті з будь-яких двох номерів одного журналу. Далі виконайте такі кроки:
56
http://ucrel.lancs.ac.uk/claws/
103

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Крок 1. Переформатуйте файли PDF в формат txt. У меню "Зберегти як" вибрати TXT файл.
Крок 2. Здійсніть рецензування текстових документів. Видаліть всю інформацію, що не є релевантною (інформацію про
інтернет-видавництво SAGE, формули, таблиці, діаграми, малюнки, поситлання, список використаних джерел, додатки, якщо є), при цьому залишаючи всі композиційні частини статті:
Abstract, Introduction, Methods, Results і т.ін. Текстові файли збережіть у такому вигляді:
1)
Автор.
2)
Назва статті.
3)
Назва журналу, № журналу, № сторінок, на яких представлена стаття.
4)
Текст статті.
Крок 3. Збережіть файловий документ, назвавши його по автору
і загаловку статті (наприклад, Biber_Variation in Scientific
Discourse).
Крок 4. Зберегти файли у папці під назвою журналу.
104

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Розділ 6.
Можливості використання корпусів у лінгвістичних
дослідженнях

6.1.
Сфери застосування лінгвістичних корпусів
Поява електронних корпусів суттєво змінила спосіб дослідження мовних явищ. Репрезентативні, збалансовані, значні за обсягом корпуси надають інформацію про динаміку процесів зміни лексичного складу мови, функціонування граматичних та синтаксичних одиниць, дозволяють здійснювати аналіз вживання мовних одиниць у різних стилях, жанрах, у різних авторів і т.ін. Корпуси надають недоступні для безпосереднього спостереження дані про реалізацію мовної системи, що в свою чергу відображається у словниках, граматиках та навчальних матеріалах. Якщо ранні корпусні дослідження зосереджувалися головним чином лише на вживаності мовних одиниць (н. д. частота вживання певних
іменників, дієслів та прикметників), то з появою потужних комп’ютерних технологій дослідники отримали змогу визначати та аналізувати більш складні лексичні, граматичні та синтаксичні явища.
На сьогоднішньому етапі свого існування корпуси масштабно використовуються як лінгвістичними, так і нелінгвістичними галузями.
Так, лінгвісти-теоретики використовують корпуси у якості експериментальної бази для перевірки гіпотез і доведення своїх теорій. Прикладні лінгвісти
(викладачі, перекладачі й т.п.) застосовують комп'ютерні корпуси для навчання іноземній мові і розв'язання своїх професійних завдань. Комп'ютерні лінгвісти послуговуються статистичними й лінгвістичними закономірностями, що були
105

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
виявлені на матеріалі корпусу, для створення комп'ютерних моделей мови. У соціолінгвістичних дослідженнях корпуси використовуються для вивчення мовного розмаїття (наприклад, соціолектів, регістрів). Інші фахівці з мови (літературознавці, редактори) також у ряді випадків звертаються до даних корпусу.
Крім того, корпуси використовуються для аналізу дискурсу, в літературознавстві, перекладознавстві, судовій лінгвістиці.
Фахівці із суспільних наук (історики, соціологи) теж можуть вивчати свої об'єкти через мову, використовуючи такі параметри текстів, як період, автор або жанр. Нарешті, корпуси використовуються для розробки й налаштування різних автоматизованих систем (машинний переклад, розпізнавання мовлення, інформаційний пошук).

6.2.
Лексикографічні та граматичні дослідження на
матеріалі корпусу
У галузі лексикографії корпусна лінгвістика не лише впровадила нові методи аналізу мовного матеріалу, але і значно розширила межі наукового дослідження. Використання корпусу в лексикографічній практиці замістило паперові картки автоматичним пошуком слів у корпусі та суттєво переорієнтувало підхід до відбору слів до слóвника, замінивши відбір слів, обумовлений особистими перевагами лексикографа, більш об’єктивними критеріями: даними про частоту та дистрибуцію слів у певних текстах чи жанрах. Переважна більшість сучасних словників є корпусоінформованими, а не
«укладачеінформованими» [McEnery, Gabrielatos, 2006: 48].
Одним із останніх нововведень у лексикографічній практиці стало розміщення у словниковій статті крім традиційної
106

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
інформації про значення та семантичні відношення одиниці також й інформації про її сполучуваність та дистрибуцію.
Ініціатором першого суто корпусобазованого словника англійської мови COBUILD (1987) був Джон Синклер. Сьогодні ж значна кількість словників укладається на основі даних лінгвістичних корпусів. Наприклад, практично всі відомі словники англійської мови (Collins, Webster, Macmillan і т.д.) створюються на матеріалі власних, закритих для загального доступу корпусів, котрі дозволяють зробити словник репрезентативним та відобразити в ньому останні тенденції в мові. Адже вивчення корпусів дозволяє одержувати точні дані про лексичний склад мови, певної підмови, жанру чи
індивідуального стилю письменника, виявити останні зміни в лексичному складі мов, різні його варіації (наприклад, поява й зникнення неологізмів) та включити ці дані до словника. Саме сучасність цих словників, побудованих на прикладах із «живих» реальних текстів, сприяє їхньому комерційному успіху.
Вже звичною практикою стало використання корпусів для укладання довідкової літератури – граматик, навчальних словників та довідників як для носіїв мови, так і для тих, хто її вивчає. Граматики все більше звертають увагу на лексику, а словники (особливо навчальні) включають у статті слóвника й граматичну інформацію. На даний момент вже існує декілька корпусобазованих граматик англійської мови, наприклад, загальних (Collins COBUILD English Grammar, 1990; Longman
Grammar of Spoken and Written English
, 1999) та таких, що акцентують увагу на певних аспектах (Collins COBUILD
Grammar Patterns 1: Verbs, 1996).
Таким чином, хоча це і не швидкий процес, проте мало- помалу все більше навчального матеріалу на сьогоднішній день стає „корпусоінформованим”. Зростає тенденція до вкладання
107

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
коштів у розробку значних за обсягом корпусів такими великими видавцями і розробниками навчальних матеріалів, як
Cambridge University Press, Oxford University Press, Pearson-
Longman, Collins-COBUILD and Macmillan.
6.3.
Використання корпусів у навчанні іноземної мови
Використання корпусів стає дедалі популярнішим у навчанні та вивченні мови. Вчителі та учні все частіше звертаються до корпусу для здійснення швидкого різнорівневого пошуку та аналізу найрізноманітнішої лінгвальної інформації, а конкорданс визнається зручним
інструментом для ефективного опанування мовою. Корпуси текстів слугують неоціненним ресурсом реальних прикладів вживання тих чи інших лексичних та граматичних одиниць, за умови, що учні і вчителі мають доступ до корпусів та обізнані з технікою роботи з корпусом.
Орієнтоване на дані навчання (data-driven learning)
іноземній мові, коли корпус стає головним джерелом та способом отримання лінгвістичних знань й умінь, отримує все більше прихильників серед сучасних студентів та вчителів. При цьому підході базоване на корпусі програмне забезпечення використовується для підтримки інтерактивної навчальної діяльності, а залучення «живого» мовлення з корпусу сприяє пробудженню у студентів інтересу до процесу вивчення мови та заохоченню їх до самостійного вивчення автентичного мовного матеріалу. Студент виконує активну роль дослідника мови, а вчитель лише направляє та сприяє навчанню [Zhukovska 2011,
Zhukovska 2012]
. Серед найбільш популярних корпусно- базованих програм та освітніх пакетів варто відзначити The
108

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
English Collocations CD-
ROM компанії
Cobuild
57
,
WordPilot
58
, ClozeMaker
59
Корпуси як джерела емпіричних даних відіграють вагому роль у лінгводидактиці. Визнано, що традиційні шкільні граматики та підручники досить часто проілюстровані штучно створеними чи відредактованими прикладами вживання певної лінгвістичної одиниці чи явища. Такі приклади є малоефективними для успішного навчання учнів використанню мови як засобу комунікації, оскільки вивчене ними може кардинально різнитися від реального функціонування мови. У цьому відношенні дослідження корпусів природньої мови надає більш точний та деталізований опис мови, що у свою чергу відображається у змісті педагогічних матеріалів, граматик та словників, а також дизайні навчальних програм та підручників.
Іншою сферою інновацій, що безпосередньо пов’язана із корпусною лінгвістикою – це укладання та аналіз учнівських корпусів (learner corpora), які надають важливу для вчителя
інформацію про те, як учні вивчають та засвоюють мову, про типові помилки у вживанні лексичних,граматичних та синтаксичних одиниць. Вагомим аспектом для методики навчання мови є також використання паралельних корпусів, що уможливлюють доступ до безпосередніх перекладних еквівалентів слова, фрази, синтаксичної конструкції. Такий
інструмент не тільки полегшує створення перекладних словників, базованих на реальних прикладах перекладацької практики, а і сприяє легшому вивченню та навчанню іноземної мови відповідно до комунікативної стратегії навчання.
Застосовуючи двомовні конкорданційні програми, комп’ютерна
57
http://www.athel.com/cobuild/collscd.html
58
http://www.compulang.com
59
http://www.edict.com.hk/clozemaker
109

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
система висвітлює обидва тексти поряд, і студент легко та швидко перекладає текст, оскільки не змушений шукати кожне невідоме слово у словнику. А от корпуси підручників з
іноземної мови надають можливість порівняти використання рідної мови в різних контекстах та мови, з якою мають справу учні у посібниках (див напр.: Harwood 2005; Römer 2004).
Аналіз таких невідповідностей допоможе при відборі текстів, які повинні бути включені до навчальних матеріалів. Огляд корпусів начальних текстів також може виявити, якою мірою тексти підручників впливають на усне та писемне мовлення учнів.
Крім того, останнім часом корпуси стали активно використовуватися для створення матеріалів для тестування та навчання вчителів з метою підвищенню рівня їх професіоналізму.
Отож, способи застосування корпусів у методиці навчання
іноземної мови можливо графічно зобразити таким чином
[McEnery, Gabrielatos, 2006: 51]:
Перелічені вище можливості використання корпусів не вичерпують всі сфери їх експлуатації. Із збільшенням обсягів та
Корпуси мовлення носіїв мови
Корпуси учнівського мовлення
Корпуси навчальних підручників
Джерела природних даних
Опис мови
Розуміння учнівського мовлення
Порівняння з першою мовою та корпусами учнівського мовлення
Корпусно-базовані навчальні матеріали та програмне забезпечення
Словники
Граматики
Навчальні програми
Підручники
Внесок до методики навчання
іноземної мови
110

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
удосконаленням технічного оснащення дослідницький потенціал корпусів невпинно зростає, що робить їх цінним лінгвістичним ресурсом.
Запитання і завдання для самоперевірки.
1.
Окресліть основні сфери застосування корпусних даних.
2.
Охарактеризуйте можливості експлуатації корпусів у лексикографічних та граматичних дослідженнях. Чи користуєтеся
Ви корпусобазованими
/ корпусоінформованими словниками, граматичними довідниками?
3.
Які переваги використання даних корпусів у навчанні та вивченні іноземної мови? Які труднощі/недоліки Ви вбачаєте у впровадженні корпуснобазованого підходу до вивчення іноземної мови?
4.
Чи користуєтесь Ви корпусом? Якого типу інформацію Ви шукаєте в корпусі?
111

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Додаток А

Найбільш відомі корпуси та ресурси

1. National corpora
The British National Corpus
The American National Corpus
The Polish National Corpus
The Czech National Corpus
The Hungarian National Corpus
The Russian Reference Corpus
The CORIS corpus
The Hellenic National Corpus
The German National Corpus
The Slovak National Corpus
The Modern Chinese Language Corpus
The Sejong Balanced Corpus
Other National corpora
2. Monitor corpora
The Bank of English
The global English Monitor Corpus
3. Corpora of the Brown family
Brown
Frown
LOB
Pre–LOB
FLOB
Kolhapur
ACE
112

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
WWC
LCMC

4. Synchronic corpora
The International Corpus of English
The Longman/Lancaster Corpus
The Longman Written American Corpus
The CREA corpus of Spanish
The LIVAC corpus of Chinese
5. Diachronic corpora
The Helsinki Corpus of English Texts
The ARCHER corpus
The Lampeter Corpus of Early Modern English Tracts
The Dictionary of Old English Corpus in Electronic Form
Early English Books Online
The Corpus of Early English Correspondence
The Zurich English Newspaper Corpus
The Innsbruck Computer Archive of Machine–Readable English Texts
The Corpus of English Dialogues
A Corpus of Late Eighteenth–Century Prose
A Corpus of Late Modern English Prose
6. Spoken corpora
The London–Lund Corpus
SEC, MARSEC and Aix–MARSEC
The Bergen Corpus of London Teenage Language
The Cambridge and Nottingham Corpus of Discourse in English
The Spoken Corpus of the Survey of English Dialects
The Intonational Variation in English Corpus
The Longman British Spoken Corpus
113

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
The Longman Spoken American Corpus
The Santa Barbara Corpus of Spoken American English
The Saarbrücken Corpus of Spoken English
The Switchboard Corpus
The Wellington Corpus of Spoken New Zealand English
The Limerick corpus of Irish English
The Hong Kong Corpus of Conversational English
7. Academic and professional English corpora
The Michigan Corpus of Academic Spoken English
The British Academic Spoken English corpus
The Reading Academic Text corpus
The Academic Corpus
The Corpus of Professional Spoken American English
The Corpus of Professional English
8. Parsed corpora
The Lancaster–Leeds Treebank
The Lancaster Parsed Corpus
The SUSANNE corpus
The CHRISTINE corpus
The LUCY corpus
ICE–GB
The Penn Treebank
Parsed historical corpora
9. Developmental and learner corpora
The Child Language Data Exchange System
The Louvain Corpus of Native English Essays
The Polytechnic of Wales corpus
The International Corpus of Learner English
The LINDSEI corpus
114

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
The Longman Learners’ Corpus
The Cambridge Learner Corpus

10. Multilingual corpora
The Canadian Hansard Corpus
The English–Norwegian Parallel Corpus
The English–Swedish Parallel Corpus
The Oslo Multilingual Corpus
The ET10/63 and ITU/CRATER parallel corpora
The IJS–ELAN Slovene–English Parallel Corpus
The CLUVI parallel corpus
European Corpus Initiative Multilingual Corpus I
The MULTEXT corpora
The PAROLE corpora
Multilingual Corpora for Cooperation
The EMILLE Corpus
The BFSU Chinese–English Parallel Corpus
The Babel Chinese–English Parallel Corpus
Hong Kong Parallel Text
11. Non–English monolingual corpora
The COSMAS corpora
The CETEMPúblico Corpus
The INL corpora
The CEG corpus
The Scottish Corpus of Texts and Speech
The Prague Dependency Treebank
Academia Sinica Balanced Corpus
Sinica Treebank
Penn Chinese Treebank
Spoken Chinese Corpus of Situated Discourse
115

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
12. Well–known distributors of corpus resources
CSLU
ELRA
ELSNET
ICAME
OTA
TRACTOR
116

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Список використаних джерел
1.
Балог В., Балог О. «Словарь української мови» за ред.
Б. Грінченка (1907–1909 рр.): електронна версія / В. Балог,
О. Балог // Лексикографічний бюлетень: Зб. наук. пр. – К.,
2007. –
Вип. 16. – С. 78-82.
2.
Баранов А.Н. Введение в прикладную лингвистику / А.Н.
Баранов. – Москва, 2001. – 358 с.
3.
Демська-Кульчицька О. Дещо про класифікацію текстових корпусів / О. Демська-Кульчицька // Наукові записки.
Серія: Мовознавство. – 2004. – 1 (11). – С. 153-157.
4.
Демська-Кульчицька О. Корпусна рецепція тексту / О.
Демська-Кульчицька // Наукові записки. Т. 111. Сер.
Філологічні науки. – 2010. – С.-3-6.
5.
Демська-Кульчицька О. Один з аспектів морфологічної анотації (до проблеми побудови тега) / О. Демська-
Кульчицька // Українська мова. – 2004. – № 1. – С. 26-38.
6.
Демська–Кульчицька О. Основи національного корпусу української мови [монографія] / О. М. Демська-
Кульчицька – Київ, 2005. – 218 с.
7.
Демська-Кульчицька О.М. Репрезентативність як ознака текстового корпусу / О.М. Демська-Кульчицька. –
Українська мова. – №3, 2005. – С. 100-107.
8.
Демська–Кульчицька О. М. Базові поняття корпусної лінгвістики / О.М. Демська–Кульчицька // Українська мова. – 2003 – №1. – С. 42-47.
9.
Жуковська В.В. Ресурси корпусної лінгвістики у дослідженні історичної динаміки мови / В.В.Жуковська //
Матеріали міжнародної наукової конференції «Слово і речення: синтактика, семантика, прагматика» – К.: Київ. ун- т ім. Б.Грінченка, 2013. – С.151-156.
117

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
10.
Жуковська В.В. Корпусна лінгвістика: історична перспектива та сучасний стан / В.В.Жуковська // Материали за 8-а международна научна практична конференция,
«Ключови въпроси в съвременната наука», – 2012. Том 18.
Филологични науки. София. «Бял ГРАД-БГ» ООД – 72 с.
11.
Захаров В.П. Корпусная лингвистика: Учебно–метод. пособие. / В.П. Захаров – СПб., 2005. – 48 с.
12.
Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов / В.П. Захаров,
С.Ю. Богданова. – Иркутск: ИГЛУ, 2011. – 161 с.
13.
Карпіловська Є.А. Вступ до прикладної лінгвістики: комп’ютерна лінгвістика: Підручник / Є.А.Карпіловська. —
Донецьк: ТОВ «Юго-Восток, Лтд», 2006.— 188 с.
Колпакова Г.В. Корпусная лингвистика и лексикография /
Г.В. Колпакова // Электронный научно-образовательный журнал ВГПУ «Грани познания» – №2 (12). – С. 1-9.
[
Электронный ресурс]. – Режим доступа: www.grani.vspu.ru
14.
Копотев М., Мустайоки А. Современная корпусна русистика / М. Копотев, А. Мустайоки // Инструментарий русистики: корпусные подходы. – Хельсинки, 2008. –
С. 7-24.
15.
Лозинська О. Фразеологічна одиниця KRĘCIĆ NOSEM у корпусах текстів польської мови / О. Лозинська // Проблеми слов’янознавства. – 2009. – Вип. 58. – С. 221-230.
16.
Максимів О. Корпус перської мови як джерело матеріалу для навчальних словників-мінімумів / О. Максимів // Вісник
Львівського університету. Серія філологічна. – № 45. –
С.164-169.
17.
Організація навчально-дослідницької роботи школярів із використанням українського національного лінгвістичного корпусу на матеріалах вивчення функціональних
118

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
можливостей сполучника та дослідження концептів
«праця», «робота» у текстах творів Тараса Шевченка
(методичні рекомендації) / С. О. Довгий, К. Я. Климова,
О. Б. Комова,
О. В. Лісовий,
М. В. Надутенко,
Н. М. Сидорчук,
О. Є. Стрижак,
В. А. Широков,
В. В. Шкурко, К. М. Якименко /(Під редакцією доктора технічних наук, кандидата фізико-математичних наук, академіка НАНУ В. А. Широкова і кандидата технічних наук О. Є. Стрижака) – Київ, 2012. – 66 с.
18.
Перцов Н.В. К суждениям о фактах русского языка в свете корпусных данных / Н.В. Перцов // Русский язык в научном освещении. – 2006. – № 1 (11). – С. 227-245.
19.
Плунгян В.А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики /
В.А. Плунгян // Русский язык в научном освещении. – №2
(16), 2008. –
С.7-20.
20.
Плунгян В.А. Почему современная лингвистика должна быть лингвистикой корпусов?: (публичная лекция, прочитанная 01.10.2009) [Электронный ресурс] /
В.А. Плунгян – Режим доступа: http://www.polit.ru/lectures/
2009/10/23/corpus.html.
21.
Плунгян В.А., Рахилина Е.В. Новые возможности национального корпуса русского языка как уникального интернет-ресурса / В.А. Плунгян, Е.В. Рахилина // Русский язык и литература в образовательной системе Армении: проблемы и перспективы. – Ер. «Лингва», 2009. – С. 21-35.
22.
Рычкова Л.В. Праблема састауных аб'ектау у корпусах славянскімоу і лінгвістьічных базах дадзеных / Л.В.
Рычкова // Мовознауства. Література. Культуралогія.
Фалькларыстыка. XIII Міжнародньї з'езд славыстау.
119

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Даклады беларускай дзлегацьіі. – Мінськ, 2003. – С. 184-
195.
23.
Селіванова О.О. Корпусна лінгвістика // О. Селіванова //
Сучасна лінгвістика: напрями та проблеми: підручник. –
Полтава: Довкілля-К, 2008. – С. 667-669.
24.
Шаров С.А. Представительный корпус русcкого языка в контексте мирового опыта / С.А. Шаров // НТИ. Сер.2. –
2003. –
№6. – С. 9-17.
25.
Шведова М., Січінава Д. Корпусна лінгвістика та лексико- граматична типологія /М.Шведова, Д.Січінава // Українське мовознавство. Київський національний університет імені
Тараса Шевченка – № 43. – 2013. – С. 95-103.
26.
Широков В.А., Бугаков О.В., Грязнухіна Т.О. та ін.
Корпусна лінгвістика / В.А. Широков, О.В. Бугаков, Т.О.
Грязнухіна та ін. – К.: Довіра, 2005. – 471 с.
27.
Шмелев А.Д. Языковые факты и корпусные данные / А.Д.
Шмелев [Электронный ресурс]. – Режим доступа: http://ruscorpora.ru
28.
Aarts J., Meijs. W. Corpus Linguistics: Recent developments in the Use of Computer Corpora in English Language Research / J.
Aarts, W. Meijs. – Amsterdam: Rodopi, 1984. – 425 p.
29.
Aijmer K., Stenstrom A.-B. Discourse patterns in spoken and written corpora
/ K. Aijmer, A.-B. Stenstrom. –
Amsterdam:John Benjamins Publishing Company, 2004. –
321 p.
30.
Altenberg B., Granger S. Lexis in contrast: corpus-based approaches / Altenberg B., Granger S. – Amsterdam: John
Benjamins Publishing Company, 2002. – 337 p.
31.
Anderman G., Rogers M. Incorporating Corpora. / G.
Anderman, M. Rogers // The Linguist and the Translator. –
120

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Multilingual Matters LTD, Clevedon Buffalo Toronto, 2008. –
278 p.
32.
Archer D. Questions and answers in the English courtroom
(1640–1760: a sociopragmatic analysis) / D. Archer. –
Amsterdam: John Benjamins Publishing Company, 2005. –
241 p.
33.
Asmussen J. Korpuslinguistische Verfahren zur Optimierung lexikalisch-semantischer Beschreibungen / J. Asmussen //
Sprachkorpora – Datenmengen und Erkenntnisfortschritt (Hrsg. von W. Kallmeyer, G. Zifonun). Institut fur Deutscher sprache.
Jahrbuch 2006. Berlin – N.J.: Walter de Gruyter, 2007 – S. 123-
151.
34.
Aston G., Burnard L. The BNC Handbook. Exploring the
British National Corpus with SARA / G. Aston, L. Burnard. –
Cambridge: Edinburgh University Press, 1998. – 250 p.
35.
Baker P. Public discourses of gay men / P. Baker. – London:
Routledge, 2005. – 266 p.
36.
Baker P., Hardie A., McEnery T. Glossary of Corpus
Linguistics / P. Baker, A. Hardie, T. McEnery. – Edinburgh
University Press, 2006 – 192 p.
37.
Baker P., McEnery T. A corpus-based approach to discourses of refugees and asylum seekers in UN and newspaper texts / P.
Baker, T. McEnery // Language and Politics. – 2005. –
№4
(2). – P. 197-226.
38.
Biber D. Representativeness in corpus design / D. Biber //
Literary and Linguistic Computing. – 1993. –
№ 8 (4). – P. 243-
57.
39.
Biber D. Using corpus-based methods to investigate grammar and use: some case studies on the use of verbs in English / D.
Biber // In Simpson and Swales (eds.). – 2001. – P. 101-115 121

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
40.
Biber D., Conrad S., Reppen R. Corpus Linguistics:
Investigating Language Structure and Use / D. Biber, S. Conrad,
R. Reppen. – Cambridge University Press, 1998.
[Електронний ресурс]. – Режим доступу: http://books.google.com.ua/ books?id=2h5F7TXa6psC&redir_esc=y
41.
Biber D., Johansson S., Leech G., Conrad S., Finegan E.
Longman Grammar of Spoken and Written English / D. Biber,
S. Johansson, G. Leech, S. Conrad, E. Finegan. – London:
Longman, 1999. – 613 p.
42.
Brazil D. A Grammar of Speech / D. Brazil. – Oxford
University Press, 1995. – 264 p.
43.
Burrows J. The Englishing of Juvenal: computational stylistics and translated texts / J. Burrows // Style. – 2002. –
№36 (4). –
P. 677-679.
44.
Carter R., McCarthy M. (1999) The English get-passive in spoken discourse: description and implications for an interpersonal grammar / R. Carter, M. McCarthy // English
Language and Linguistics. – 1999. –
№3 (1). – P. 41-58.
45.
Carter R., McCarthy M. Grammar and the spoken language / R.
Carter, M. McCarthy // Applied Linguistics – 1995. –
№16
(2). – P. 141-158.
46.
Charteris-Black J. Corpus approaches to critical metaphor analysis / J. Charteris. –Black Basingstoke: Palgrave-
Macmillan, 2004. – 417 p.
47.
Davies M. The 385+ million word corpus of contemporary
American English (1990– 2008+): design, architecture and linguistic insights / M. Davies // International Journal of Corpus
Linguistics. – 2009. –
№14 (2). – P. 159-190.
48.
Deignan A. Metaphor and corpus linguistics / A. Deignan //
Converging Evidence in Language and Communication
122

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Research 6. – Amsterdam: John Benjamins Publishing
Company, 2005. – 235 p.
49.
Duffley P.J. The gerund and the to-infinitive as subject / P.J.
Dufflei // Journal of English Linguistics. – 2003. –
№31 (4). –
P. 324-352.
50.
Fillmore Ch. Corpus linguistics or computer-aided armchair linguistics / Ch. Fillmore // Directions in corpus Linguistics:
Proceedings of Nobel Symposium 82. – Berlin, 1992. – P. 35-
60.
51.
Francis W. Language Corpora B.C. / W. Francis // In: Jan
Svartvik (ed.) Directions in Corpus Linguistics. Proceeding of
Nobel 82, Stockholm, 4–8. August, 1991, Berlin –New York:
Mouton de Gruyter. – P.17-35.
52.
Fraser M. (1996), Tools and Techniques for Computer–assisted
Biblical Studies / M. Fraser // Paper delivered to the New
Testament Research Seminar, Faculty of Theology, University of Oxford, June 1996.
[Електронний ресурс]. – Режим доступу: http://users.ox.ac.uk/
mikef/pubs/NT_Seminar_
Oxford_Fraser_1996.html.
53.
Ghadessy M., Alex H., Robert L. Small corpus studies and ELT: theory and practice / M. Ghadessy , H. Alex, L. Robert. – John
Benjamins Publishing Company, 2001. – 445 p.
54.
Ghadessy M., Gao Y. Small corpora and translation: comparing thematic organization in two languages / M. Ghadessy, Y. Gao
// In M. Ghadessy, A. Henry and R. L. Roseberry (eds.) Small
Corpus Studies and ELT: Theory and Practice. – Amsterdam and Philadelphia: John Benjamins Publishing Company, 2001. –
P. 335-359.
55.
Gilquin G. (2003) Causative get and have: so close, so different / G. Gilquin // Journal of English Linguistics. – 2003. –
№31 (2). – P. 125-148.
123

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
56.
Gries S. T. (2003) Towards a corpus based identification of prototypical instances of constructions / S.T. Gries // Annual
Review of Cognitive Linguistics. – 2003. –
№1. – P. 1-27.
57.
Gries S., Stefanowitsch, A. Extending collostructional analysis: a corpus-based perspective on ‘alternations’ / S. Gries, A.
Stefanowitsch // International Journal of Corpus Linguistics. –
2004. –
№9 (1). – P. 97-129.
58.
Hardt-Mautner G. Only connect: critical discourse analysis and corpus linguistics / G. Hardt-Mautner // UCREL Technical
Papers 6. – Lancaster University, 1995. – 325 p.
59.
Hunston S. Colligation, lexis, pattern and text / S. Hunston // In
Scott and Thompson (eds.).– 2001. – P. 13-33.
60.
Hunston S., Francis G. Pattern grammar / S. Hunston, G.
Francis. – Amsterdam: John Benjamins Publishing Company,
2000. – 288 p.
61.
Kennedy G. Introduction to corpus linguistics / G. Kennedy. –
Harlow, Essex: Longman, 1998. – 315 p.
62.
Koller V., Mautner, G. Computer applications in critical discourse analysis / V. Koller, G. Mautner // In C. Coffin, A.
Hewings, and K. O’Halloran (eds.), Applying English grammar: functional and corpus approaches. – London: Hodder and
Stoughton, 2004. – P. 216-228.
63.
Leech G. Introducing corpus annotation / G. Leech // Corpus
Annotation: Linguistic Information from Computer Text
Corpora. – Addison Wesley Longman, 1997. – P. 1-19.
64.
Leech G. New resources, or just better old ones? / G. Leech
// Corpus Linguistics and the Web. – Amsterdam: Rodopi,
2007. – P. 134-149.
65.
Malmkjær K. Love thy Neighbour: Will Parallel Corpora
Endear Linguists to Translators? / K. Malmkjær // Meta:
Translators' Journal. – 1998. – vol. 43. –
№4. – P. 534-541.
124

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
66.
McEnery T., Gabrielatos C. English Corpus Linguistics / T.
McEnery, C. Gabrielatos // The Handbook of English
Linguistics: McMahon-Blackwell Publishing, 2006 – P. 33-72 67.
MacEnery T., Hardie A. Corpus Linguistics: Method, Theory and Practice / T. MacEnery, A. Hardie. – Cambridge University
Press, 2012. – 294 p.
68.
McCarthy M., O’Keeffe A. What are corpora and how have they evolved? / M. McCarthy, A. O’Keeffe // The Routledge
Handbook of Corpus Linguistics. – Routledge, 2010. –
Р. 3-14.
69.
McEnery A., Kifle N. Epistemic modality in argumentative essays of second language writers / A. McEnery, N. Kifle // In
Flowerdew (ed.), Academic Discourse. – London: Longman,
2002. – P. 182-195.
70.
McEnery A., Xiao Z. Swearing in modern British English: the case of fuck in the BNC / A. McEnery, Z. Xiao // Language and
Literature. – 2004. –
№13 (3). – P. 237-270.
71.
McEnery A.M. Swearing in English: bad language, purity and power from 1586 to the present / A.M. McEnery. – London:
Routledge, 2005. – 276 p.
72.
McEnery T. Wilson A. Corpus Linguistics An introduction / T.
McEnery, A. Wilson. – Edinburgh: Edinburgh University Press,
2001. – 235 p.
73.
McEnery T., Xiao R., Tono Y. Corpus-based Language Studies: an Advanced Resource Book / T. McEnery, R. Xiao, Y. Tono. –
London: Routledge, 2006. – 386 p.
74.
Meyer C.F. English corpus linguistics / C.F. Meyer. –
Cambridge: Cambridge University Press, 2002. – 241 p.
75.
Meyer Ch. F. Pre-electronic corpora / Ch. F. Meyer // Corpus
Linguistics. An International Handbook. Edited by A. Lüdeling,
M. Kytö. – 2008. – Volume 1. – P. 1-15.
125

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
76.
Meyer Ch. P. English Corpus Linguistics. An introduction /
Ch.P. Meyer. – Cambridge University Press, 2004. – 168 p.
77.
Millar N. Modal verbs in time: frequency changes 1923–2006 /
N. Millar // International Journal of Corpus Linguistics. –
2009. –
№14 (2). – P. 191-220.
78.
Nesselhauf N. Collocations in a Learner Corpus /
N. Nesselhauf. – John Benjamins Publishing Company, 2005. –
331 p.
79.
Orpin D. Corpus linguistics and critical discourse analysis: examining the ideology of sleaze / D. Orpin // International
Journal of Corpus Linguistics. – 2005. –
№10 (1). – P. 37-61.
80.
Partington A. Patterns and meanings / A. Partington. –
Amsterdam:Benjamins, 1998. – 158 p.
81.
Partington A. Utterly content in each other’s company: semantic prosody and semantic preference / A. Partington // International
Journal of Corpus Linguistics. – 2004. –
№9 (1). – P. 131-156.
82.
Partington A., Morley J., Harman, L. Corpora and discourse /
A. Partington, J. Morley, L. Harman // Proceedings of CamConf
2002, Universita degli Studi di Camerino, Centro Linguistico d’Ateneo, September 27-29. – New York: Peter Lang, 2004. –
192 p.
83.
Renouf A. Lexical signals of word relations / A. Renouf // In
Scott and Thompson (eds.). – Liverpool University, 2001. –
388 p.
84.
Romer U., Schulze R. Exploring the Lexis–Grammar Interface /
U. Romer, R. Schulze. – John Benjamins Publishing Company,
2009. – 329 p.
85.
Schmid H.-J. English abstract nouns as conceptual shells: from corpus to cognition / H.-J. Schmid. – Berlin: Mouton de
Gruyter, 2000. – 421 p.
126

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
86.
Schonefeld D. Corpus linguistics and cognitivism / D.
Schonefeld // International Journal of Corpus Linguistics. –
1999. –
№4 (1). – P. 71-137.
87.
Semino A., Short M. Corpus stylistics / A. Semino, M. Short. –
London: Longman, 2004. – 204 p.
88.
Sinclair J. Corpus, Concordance, Collocation / J. Sinclair –
Oxford: Oxford University Press, 1991. –
170 р.
89.
Stefanowitsch A., Stefan Th., Gries M. de G. Corpora in
Cognitive Linguistics / A. Stefanowitsch, Th. Stefan, M. de G.
Gries. – Berlin, 2006. –
360 р.
90.
Stefanowitsch A., Stefan Th., Gries M. de G. Corpus-Based
Approaches to Metaphor and Metonymy / A. Stefanowitsch, Th.
Stefan, M. de G. Gries. – Berlin, 2006 – 318 p.
91.
Stubbs M. Conrad in the computer: examples of quantitative stylistic methods / M. Stubbs // Language and Literature. –
2005. –
№14 (1). – P. 5-24.
92.
Stubbs M. Text and corpus analysis: computer-assisted studies of language and culture / M. Stubbs. – Oxford: Blackwell,
1996. – 288 p.
93.
Svartvik J. Corpus linguistics 25+ years on / J.Svartvik. –
Amsterdam, NY 2007. – P. 11-27.
94.
TEI: Text Encoding Initiative. P5: Guidelines for Electronic
Text Encoding and Interchange. – 2008. – September, 11.
[
Електроний ресурс] – Режим доступу: http://www.tei-c. org/Guidelines/P5/
95.
Teubert W. Corpus linguistics and lexicography / W. Teubert //
Text Corpora and Multilingual Lexicography ed. by W.
Teubert – John Benjamins Publishing Company – Amsterdam/
Philadelphia, 2007 – P. 109-134.
127

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
96.
Tognini-Bonelli E. Corpus Linguistics at Work / E. Tognini-
Bonelli. – Amsterdam: John Benjamins Publishing Company,
2001. – 224 p.
97.
Tognini-Bonelli E. Theoretical overview of the evolution of corpus linguistics / E. Tognini-Bonelli // The Routledge
Handbook of Corpus Linguistics / Edited by Anne O’Keeffe and
Michael McCarthy. – Routledge, 2010. – 681 p.
98.
Vivanco V. The absence of connectives and the maintenance of coherence in publicity texts / V. Vivanco // Journal of
Pragmatics. – 2005. –
№37 (8). – P. 1233-1249.
99.
Wang S. Corpus-based approaches and discourse analysis in relation to reduplication and repetition / S. Wangs // Journal of
Pragmatics. – 2005. –
№37 (4). – P. 505-540.
Xiao R. Well-known and Influential Corpora / R. Xiao // Corpus
Linguistics. An International Handbook. Edited by A. Lüdeling, M.
Kytö. – 2008. Volume 1. – P. 383-457.
100.
Zanettin F. Bilingual Comparable Corpora and the Training of
Translators / F. Zanettin // Meta: Translators' Journal. – 1998. – vol. 43. –
№4. – P. 616-630.
101.
Zhukovska V.V. Teaching vocabulary through date-driven activities. XVII TESOL-Ukraine International Conference:
English in Globalised World. – Kamianets-Podilsky, 2012. –
P.201 102.
Zhukovska V.V. Corpus-based approach to teaching vocabulary and grammar // XVI TESOL-Ukraine International Conference
Current Studies in English «Linguistics and methodology perspectives» – Zhytomyr, Kamianets-Podilsky, 2011. – P.171.

128

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Англо-український глоссарій основних термінів та
понять корпусної лінгвістики

a
li
g
n
m
en
t
Alignment is the process of adding information about which parts of a text
(sentence, word combination, word) in language A in a parallel corpus correspond to the equivalent corresponding text parts in language B.
авт
ом
ат
ичне
вир
івню
ва
нн
я
текст
ів

Автоматичне
вирівнювання
– це процес паралельної сегментації оригінального тексту і його перекладу по реченнях, словосполученням, словам.
a
n
n
ot
a
ti
on

(a) Codes within a corpus that embody one or more linguistic analyses of the language in the corpus.
(b) The process of adding such information to a corpus.
ан
от
ац
ія
; р
оз
мі
тк
а
Анотація
– це а) довільна лінгвістична
інформація про лінгвально релевантні одиниці текстових даних, подана через формальний код, б) практика введення формалізованої лінгвістичної інформації в електронний текст; в) наявність такої
інформації у тексті.
Процес
розмітки
(tagging, annotation) полягає в приписуванні текстам і їх компонентам спеціальних міток (tag, tags):

зовнішніх, екстралінгвістичних;

структурних;

власне лінгвістичних.
129

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
a
rch
iv
e
An
archive is a text repository, often huge and opportunistically collected, and normally not structured.
ел
ект
ро
нний
ар
хі
в;
сх
ов
ищ
е
Електронний архів – це тексти на електронному носії, що представлені в не стандартизованій й не уніфікованій формі.
ba
la
nc
ed
co
rp
us

A balanced corpus contains texts from a wide range of different language genres and text domains and the relative sizes of each of its subsections have been chosen with the aim of adequately representing the range of language that exists in the population of texts being sampled.
зб
ал
ансо
ва
ний
ко
рп
ус

Збалансований
корпус складається з текстів різних стилів і жанрів, що представлені у репрезентативному співвідношенні.
co
ll
ig
a
ti
o
n

Colligation is a co-occurrence relationship between a word and a grammatical category or context.
ко
лі
га
ці
я
Колігація – це типова граматична сполучуваність слова
co
ll
o
ca
ti
o
n

Collocation is a co- occurrence relationship between two words, where one word is more likely to occur in the presence of the other than elsewhere.
ко
ло
ка
ці
я
Колокація – це типова лексична сполучуваність слова.
co
n
co
rd
a
n
ce

A concordance is a list of all of the occurrences of a particular search term in a corpus, presented within the context in which they occur - usually a few words to the left and right of the search term.
ко
нко
рд
анс

Конкорданс – список усіх уживань даного слова в лівосторонньому та правосторонньому контексті
130

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
co
n
co
rd
a
n
cer

A concordancer allows to search a corpus and retrieve from it a specific sequence of characters of any length (a word, part of a word, or a phrase).
ко
нко
рд
ансе
р,
к
ор
пу
сний
м
ене
джер

Конкордансер
(корпусний менеджер) – спеціальна пошукова система, що включає програмні засоби для пошуку даних у корпусі, отримання статистичної
інформації й надання результатів користувачеві в зручній формі.
Результати цієї процедури подаються у вигляді горизонтальних рядків із пошуковим словом посередині, що має назву KWIC (Key
Word In Context).
co
rp
u
s
A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research
60
кор
пус

Корпус текстів – це машиночитане, збалансоване, репрезентативне зібрання особливо розмічених
(анотованих) текстів, відібраних згідно фіксованих параметрів для досягнення визначеної лінгвістичної мети та досліджуваних нелінійно за принципом гіпертексту.
60
http://www.ahds.ac.uk/creating/guides/linguistic-corpora/chapter1.htm
131

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
co
rp
u
s
li
n
g
u
is
ti
cs

Corpus linguistics is a branch of applied linguistic concerned with the compilation and analysis of
corpora

computerized databases created for linguistic research.
ко
рп
усна
л
ін
гві
ст
ика

Корпусна лінгвістика – це галузь прикладного мовознавства, що займається визначенням загальних принципів побудови, обробки та експлуатації лінгвістичних корпусів даних (корпусів текстів)
із використанням сучасних комп’ютерних технологій, розробленням методики збору реальних мовних явищ – писемних та усних текстів, а також способів їх збереження та аналізу.
co
rp
u
s-

ba
se
d
i
nv
es
ti
g
a
ti
o
ns
Corpus-based investigations use a corpus as a source of examples to check researcher intuition or to examine the frequency and/or plausibility of the language contained within a smaller data set.
до
сл
ід
ж
ення
,
баз
ов
ан
і н
а
кор
пус
і;
кор
пус
об
аз
ов
ан
і
до
сл
ід
ж
ення

У
корпусобазованих дослідженнях дані корпусу використовуються для доведення, спростування чи уточнення визнаної на певному етапі розвитку наукової думки теорії чи гіпотези.
co
rpus
c
o
ns
tr
uc
ti
o
n

Corpus construction is the process of designing a corpus, collecting texts, encoding the corpus, assembling and storing the relevant metadata, marking up the texts where necessary and possibly adding linguistic annotation.
ст
во
рення

ко
рп
усу

Процес
створення
корпусу передбачає розробку засад його дизайну, відбору текстів, анотування та розмітки.
132

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
co
rp
u
s
d
ri
v
en

in
v
es
ti
g
at
ion
s
Corpus-driven investigations reject the characterisation of corpus linguistics as a method and claims instead that the corpus itself should be the sole source of our hypotheses about language.
до
сл
ід
ж
ення
, щ
о
уп
ра
вл
яю
тьс
я
ко
рп
усо
м;

ко
рп
усно
ке
ро
ва
ні


Корпусокеровані
дослідження
відмовляються від визнання корпусної лінгвістики як методу і стверджують, що корпус сам по собі є єдиним джерелом гіпотез про мову.
d
a
ta

In corpus linguistics, data
may refer to the texts contained in corpora and to statistics, concordances or collocations extracted from corpora.
дан
і к
ор
пус
у
Дані корпусу – це тексти, що входять до корпусу, а також різного роду дані, отримані в результаті аналізу корпусу.
d
a
ta
-d
ri
v
en
l
ea
rn
in
g

Data-driven learning is a way of using corpora in language teaching that involves the learners being given direct access to the corpus and a tool for searching it, the intention being that their exploration of the corpus helps their learning of the language.
ор
ієнт
ов
ане
на
д
ані

на
вча
ння

Орієнтоване на дані
навчання – це підхід до вивчення мови з використанням даних корпусу. Базоване на корпусі програмне забезпечення використовується для підтримки інтерактивної навчальної діяльності.
di
a
chr
o
ni
c
co
rpus

A diachronic corpus is a corpus that has been carefully built in order to be representative of a language or language variety over a particular period of time, so that it is possible for researchers to track linguistic changes within it.
ді
ах
ро
ні
чний
ко
рп
ус

Діахронічний корпус –
тип корпусу, що зорієнтований на вивчення та аналіз еволюційних процесів в конкретній мові; укладається переважним чином на матеріалі текстів однієї мови, відібраних у різні часові проміжки з метою вивчення
історичної динаміки мовних змін.
133

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
d
ia
le
ct

co
rp
u
s
A
dialect corpus is a specialised spoken corpus, which is compiled in order to carry out studies of regional variation.
кор
пус

діал
ек
тн
ог
о
мо
вл
ення

Корпус
діалектного
мовлення містить тексти, що репрезентують зразки діалектного мовлення.
d
y
n
a
mi
c
co
rp
u
s
A
dynamic corpus is continually growing over time, as opposed to a static corpus, which does not change in size once it has been built.
дина
мі
чний
ко
рп
ус

Динамічний корпус – тип корпусу, що передбачає систематичне збалансоване поповнення новими даними, таким чином забезпечуючи можливість відстежувати зміни у мові
із врахуванням аспекту діахронії.
en
co
d
in
g

Encoding is the process of representing a text as a sequence of characters in computer memory.
ко
ду
ва
ння

Кодування – це процес представлення тексту як набору спеціальних символів.
freq
u
en
cy
w
o
rd
l
is
t
A
frequency
word
list presents all the words in a given corpus and specifies for each word how many times it occurs in this corpus.
ча
ст
от
ний
сп
исо
к
сл
ів

Частотний список слів
– це список усіх вжитих у даному корпусі слів, із зазначенням скільки разів конкретне слово вживається у даному корпусі.
k
ey
w
o
rd
i
n
c
o
n
tex
t
(K
W
IC
)
Key word in context is a format for displaying a concordance where the search result is lined up in a central column, and the columns on either side contain a short chunk of the context preceding and following each result in the corpus.
кл
ю
чо
ве
сл
ово
в
ко
нт
екс
ті

Ключове
слово
в
контексті становить собою особливий формат представлення даних конкордансу, коли результати запиту подаються у вигляді горизонтальних рядків із пошуковим словом посередині, а по боках представлено ліво- та правосторонній контекст.
134

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
lea
rn
er
co
rp
o
ra

A learner corpus is a special corpus type, consisting of language output produced by learners of a language.
учні
всь
кий
ко
рп
ус;

ко
рп
ус
учні
всь
ко
го

мо
вл
ення

Учнівський корпус – тип корпусу, що укладається з усних і/або писемних текстів, породжених особами, що вивчають мову як іноземну
lemma
ti
sa
ti
o
n

Lemmatisation is a form of corpus annotation where every token in the corpus is labelled to indicate its lemma.
лем
ат
иза
ці
я
Лематизація – процес утворення початкової форми слова, виходячи з
інших його словоформ.
rep
res
en
ta
ti
v
en
es
s
Representativeness means that a corpus is sampled in such a way that it contains all the types of text, in the correct proportions, that are needed to make the contents of the corpus an accurate reflection of the whole of the language or variety that it samples.
репр
езент
ат
ивні
ст
ь
Репрезентативність полягає в здатності корпусу відображати всі властивості предметної галузі.
m
et
ad
at
a

Metadata in a corpus mean data about the texts (e.g. the author, date of publication, title and source of a written text, or information about the sex, age and social class of speakers in a spoken text).
ме
тада
ні

Метадані – це дані про дані корпусу
(бібліографічні, типологічні).
n
at
ion
al
c
or
p
u
s
A national corpus is a large corpus that attempts to represent a range of the language used in a particular national language community.
на
ці
он
ал
ьни
й
кор
пус

Національний корпус – це великий за обсягом корпус, що прагне до об’єднання у своїй структурі текстів найрізноманітніших жанрів і типів.
135

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
p
a
ra
ll
el
c
o
rp
u
s
A parallel corpus consists of two or more corpora that have been sampled in the same way from different languages.
па
ра
ле
ль
ний
кор
пус

Паралельний корпус – це корпус, який складається як мінімум з двох підкорпусів, один з яких є вихідним, а
інший містить тексти-переклади вихідного корпусу.
p
a
rs
ing

Parsing is the process of analysing the syntactic structure of a text or part of a text (such as a sentence).
синт
аксична

ро
зм
іт
ка
, па
рс
инг

Синтаксична розмітка описує синтаксичні зв'язки між лексичними одиницями й різні синтаксичні конструкції
(наприклад, підрядне речення, дієслівне словосполучення й т.п.).
p
a
rt
-of
-s
p
eec
h
t
a
g
g
in
g



Поділіться з Вашими друзьями:
1   2   3   4   5   6   7


База даних захищена авторським правом ©divovo.in.ua 2017
звернутися до адміністрації

войти | регистрация
    Головна сторінка


загрузить материал