Навчальний посібник Вид-во жду ім. І. Франка Житомир 2013Pdf просмотр
Сторінка5/7
Дата конвертації25.12.2016
Розмір2.83 Kb.
ТипНавчальний посібник
1   2   3   4   5   6   7

(заголовок),
(частина, розділ),
(абзац), (речення),
(епіграф), (дата), (примітка),
(пряма мова), (присвята), (рядок, у вірші),
(скорочення), (число) та ін.
77

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Отже, структурою тексту вважаємо такі його елементи, як назва, розділ, підрозділ, рубрика, присвята, епіграф, поклик, цитата, вживання алфавітів інших писемних систем, цифр тощо.
Структурне анотування – це виділення структурних елементів тексту за допомогою певної мови маркування; сукупність маркерів-вказівок на елементи зовнішньої будови тексту.
Під
лінгвістичною анотацією у корпусній лінгвістиці традиційно розуміють: а) довільну лінгвістичну інформацію про лінгвально релевантні одиниці текстових даних, поданих через формальний код; б) практику введення формалізованої лінгвістичної інформації в електронний текст; в) наявність такої
інформації у тексті [Демська-Кульчицька 2004: 26].
Лінгвістична анотація може здійснюватися на різних рівнях та набувати різних форм. Так, серед лінгвістичних типів розмітки виділяються:

Морфологічна розмітка. В іноземній термінології вживається термін part-of-speech tagging (POS-tagging), дослівно – частиномовна розмітка. У дійсності морфологічні мітки включають не тільки ознаки частини мови, але й ознаки граматичних категорій, властивих даній частині мови. Це основний тип розмітки, оскільки, по- перше, більшість великих корпусів є саме морфологічно розміченими корпусами, по-друге, морфологічний аналіз розглядається як основа для подальших форм аналізу – синтаксичного й семантичного, і, по-третє, успіхи в комп'ютерній морфології дозволяють автоматично розмічати корпуси великих розмірів. Наведемо приклад частиномовної розмітки з корпусу LOB: hospitality_NN is_BEZ an_AT excellent_JJ virtue_NN ,_, but_CC not_XNOT when_WRB the_ATI guests_NNS have_HV to_TO sleep_VB in_IN rows_NNS in_IN the_ATI
78

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
cellar_NN !_! the_ATI lovers_NNS ,_, whose_WP$ chief_JJB scene_NN was_BEDZ cut_VBN at_IN the_ATI last_AP moment_NN ,_, had_HVD comparatively_RB little_AP to_TO sing_VB '_' he_PP3A stole_VBD my_PP$ wallet_NN !_! '_' roared_VBD Rollinson_NP ._.
Інший приклад такого типу розмітки з THE SPOKEN
ENGLISH CORPUS:
[S[N Nemo_NP1 ,_, [N the_AT killer_NN1 whale_NN1 N] ,_,
[Fr[N who_PNQS N][V 'd_VHD grown_VVN [J too_RG big_JJ [P for_IF [N his_APP$ pool_NN1 [P on_II [N Clacton_NP1
Pier_NNL1 N]P]N]P]J]V]Fr]N] ,_, [V has_VHZ arrived_VVN safely_RR [P at_II [N his_APP$ new_JJ home_NN1 [P in_II [N
Windsor_NP1 [ safari_NN1 park_NNL1 ]N]P]N]P]V] ._. S]
[http://ucrel.lancs.ac.uk/annotation.html ]

Синтаксична розмітка, що є результатом синтаксичного аналізу, або парсинга (parsing), виконуваного на основі даних морфологічного аналізу. Цей вид розмітки описує синтаксичні зв'язки між лексичними одиницями й різні синтаксичні конструкції (наприклад, підрядне речення, дієслівне словосполучення й т.п.). Наприклад, речення The
cat sat on the mat у корпусі буде представлено таким чином:
[Baker, Hardie, McEnery 2006: 130]
79

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ

Семантична розмітка. Хоча для семантики немає єдиної семантичної теорії, найчастіше семантичні теги позначають семантичні категорії, до яких відноситься дане слово або словосполучення, і більш вузькі підкатегорії, що специфікують його значення, наприклад:
PPIS1 I Z8
VV0 like E2+
AT1 a Z5
JJ particular A4.2+
NN1 shade O4.3
IO of Z5
NN1 lipstick B4
[http://ucrel.lancs.ac.uk/annotation.html]

Анафорична розмітка. Фіксує референтні зв'язки, наприклад, займенникові:
ANAPHORIC ANNOTATION OF A NEWSWIRE
S.1 The state Supreme Court has refused to release Rahway
State Prison inmate James Scott on bail.
S.2 The fighter is serving 30-40 years for a 1975 armed robbery conviction.
S.3 Scott had asked for freedom while he waits for an appeal decision.
S.4 Meanwhile, his promoter, Murad Muhammed, said
Wednesday he netted only $15,250 for Scott's nationally televised light heavyweight fight against ranking contender Yaqui Lopez last
Saturday.
S.5 The fight, in which Scott won a unanimous decision over
Lopez, grossed $135,000 for Muhammed's firm, Triangle
Productions of Newar;
80

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
S.1 (0) The state Supreme Court has refused to release
{1 [2 Rahway State Prison 2] inmate 1}} (1 James Scott 1) on bail .
S.2 (1 The fighter 1) is serving 30-40 years for a 1975 armed robbery conviction .
S.3 (1 Scott 1) had asked for freedom while <1 he waits for an appeal decision .
S.4 Meanwhile , [3 <1 his promoter 3] , {{3 Murad Muhammed
3} , said Wednesday <3 he netted only $15,250 for (4 [1 Scott 1] 's nationally televised light heavyweight fight against {5 ranking contender 5}} (5 Yaqui Lopez 5) last Saturday 4) .
S.5 (4 The fight , in which [1 Scott 1] won a unanimous decision over (5 Lopez 5) 4) , grossed $135,000 for [6 [3 Muhammed 3] 's firm 6], {{6 Triangle Productions of Newark 6} , <3 he said .
[http://ucrel.lancs.ac.uk/annotation.html]

Просодична розмітка. У просодичних корпусах застосовуються мітки, що описують наголос та інтонацію.
У корпусах усного розмовного мовлення просодична розмітка часто супроводжується так званою дискурсною розміткою, яка служить для позначення пауз, повторів, застережень, і т.д. Як приклад просодичної розмітки наведено частину LONDON-LUND CORPUS [Leech 1997]: well ^very nice of you to ((come and)) _spare the !t\/ime and #
^come and !t\alk # -
^tell me a’bout the - !pr\oblems#
And ^incidentally# .
^I [@:] ^do ^do t\ell me#
^anything you ‘want about the :college in ”!g\eneral
81

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Інший тип інформації також може бути закодований у корпусі. Наприклад, у корпусах розмовного мовлення може бути представлена соціолінгвістична інформація про такі риси як стать, вік, приналежність до соціального прошарку та місце проживання.

4.2.
Вимоги до розмітки

Розмітка повинна відповідати низці вимог, семи максимам
Дж. Ліча [Leech 1997: 6-7]. Розмітка мусить бути незалежною від тексту: повинна бути можливість прибрати розмітку і переглянути текст без неї, і, навпаки, вичленувати саму лише розмітку. Принципи розмітки, їх розробники та спосіб внесення розмітки в корпус повинні бути відомими кінцевому користувачу. Користувач повинен бути поставлений до відома про те, що розмітка не є безпомилковою, а являє собою лише потенційно корисний інструмент. В основу розмітки повинні бути покладені загальноприйняті і, по можливості, теоретично нейтральні лінгвістичні принципи. І, насамкінець, жодна розмітка не може апріорно вважатися стандартом. Реалізація будь-якого типу анотування передбачає низку процедур:
1. Сегментизація тексту.
2. Формалізація параметрів анотування.
За даними дослідження Райсона та інш. (1997) мовці
з економічно забезпечених прошарків вживають
прислівники actually та really частіше ніж мовці з
менш забезпечених прошарків, які натомість більш
схильні використовувати слова say, said, saying,
числа та непристойні слова.
82

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
3. Створення тегсету чи набору формальних кодів з відповідною семантикою.
4. Визначення анотаційної схеми та її принципів.
Автори монографії «Корпусна лінгвістика» [Корпусна лінгвістика , 2005: 51-53] зазначають такі критерії застосування стандарту:
1)
Достатність: набір структурних елементів повинен бути достатньо широким, щоб забезпечити хоча б більшість вимог.
Водночас бажано, щоб схема розмітки не містила надлишкову
інформацію.
2)
Несуперечливість: схема розмітки має бути сформована на базі несуперечливих правил, які б дозволяли однозначно визначити, які об’єкти належать до тегів, які – до атрибутів, що
є вмістом тега тощо.
3)
Відтворюваність: схема кодування повинна ґрунтуватися на чітко визначених правилах, що дає можливість відтворити вихідний текст за допомогою простих алгоритмів.
4)
Коректність: за допомогою спеціального програмного забезпечення відбувається перевірка відповідності міток у документах їх структурним специфікаціям.
5)
Можливість збору даних: збір даних включає безпосереднє накопичення даних (за допомогою ручного вводу або з використанням автоматичного розпізнання тексту) та проведенням кодування даних.
6)
Технологічність: урахування потреб, пов’язаних з автоматичною обробкою текстів (вибір тексту згідно зі встановленими критеріями, використання спеціальних механізмів, типу міжтекстових покажчиків, поєднання текстів або інших елементів корпусу) тощо.
7)
Можливість масштабування: важливо, щоб будь-яка створена схема мала можливість поповнюватися.
83

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
8)
Компактність: проведення розмітки може істотно вплинути на розмір файлу, від чого залежить швидкість обробки даних текстів. Серед можливих методів досягнення компактності називають мінімізацію тегу, наприклад, пропущення або скорочення кінцевого тегу, застосування специфічних кінцевих тегів елементів або відмова від останніх; використання XML схеми розмітки тощо.
9)
Зрозумілість: коли виникає потреба у безпосередній роботі користувача з текстом без використання спеціального програмного супроводу, прозорість розмітки є досить важливою.
Важливим у корпусній лінгвістиці залишається питання створення засобів автоматичного
(чи, принаймні, автоматизованого) анотування текстів за різними критеріями – морфологічними, орфоепічними, семантичними, синтаксичними тощо.
Запитання і завдання для самоперевірки.
1.
Поясніть у чому полягає суть корпусної розмітки.
2.
У чому полягає відмінність між анотацією та структурним маркуванням корпусних даних?
3.
Що включає в себе структурне маркування тексту?
4.
Дайте визначення лінгвістичній анотації. Назвіть типи лінгвістичної анотації.
5.
Охарактеризуйте головні вимоги до корпусної розмітки.
6.
Які на Вашу думку переваги та недоліки анотованих корпусів?
84

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Розділ 5.
Технологія створення корпусів та комп’ютерні програми
для роботи з корпусом

5.1.
Етапи створення корпусу
Кожного року кількість корпусів для розв’язання різного роду дослідницьких завдань невпинно зростає. Тому перед тим, як починати створювати власний корпус, дослідник повинен впевнитися, що на даний момент не існує корпусу, який би відповідав його специфічній дослідницькій меті. Якщо ж лінгвіст все-таки вирішив укласти власний корпус, то технологічний процес його створення передбачає поступове виконання таких кроків:
1.
Визначення джерел лінгвального матеріалу. Дані для корпусу можна відібрати з двох головних джерел: публічно доступних текстів (джерел) та приватно доступних джерел.
Публічно доступні дані можна відібрати з низки джерел. Це передусім газети, журнали, інтернет-сайти. Одна з головних проблем, з якою стикнеться дослідник при відборі матеріалу для корпусу – це авторські права. Дотримання авторських прав на матеріали передбачає отримання дозволу на використання текстів для дослідницьких цілей. Закони щодо авторських прав різняться у різних країнах, тому укладач повинен знати про закони, що охороняють авторські права не лише у своїй країні, але і в інших державах. Найбезпечніший шлях уникнути проблем із законодавством – це використати тексти із відкритих джерел, наприклад, текстових архівів, що є у вільному доступі в
Інтернеті, як Project Gutenberg (детальніше про джерела текстів у вільному доступі див.: www.copyright.gov/title17/ ).
85

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
Під приватними джерелами розуміються дані, яких немає у вільному доступі, наприклад, особисті листи, документація компаній, твори і т.інш. Такі тексти є власністю конкретної особи чи осіб, компанії, тому доступ до них є обмеженим, а то і закритим. Звідси досліднику необхідно отримати дозвіл у власників на право користуватися цими документами та оприлюднення даних дослідження.
2.
Введення даних. Існує три способи введення даних у корпус: адаптація даних в електронному форматі, сканування та ручне введення.
Готові тексти в електронному форматі є найлегшим способом внесення даних у корпус. Зважаючи на те, що більшість корпусних менеджерів підтримують документи з розширенням .txt, тексти в інших форматах повинні бути переформатовані.
Якщо необхідні тексти існують лише у друкованому вигляді, їх конвертують в електронну форму за допомогою сканування. Це можуть бути рідкісні чи старі видання, що не мають цифрових версій. Звичайно, сканування потребує гарного технічного та програмного забезпечення. Скановані версії не позбавлені недоліків, тому після оцифровки тексти необхідно звірити з оригіналом та виправити помилки. Проте найбільш працемістким та часомістким процесом є ручний набір текстів.
Такого методу введення даних до корпусу не уникнути, якщо текст знаходиться у такому стані, що сканування є неможливим чи існує лише рукописна версія документа.
3.
Попереднє опрацювання тексту. На цьому етапі всі тексти, отримані з різних джерел, проходять філологічну перевірку й коректування. Здійснюється також підготовка бібліографічного й екстралінгвістичного опису тексту.
86

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
4.
Конвертування й графематичний аналіз. Деякі тексти проходять також через один або кілька етапів попередньої машинної обробки, у ході яких здійснюються різного роду перекодування (якщо потрібно), видалення або перетворення нетекстових елементів (малюнки, таблиці, графіки, формули), видалення з тексту переносів, «твердих кінців рядків», забезпечення однакового написання тире та ін. Як правило, ці операції виконуються в автоматичному режимі. Звичайно, на цьому ж етапі здійснюється сегментування тексту на його структурні складові.
5.
Розмітка тексту. Розмітка тексту полягає в приписуванні текстам та їх компонентам додаткової інформації (метаданих).
Метаопис текстів корпусу включає як змістовні елементи даних
(бібліографічні дані, ознаки, що характеризують жанрові й стильові особливості тексту, відомості про автора), так і формальні (ім'я файлу, параметри кодування, версія мови розмітки, виконавці етапів робіт). Ці дані вводяться вручну.
Структурна розмітка документа (виділення абзаців, речень, слів)
і лінгвістична розмітка здійснюються автоматично.
6.
На наступному етапі робиться коректування результатів автоматичної розмітки: виправлення помилок і зняття неоднозначності (вручну або напівавтоматично).
7.
Заключний етап – конвертування розмічених текстів у структуру спеціалізованої лінгвістичної
інформаційно- пошукової системи (corpus manager), що забезпечує швидкий багатоаспектний пошук і статистичну обробку.
8.
І, нарешті, забезпечення доступу до корпусу. Корпус може бути доступний у локальній мережі, тобто лише розробникам та особам, які мають право користування. Для прикладу, право на використання корпусу ARCHER має
87

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
консорціум чотирнадцяти університетів семи країн
51
. Корпус може поширюватися на CD-ROM, як Eearly Modern English
Medical Texts та Middle English Medical Texts від видавництва
John Benjamins
. Також корпус може бути розміщеним у глобальній мережі. Різним категоріям користувачів можуть надаватися різні права й можливості доступу та експлуатації корпусу.
Звісно, у кожному конкретному випадку склад і кількість процедур можуть відрізнятися від вищеперерахованих, і реальна технологія може виявитися набагато складнішою. Проте оскільки укладання великих довідникових корпусів є занадто коштовним, то можливо нові значні за розміром корпуси не будуть створюватись у найближчому майбутньому. Укладені до цього корпуси будуть лише розширюватися за рахунок малих спеціалізованих корпусів, розроблених окремими дослідниками.
Під час створення корпусу використовується низка процедур і програм, як-от: токенізація, лематизація, стеммінг, парсинг [Захаров 2011: 38-41].
Токенізація – це розбиття потоку символів природної мови на окремі значимі одиниці (токени, словоформи).
Лематизація – процес утворення початкової форми слова, виходячи з інших його словоформ. У багатьох мовах слово може зустрічатися в декількох формах з різними флексіями.
Наприклад, англійське дієслово 'work' має такі форми:
'work', 'worked', 'works', 'working'
. Базова форма, 'work', зафіксована в словнику, називається лемою слова. Лематизація
– це процес угруповання різних флективних форм одного слова таким чином, щоб при аналізі вони оброблялись як одне слово. Для прикладу, друга колонка у запропонованому
51
http://www.alc.manchester.ac.uk/subjects/lel/research/projects/archer/
88

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
списку є лематизованою [Glossary of Corpus Linguistics 2006:
105]:
He he studied study the the problem
Problem for for a a few few seconds second and and thought think of of a a means means by by which which it it might may be be solved solve
Процес, дещо відмінний від лематизації, називається
стеммінгом. Він полягає в знаходженні стеми (основи) слова.
Різниця лише в тому, що стеммер обробляє окреме слово без знання контексту, і, таким чином, не може диференціювати слова, які мають різні значення в силу віднесеності до різних частин мови. Проте стеммери більш прості для реалізації й швидше обробляють дані. Наприклад, токену "better" відповідає лема "good", але це опускається при стеммінзі. Лема "work" є
89

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
базовою формою для токена "working", і ця відповідність буде виявлена як при стеммінзі, так і при лематизації.
Парсинг – це процес аналізу синтаксичної структури тексту чи частини тексту, що ґрунтується на зіставленні лінійної послідовності лексем (слів, токенів) мови з її формальною граматикою. Результатом є дерево залежностей (синтаксичне дерево), наприклад:

[Glossary of Corpus Linguistics 2006: 161]
Побудова автоматичних синтаксичних аналізаторів
(парсерів) для великих корпусів є однією із найважливіших областей комп'ютерної лінгвістики.
90

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
5.2.
Формати даних і стандартизація даних корпусу
Зазвичай, корпуси укладаються з метою можливості їх багаторазового використання якісно різними користувачами – лінгвістами vs нелінгвістами, тому, їхня розмітка та програмне забезпечення повинні бути максимально уніфіковані.
Загальноприйняті формати представлення даних дозволяють у багатьох випадках використовувати єдине програмне забезпечення й обмінюватися корпусними даними.
Стандартизація відносно корпусів, сумісність типів даних важливі також і для можливості порівняння різних корпусів
У цей час на основі міжнародного досвіду виробилися де- факто стандарти представлення метаданих, що базуються на описах текстів у рамках проекту Text Encoding Initiative (TEI) і на рекомендаціях EAGLES (Expert Advisory Group on Language
Engineering Standards). Стандарт ТЕІ забезпечує оптимальну збалансованість між загальною моделлю подання природної мови і нескладною реалізацією кодування. Також ТЕІ оперує великим набором засобів для подання як лінгвальної, так і металінгвальної інформації.
Передумовою розроблення системи ТЕІ стало існування великої кількості несумісних систем кодування і розширення сфери застосування електронних текстів. Базовими принципами системи визначено: а) можливість досягати у тексті ефектів, необхідних для наукових досліджень різного типу; б) простота, чіткість і конкретність; в) нескладність для використання без спеціалізованого програмного забезпечення; г) можливість точного визначення та ефективного програмного оброблення текстів; ґ) можливість розширень, визначених користувачем; д) узгодженість із чинними і новостворюваними стандартами
52 52
http://www.tei-c.org/index.xml
91

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
У якості формальної мови розмітки широко застосовуються мови SGML (Standard Generelised Markup Language) і XML
(Extensible Markup Language). У цей час стандарти EAGLES безпосередньо включаються в технологічне середовище мови
XML, див., зокрема, розробку стандарту Corpus Encoding
Standard for XML (XCES).
У 1996 р. у межах проекту EAGLES було розроблено
Рекомендації для морфолого-синтаксичної анотації корпусу
довільної природної мови, де, власне, запропоновано модель
„базові <--> додаткові" граматичні класи і визначено 11 базових лексико-граматичних розрядів слів, плюс пунктуація і спеціальні одиниці, якими можуть бути, наприклад, формули
53

5.3.
Комп’ютерні програми, що використовуються для
аналізу даних корпусу
Оскільки корпусна лінгвістика послуговується у своїх дослідженнях великими за обсягом та репрезентативними вибірками текстів природної мови, існує декілька типів програмного забезпечення, що можуть використовуватися під час дослідження: комерційні комп’ютерні програми – конкордансери (н.-д. LEXA, MonoConc, MicroConcord, TACT,
WordSmith, WordCruncher, Manatee (Bonito), IMS Corpus
Workbench (CQP), XAIRA, LEXA, Virtual Corpus Manager(VMC),
EXMARaLDA Corpus-Manager(Co-Ma)
), а також комп’ютерні програми, розроблені для специфічних процедур аналізу. Ці типи програм застосовуються для складних граматичних моделей.
Робота з корпусом здійснюється за допомогою спеціальних програмних засобів – конкордансерів (більш простий тип
53
http://www.ilc.cnr.it/EAGLES/home.html
92

ВСТУП ДО КОРПУСНОЇ ЛІНГВІСТИКИ
програм) і корпусних менеджерів, що надають різноманітні можливості по одержанню необхідної інформації з корпуса.
Корпусний менеджер – це спеціальна пошукова система, що включає програмні засоби для пошуку даних у корпусі, отримання статистичної інформації й надання результатів користувачеві в зручній формі. Результати цієї процедури подаються у вигляді горизонтальних рядків із пошуковим словом посередині. Ця процедура має назву KWIC (Key Word In
Context).
Пошукові можливості корпусних менеджерів включають у себе пошук конкретних словоформ, пошук словоформ по лемах, пошук групи словоформ у вигляді розривної або нерозривної синтагми, пошук словоформ по набору морфологічних ознак і т.д., висновок результатів пошуку із вказівкою контексту заданої довжини, збереження відібраних матеріалів в окремому файлі. Використання корпусів дозволяє не тільки вивчати лексичні одиниці в контекстах, але й одержувати дані про частоту словоформ, частоту лексем, граматичних категорій, про спільну зустрічальність лексичних одиниць, особливості їх сполучуваності, управління і т.ін.
Результати пошуку видаються у вигляді конкордансу (тому корпусні менеджери і називають конкордансерами), де аналізована одиниця представлена в її контекстному оточенні та супроводжується статистичною інформацією. Останні можуть фіксувати частотні характеристики окремих мовних одиниць, або грамем, або можуть характеризувати сполучуваність декількох лексичних одиниць. Багато систем дозволяють коректувати формат представлення даних (міняти довжину лівого й правого контексту, задавати обсяг показу й порядок сортування даних, відображати або не відображати лінгвістичні
93Поділіться з Вашими друзьями:
1   2   3   4   5   6   7


База даних захищена авторським правом ©divovo.in.ua 2017
звернутися до адміністрації

войти | регистрация
    Головна сторінка


загрузить материал