Тарануха В. Ю. Інтелектуальна обробка текстів



Pdf просмотр
Сторінка4/6
Дата конвертації05.01.2017
Розмір0.71 Mb.
1   2   3   4   5   6
графом обмежень. Стрілки графу обмежень отримують з синтаксичного аналізу, а самі обмеження - з лексикону та онтології, вони називаються селективними обмеженнями. Частина обмежень може бути записані в словникові або онтології. (Подробиці будуть далі.)
Наприклад, може бути, що прямий об'єкт даного присудка знаходиться в такому-то семантичному зв'язку підметом іншого речення. Зрозуміло, що між цими об'єктами прямого синтаксичного зв'язку немає.
Знаходження всіх розв’язків приписування значень складає окрему теорію обмежень (Constraint satisfaction theory). Основним положенням теорії

47 обмежень, служить той факт, що граф обмежень в природних мовах найчастіше буває деревом або майже деревом в тому сенсі, що можна розбити граф на такі підграфи, коли число внутрішніх залежних вузлів(залежних від зовнішніх для даного дерева), істотно менше загального числа вузлів, що входять в цей підграф. Це розбиття виконується рекурсивно, поки не доходять до найменших гпідрафів, для яких ця задача розв’язна безпосередньо.
Основні результати в проекті Мікрокосмос:
1) Застосування більш ніж попарного бінарного способу злиття підграфів, що дозволяє оптимально розглядати варіанти і здійснювати повернення;
2) Використання кількісних обмежень, що не просто можуть виконуватися або не виконуватися, а мають деяку оцінку від 0 до 1.
Для впровадження останнього вдосконалення потрібне використати засіб знаходження мінімального шляху в зваженому графі для отримання кращої комбінації рішень на підграфах.
Відбулося успішне впровадження теорії обмежень в реально працюючу систему і ця теорія дозволила скоротити кількість переборів з мільйонів до сотень варіантів.
Таким чином онтологія в Мікрокосмосі являється ієрархією фреймів, де для кожного слота, що має бути заповнений, є: обмеження, значення за замовчуванням та, можливо, перелік виключень/заборон.
Мікротеорія прикметників. Перше лінгвістичне спостереження полягає в тому, що в мовах, де немає спеціальних форм для прикметників, роль прикметників грають або іменники, або дієслова. Це розмежування можна спроектувати на мови з прикметниками, виділивши два класи прикметників:
іменникові та дієслівні, хоча, це не покриває всієї множини прикметників.
Хоч би тому, що прикметники означують тільки одну властивість, а іменники
– набори властивостей.
Автори запропонували свою інтерпретацію семантики прикметників.
Основним елементом їхньої теорії є поняття шкали, що бувають двох видів:

48 чисельні і символьні. Наприклад, шкала розмірів “маленький, середній, великий і т. д.” - чисельна, а шкала кольорів “червоний, синій, зелений” - символьна. Всі прикметники діляться на дві категорії: шкальні прикметники
(scalar adjectives) - ті, що прив'язані до якої-то шкали, і нешкальні прикметники (nonscalar adjectives), у яких немає шкал.
Таким чином, значень у прикметників не багато (для прикметника
ефективний - одне), але зате при кожному об'єкті прописане, що в цьому об'єкті може змінюватися і по яким шкалам або які значення може набувати.
Довгі переліки значень для прикметників, схожі на ті, що є в WordNet, неприпустимі в Мікрокосмосі, тут діють два додаткові правила.
1) Спробувати поставити двох кандидатів на різні значення в одне речення.
Якщо потрібен додатковий контекст, щоб реалізувалося одне з значень, те це значення не є самостійним, і повинно бути включене в інше.
2) Якщо кандидат на окреме значення застосований тільки до обмеженого класу семантично подібних іменників, значить це значення потрібно включити або підпорядкувати(успадкувати) від вже існуючого значення.
Іменники утворюють піддерево онтології, запозичуючи значення та обмеження у предків. Дієслова є головними елементами, що формують фрейми речення, задають часову послідовність, тощо.
Загальний результат роботи показує, що створення моделі значення тексту можливе, але обсяг предметної області, для якого можна реалізувати проміжну мову серйозно обмежений можливостями до залучення висококваліфікованих експертів-лінгвістів. Відповідно, це обмежує дієвість таких систем в цілому.
2.1.2. СТАТИСТИЧНИЙ ПЕРЕКЛАД
Переклад[9] спирається на розподіл P(T=t,A=a,S=s), в якому T
відповідає за рядок цільовою мовою, S за рядок початковою мовою, A за співставлення. Найбільш цікавий тут розподіл P(T=t|S=s).
)
|
,
(
)
|
(
s
a
t
P
e
t
P
a



49
Ключовим елементом є співставлення (alignment): відповідність між словами оригіналу та перекладу. Приклад подано у Таблиці 2.1.
Таблиця 2.1 1
2 3
4 5
6 7
S
I do not want to waltz anymore
S1-A1 S2-A2
S3-A3 S4-A2
S5-A4
S6-A4 S7-A5
A
А1
А2
А3
А4
А5
A1-T1 A5-T2
A3-T3 A2-T4
A4-T5
A4-T6
T
Я більше не хочу танцювати вальс
Як видно з таблиці, кількість елементів що є ключовими структурними елементами не збігається з кількістю слів у реченнях. Тому, виникає потреба у способі фіксації зв’язків виду m:n у системі. Для цього вживаються коефіцієнти співставлення. В свою чергу, такі коефіцієнти, разом з відповідними імовірностями краще всього здобувати з паралельних двомовних корпусів.
Для рядочків t
1
t
2
…t
m
, s
1
s
2
…s
l
та співставлення a
1
a
2
… a
m
(де елементи a
i
набувають значень від 1 до l )можна записати загальне рівняння:






m
j
j
j
i
j
j
j
j
s
m
t
a
t
P
s
m
t
a
a
P
s
m
P
e
a
t
P
1 1
1 1
1 1
1
)
,
,
,
|
(
)
,
,
,
|
(
)
|
(
)
|
,
(
За цією схемою утворюються такі моделі (IBM Models 1-5), або генеративні
моделі.[**].
Модель 1.
)
|
(
s
m
P
не залежить від m,s. Тому
)
,
,
,
|
(
1 1
1 1
s
m
t
a
a
P
j
j
j


залежить тільки від l,
)
,
,
,
|
(
1 1
s
m
t
a
t
P
j
j
i
j

залежить тільки від t
j,
та s. Модель 1 приймає всі співставлення однаковою ймовірністю (таким чином, порядок слів в t і s не впливає на результат). Тоді рівняння набуває вигляду:




m
j
j
a
j
m
s
t
P
l
s
a
t
P
1
)
(
)
|
(
)
1
(
)
|
,
(

Для кожного слова-цілі t
i
, що відповідає початковому слову s
a(j)
визначеного функцією відповідності a(j) є своя імовірність.
)
|
(
s
m
P
=

- в цій моделі виконує роль нормуючого множника.

50
Е.М. Алгоритм складається з двох етапів
1. Оцінка параметрів:
- Застосувати модель до даних. З використанням моделі, призначити ймовірності можливих значень.
2. Максимізація: Оцінка моделі з даних
- Прийняти значення як задані
- Зібрати (псевдо)частоти (зважені за ймовірностями)
- Переоцінити модель за частотами
Умова зупинки максимізації: поки не перестануть змінюватися частоти.
Дану модель варто використовувати в якості допоміжного інструмента для наступних моделей, а не самостійно.
Модель 2. Є узагальненням Моделі 1. При обчисленнях враховуються для
)
,
,
,
|
(
1 1
1 1
s
m
t
a
a
P
j
j
j


також j, m, a
j
. В цілому обчислюється за тим самими алгоритмом.
Модель 3. Допускається переклад одного слова з s у кілька слів t. Це задається імовірностями розмноження. Допускається перевпорядкування елементів. Складність віднаходження коректного перевопрякування обумовлює проблеми застосування моделі.
Модель 4. Розроблялася як спроба врахувати, що насправді елементи рухаються блоками, що зумовлені властивостями конкретної мови.
Моделі 3 та 4 мають спільний недолік, через те, що для приведення їх до вигляду, коли вони можуть бути обчислені виконуються спрощення. Тому що ймовірності перевпорядкування для призначення позицій слів в кінці рядка не залежать від позицій, присвоєних словам, що стоять на початку,
Моделі 3 та 4 називаються дефіцитними, бо витрачають частину імовірнісної маси зайве. Деякі з ймовірностей стосуються, „узагальнених рядків”, тобто рядків, які мають деякі з відповідностей між словами виду 1:n. Проте в цілому частка таких співставлень є не такою великою, а отже видатки певною мірою є невиправданими.
Модель 5. Розроблялася, як обчислювальний механізм, щоби побороти дефіцитність. Має надмірну складність.

51
Через зазначені недоліки, найбільш популярним механізмом зараз є
переклад побудований на фразах. Для цього, речення розбиваються на фрази( які зовсім не обов’язково є граматичними) і набір фраз перекладається та перевпорядковується. Ключовими елементами є співставлення, що обчислюється над фразами, та перевпорядкування.
Для коректного обчислення співставлення корпуси підготовлених текстів є обов’язковим елементом, оскільки без них, неможливо коректно розбити на фрази. Евристикою, що дозволяє спростити цю задачу, є обчислення співставлень в обидві сторони s → t так і

t→s. Цей процес називається симетризацією співставлення.
Окремий вид співставлення, що може бути вжитий альтернативно до генеративного підходу – а саме розрізняючий (discriminative), обчислюється за формулою: де
i

- вагові коефіцієнти, а
i
h
- різні ознаки. Недоліком цього співставлення
є необхідність в зарані розмічених коректних корпусах.
Щодо перевпорядкування, то значна частина систем використовує лексикалізовані моделі зміни порядку, в яких перевпорядкування визначаються безпосередньо на фразами (або блоками). Ці моделі навчаються синхронно з фразовою моделлю перекладу. Кожна пара фраза в лексикалізованій моделі п перевпорядкування отримує присвоюється один з трьох напрямків: монотонний (m), перестановка(s), або перенос(d).
Орієнтація задається на основі положення фрази по відношенню до інших слів для пари речень t, s.
Коли пара фраз аналізується для моделі перекладу, орієнтації також записуються. Розподіл ймовірностей p
o
для моделі зміни порядку оцінюється на основі підрахунку як часто конкретні пари фраз мають кожен з трьох типів орієнтації.

52


o
o
s
t
o
частота
s
t
орієнтація
частота
s
t
орієнтація
p
)
,
,
(
)
,
|
(
)
,
|
(
де орієнтація{m, s, d} прогнозується для кожної фрази пари джерело-ціль по всім можливим орієнтаціям о.
Найбільш дієвим зразком статистичного перекладу є перекладач
Гугль(Google Translate). Завдяки доступу до величезних обсягів даних система може оперувати n-грамами великої довжини.
Оскільки Google Translate використовує статистичні відповідності у перекладі, а не правила та словник, перекладений текст часто включає явні помилки, часто вживаючи загальні терміни для схожих, але нееквівалентних загальних термінів на іншій мові, іноді інвертуючи сенс.
Через застосування мови-посередника часто втрачаються ознаки відмінків, навіть якщо вони були в початковій та кінцевій мові. Також Гугль був звинувачений в сексизмі через статистичний спосіб присвоєння статі при перекладі. Наприклад, в дієсловах, коли певні дії прив’язуються лише до одного роду.
Наступні мови не мають прямого перекладу на англійську і опрацьвуються через вказану проміжну мову (яка у всіх випадках тісно пов'язана з потрібною мовою, але більш широко поширена):
Білоруська мова (be ↔ ru ↔ en ↔ інші)
Каталонська мова (ca ↔ es ↔ en ↔ інші)
Галісійська мова (gl ↔ pt ↔ en ↔ інші)
Гаїтянська креольська мова (ht ↔ fr ↔ en ↔ інші)
Македонська мова (mk ↔ bg ↔ en ↔ інші)
Словацька мова (sk ↔ cs ↔ en ↔ інші)
Українська мова (uk ↔ ru ↔ en ↔ інші)
Урду (ur ↔ hi ↔ en ↔ інші)

53 2.1.3 ГІБРИДНИЙ ПЕРЕКЛАД
Для гібридного підходу характерне застосування імовірнісного підходу в комбінації зі знаннями про мову[11]. Наприклад, при розборі речення використовуються імовірнісні контекстно-вільні граматики, для побудови розбору і після того для генерації перекладу вже за правилами, по готовому розбору.
Для отримання ймовірностей проводиться підрахунок числа раз (N), коли використовується деякий варіант розгортання вузла (α→β) з наступною нормалізацією :
Значення ймовірності використовуються в процесі граматичного розбору. Кожному дереву Т присвоюють ймовірність (Р) кожному дереву для речення S. Ця інформація є ключовою для розв’язання неоднозначності синтаксичних структур.
Імовірність кожного можливого дерева розбору T визначається як добуток ймовірностей всіх правил r, використовуваних для розгортання кожного вузла n в дереві розбору:
Ймовірність повного розбору речення обчислюється з урахуванням категоріальної інформації для кожної головний вершини кожного вузла.
Нехай n - синтаксична категорія деякого вузла n, h(n) - головний вершина вузла n, m(n) – батьківський вузол для вузла n, таким чином, обчислюється ймовірність P(r(n)|n, h(n)), для цього вираз перетворюється таким чином, що кожне правило стає обумовленим своєю головною вершиною.
Це дозволяє коректно застосувати правила подальшого перетворення розборів речень у текст.

54 2.2. АВТОМАТИЗОВАНИЙ ПЕРЕКЛАД
Паралельно з машинним перекладом, який за визначенням є повністю автоматичною системою, розвивається автоматизований переклад (АП) – computer-assisted translation (CAT), що є інструментом, який допомагає суттєво прискорити людський письмовий переклад науково-технічної літератури, у той час як в усному перекладі АП обмежується доступом до словників оффлайн/онлайн та інтернет-ресурсів онлайн[14].
Основою автоматизованого перекладу є системи типу „машинна
пам'ять перекладача” (МПП) - translation memory (TM). Вони з’явилися після масового поширення персональних комп’ютерів. Системи МПП є найбільш широко використовуваними прикладними програмами в локалізації цифрової
інформації, тобто перекладі і культурній адаптації електронного контенту для місцевих ринків.
Ідея їх ключового елементу –„пам'ять” або архів перекладів, яка зберігає оригінали та їх переклади людиною в комп'ютерній системі з розбивкою на певні одиниці. З часом, величезні колекції речень та їх відповідні переклади накопичуються в системах МПП. Це дозволяє перекладачам використовувати такі перекладені сегменти, вибираючи з автоматично запропонованих відповідний переклад з пам'яті як повний
(точний) збіг (perfect match) або як частковий (нечіткий) збіг (fuzzy match).
Нечіткий збіг виникає, коли речення схоже, але не співпадає дослівно. Крім всього іншого, це допомагає гарантувати, що термінологія і вирази вживаються послідовно, без переходів до інших тематик. Схему роботи МПП представлено на Рис. 2.7.
Рис. 2.7. Автоматизований переклад.

Термінологічні бази
Людина-перекладач за комп’ютером
Глосарії
Редагування
Перед-переклад (MT)
=>
=>
=>
Пам'ять перекладача
(накопичувач)

55
Оскільки МПП полегшує і прискорює переклад спеціалізованих текстів, кількість яких дедалі швидше зростає, більшість професійних перекладачів використовує технологію MПП на регулярній основі. Ніяка інша технологія не змінила загальні умови перекладу так радикально, як професійне програмне забезпечення за останні 20 років. Це може бути пов'язано з тим, що професійні перекладачі виконують величезну кількість повторюваної, рутинної роботи над типовими документами, без істотного залучення до ситуацій, які вимагають творчого підходу.
На сьогодні в Інтернет-ресурсах нараховується понад 50 таких - систем
АП, які невпинно вдосконалюються і перетворюються на середовище
перекладу(СП) - translation environment (TeNT). СП є вже третім поколінням
інструментів автоматизованого перекладу. У СП основною метою ставиться створення не лише баз перекладів та допоміжного інструментарію, але і надання найбільш зручного інтерфейсу та забезпечення всіма необхідними допоміжними функціями. Приклад інтерфейсу наведено на Рис. 2.8.
Найбільш відомі серед СП - SDL Trados, Transit, Deja Vu, Wordfast, AIT,
MemoQ.
Рисунок 2.8 : Інтерфейс користувача SDL Trados Studio Цитується за: Uwe
Reinke State of the Art in Translation Memory Technology[14 ]

56
Мережеві технології також заявили про себе, пропонуючи доповнювати АП та СП машинним перекладом на основі статистичного методу у таких потужних інструментах як сервіс Google Translate, що використовує власне програмне забезпечення Google. Цей сервіс дозволяє автоматично перекладати слова, фрази тексти та web-сторінки з однієї мови на іншу, оперуючи понад 80-ма мовами. Переклад на 8 мов, включаючи українську, білоруську, каталонську, відбувається через споріднену, але більш поширену проміжну мову. Працюють із сервісом Gooogle Translate також Globefish, gTranslate та UnofficialGoogleTranslate.
Гібридизація моделей продовжується і іншими розробниками, і не лише із залученням англійської мови, як скажімо, португальсько-китайська
PCTAssist. Почали поєднувати МП і автоматизований переклад з хмарними технологіями, як от Memsource Cloud. Це повноцінне перекладацьке середовище, запущене спочатку у закритій бета-версії у 2011р., що включає пам'ять перекладів, інтегрований модуль машинного перекладу, управління термінологією і перекладацький редактор у вигляді веб-додатків та автономної програми
і використовує хмарний сервіс. http://www.memsource.com
2.2.1 КОМПОНЕНТИ МПП
Типова система МПП складається з масиву інструментів і функцій для допомоги перекладачу. До неї входять:
- „Пам'ять” чи архів перекладів.
- Інструмент створення баз даних з раніше перекладених документів.
Використовує інші інструменти для співставлення елементів перекладів та оригіналів.
- Інструмент автоматичного розпізнавання термінів для виділення з тексту та автоматичного пошуку у базі всіх термінів, що містяться у вихідному текстовому сегменті, над яким працює перекладач у даний час.
- База термінів.

57
- Інструмент автоматичного співставлення блоків текстів. Генерує за вхідним текстом структуру вихідного, або маючи вхідний та вихідний тексти,встановлює взаємозв’язки між їх елементами.
- Програма керування термінологією для підтримки бази термінів, отримання та оновлення специфічної термінології про предмет, клієнта та проект. Може включати інструмент вилучення термінології у якості додаткової або комплексної функції для надання допомоги в заповненні термінологічних баз та створення термінології для локалізації електронного контенту проекту, витягуючи одно- або двомовні списки потенційних термінів з конкретних електронних текстів оригіналу та/або цільових текстів.
Рисунок 2.9 : Компоненти й процеси в МПП. Цитується за: Uwe Reinke
State of the Art in Translation Memory Technology
- Багатомовний редактор для читання вихідних текстів і введення перекладу у всіх відповідних форматах файлів різних програм обробки

58 текстів, систем верстки і т.д., захищаючи теги макетів цих форматів від випадкового видалення або перезапису
- Інструмент конкорданс (узгодження), який дозволяє користувачам побачити всі випадки використання конкретної одиниці (окремі слова, групи слів, фрази і т. д.) у їхньму безпосередньому контексті у документах з архіву перекладів.
- Бібліотека з функцією статистики, що дозволяє приблизно побачити кількість сегментів тексту, які можна повторно використати для перекладу нового вихідного документа.
Додатково можуть бути реалізовані:
- Підтримка машинного перекладу: може бути реалізований інтерфейс до якої-небудь системи МП, або навіть система МП може бути інтегрована в систему МПП.
- Підтримка управління проектом, зокрема: обробка файлів і керування ними
(специфікація всіх файлів мовою оригіналу, термінологічні бази даних проекту, допомога у визначенні структури папок), управління даними про клієнта і перекладача (адреса, контактні особи, сфера діяльності перекладача, обладнання, доступність і т. д.), управління робочим процесом (терміни, хід виконання проекту і т.д.).
На Рисунку 2.9 представлено огляд того, як взаємодіють основні компоненти стандартного середовища МПП.
2.2.2. ВИДІЛЕННЯ ТЕРМІНІВ
Виділення за максимальною довжиною та граматичними ознаками.
Перший етап роботи алгоритму - виділення максимальних ланцюжків, що містять терміни. Ці ланцюжки визначаються через заборону: складається список слів і знаків, які не можуть входити до термінів. Це знаки пунктуації, стоп-слова, за потребою додаються інші частини мови. Рядки між цими роздільниками розглядаються як кандидати в терміни. Використовує
інформацію про допустимість зв’язування певних елементів. Відповідно,

59 ланцюжки слів, які за зовнішніми ознаками повинні мати синтаксичні зв’язки, збираються разом.
C-value. Метод виділення багатослівних термінів, запропонований
К.Франці та колегами, орієнтований на словосполучення, що не входять до складу інших, більш довгих. Частоти довгих термінів у тексті нижчі, ніж коротких, і тому було запропоновано метод C-value для компенсації цього ефекту. Значення термінологічності розраховується так:










a
T
b
a
вкладений
b
freq
T
P
a
freq
a
a
freq
a
a
value
C
),
(
*
)
(
1
)
(
*
log
)
(
*
log
)
(
2 2
де a - кандидат у терміни, | a | - довжина словосполучення, вимірювана в кількості слів, freq(a)- частотність a, T
a
- множина словосполучень, які містять a, P(T
a
)- кількість словосполучень, що містять a.
Як видно, чим більша частота терміна-кандидата і його довжина, тим більша його вага. Але якщо цей кандидат входить до великої кількості інших словосполучень, то його вага зменшується.
Віконний метод. Розроблений Добровим Б.В. та колегами. Ідея методу
- нарощувати словосполучення, якщо більш короткі часто зустрічаються у складі більш довгих. Однак, на відміну від інших методів, враховується не тільки частота контактних випадків (слова безпосередньо слідують одне за одним), а й спільна наявність у вікні (послідовності слів з тексту, вибраних підряд). На кожній ітерації для кожного елемента списку запам'ятовуються його безпосередні сусіди і сусіди в текстовому вікні. Створюються відповідні таблиці, обчислюється частотність утворення пар у вікні. Передбачається, що якщо пара елементів (на першому етапі - окремих слів) зустрічається як безпосередні сусіди більш ніж у половині випадків їх появи в одному і тому ж текстовому вікні, то ця пара являє собою термін або фрагмент терміна.
Відбувається склейка пари в єдиний елемент, таблиці перераховуються так, наче цей елемент був відомий з самого початку (до початку обробки тексту), це дає можливість і далі нарощувати термін. Якщо не накладати обмежень на

60 частоту народження склеюваних елементів, то метод об'єднає унікальні (з частотою 1) ланцюжки допустимих слів (тобто повторить результат MaxLen).
Гібридні методи використовують комбінування вищезазначених підходів.
2.2.3. МЕТОДИ СПІВСТАВЛЕННЯ ТЕРМІНІВ ТА БЛОКІВ
Два основних способи співставлення термінів – точне та нечітке співставлення. Відповідно, співставлені фрагменти мають точний або нечіткий збіг. Найпростішим є точне співставлення, оскільки для нього треба, щоб вихідний текст та аналог в базі перекладів збігалися дослівно в на певній послідовності слів.
Для прискорення пошуку будь-яких кандидатів у збіги можна використовувати метод, який спирається на пошук дублів у текстах новин, описаний у розділі «Автоматичне реферування». Через малу довжину кожного блоку, що перекладається застосування загальних алгоритмів пошуку підрядка у рядку є недоцільним. Тобто алгоритми Бойера — Мура,
Рабина — Карпа, Ахо — Корасика, та інші – не потрібні.
Основні спотворення, що мають місце при нечіткому збігу: вставка, видалення, заміна слова. Тому задачу нечіткого збігу можна трактувати як задачу пошуку редакторської відстані. Псевдокод наведено нижче.


Поділіться з Вашими друзьями:
1   2   3   4   5   6


База даних захищена авторським правом ©divovo.in.ua 2017
звернутися до адміністрації

войти | регистрация
    Головна сторінка


загрузить материал