Тарануха В. Ю. Інтелектуальна обробка текстів



Pdf просмотр
Сторінка3/6
Дата конвертації05.01.2017
Розмір0.71 Mb.
1   2   3   4   5   6
Алгоритм розмітки тематичних областей
Для кожного s є T
Для кожного w
i
є s
Для кожного с(w
i
)
j
Встановити належність до певного {с(w
i
)
j
}
k
Поставити маркер «Тема почалася» відповідно до номера ланцюжка
Для кожного s
l
є T
Для кожного w
i
є s
Для кожного с(w
i
)
j
Чи є с(w
i
)
j
з того {с(w
i
)
j
}
k
в s
l+1
(сусідньому реченні).
Немає:Поставити маркер «Тема скінчилася» відповідно до номера ланцюжка
Для кожного w
i
є T
Для кожного с(w
i
)
j
Якщо маркери «Тема почалася» і «Тема скінчилася» стоять одночасно
Зняти позначки відповідних {с(w
i
)
j
}.

29
Оцінка складності роботи алгоритму:
О
(N
s
*l
max
*k
max
*M), де N
s
– довжина тексту в реченнях, k
max
– найбільша кількість сенсів слова, M – довжина мета-ланцюжка, l
max
– найбільша довжина речення в тексті.
Також застосовується вже описаний алгоритм TextTilling. Отримані за його допомогою зони розриву накладаються на тематичні області. Якщо відбувається зміна теми без порушення зв’язності за TextTilling, то таке речення отримує додатковий маркер «Критична Область».
Алгоритм визначення критичних областей
Для кожного s
l
є T
Якщо s
l+1
(наступне речення) належить іншій темі
Якщо s
l
не має маркеру «Розрив»
Поставити маркер «Критична Область»
Оцінка складності роботи алгоритму:
О
(N
s
*l
max
*M), де N
s
– довжина тексту в реченнях, M – довжина мета-ланцюжка, l
max
– найбільша довжина речення в тексті.
1.7.3. АЛГОРИТМ ПЛАНУВАННЯ
Як уже зазначалося в розділі ПЕРЕДОБРОБКА, на основі результатів роботи алгоритму TextTilling та алгоритму тематичної розмітки було визначено критичні області. Справді, якщо відбувається зміна теми без порушення зв’язності за TextTilling, то таке речення часто є переходом від однієї теми до іншої. Отже, такі речення містять у собі сформовану автором структуру зв’язків між темами тексту.
За результатами визначених критичних областей та відповідно до структури відношень R(T) можна зафіксувати найбільш важливі переходи логічної структури.
Алгоритм вибору зв’язків між темами
Для кожного s є T з маркером «Критична Область»
Для кожного w
i
є s

30
Для кожного с(w
i
)
j
Встановити вагу відповідно до ваги ланцюжка, ваги поняття в ланцюжку, важливості переходу та важливості визначеної користувачем (групою експертів)
Створити порожній список L
Для кожного s є T з маркером «Критична Область»
Занести у L оцінку речення складену як суму оцінок w
i
Відсортувати L
Вибрати відсоток оцінок, що відповідає відсотку стиску
Взяти останній елемент з вибраних у якості межі
Для кожного s є T з маркером «Критична Область»
Якщо оцінка речення менше межі – поставити маркер «Не потрібне»
Оцінка складності роботи алгоритму на одному проході:
О
(N
K
2
*l
max

*k
max
+ N
K
*log(N
K
)), де N
K
– кількість речень з маркером „Критична Область”, k
max
– найбільша кількість сенсів слова, l
max
– найбільша довжина речення в тексті.
Таким чином, побудований перелік опорних речень дозволяє наближено відобразити той хід думки, який хотів передати автор тексту. У випадку мультиреферування це лише певне наближення, що відображає не хід думки одного автора, а зміну способу подачі матеріалу та акцентів з часом у різних джерелах.
1.7.4 СЕМАНТИКО-СИНТАКСИЧНИЙ АЛГОРИТМ СТИСКУ
Цей алгоритм належить до групи алгоритмів, які виконують абстрагування, з опорою на зовнішні джерела інформації. У наведеному вигляді він не здатнийпрореферувати весь текст, або стиснути його до малого об’єму. Проте він є корисним, оскільки дозволяє отримати для ряду випадків стиск там, де простий вибір буде змушений втратити інформацію.
Передбачається, що є ряд додаткових механізмів, а саме: синтаксичний та семантичні аналізатори, синтаксичний синтезатор для речень.

31
У межах областей між двома маркерами „Тема почалася” і „Тема скінчилася”, які належать одній темі, застосовується перший алгоритм узагальнення. Він працює переважно з онтологією, використовуючи зв’язок
„бути” (is_a). У процесі узагальнення цей алгоритм пробігає по онтології від понять нижчого рівня до понять вищого рівня у пошуках поняття, яке є водночас допустимими та досить абстрактними, для можливості здійснення узагальнення. Для нього є обов’язковою синтаксична передобробка, оскільки він інтенсивно використовує синтаксичні дані.
Позначимо тематичну область як To.
Алгоритм стиску 1
Для кожного s
l
є To
Скласти предикатну структуру відповідно до підмета і присудка
Назвати її базовою
Для кожного s
l+j
є To (від даного і до кінця області)
Скласти предикатну структуру відповідно до підмета і присудка
Порівняти предикатну структуру з базовою.
Якщо для підметів присудків або і підметів і присудків виконуються «Умови групування» з розділу ІНДЕКСАЦІЯ на відстань 2
З s
l
та s
l+j
будується одне s
l
, більш поширене і, використовуючи більш загальні поняття, s
l+j
вилучається.
Оцінка складності роботи алгоритму:
О
(N
T
2
*l
max
*k
max
), де N
T
– довжина блоку тексту в реченнях, k
max
– найбільша кількість сенсів слова, l
max
– найбільша довжина речення в тексті.
Недоліком цього алгоритму є його чутливість до синтаксичних неоднорідностей та «короткозорість», оскільки він не реагує на зв’язки між поняттями у WordNet, що мають довжину більшу за 2. Проте, якщо збільшити відстань до 3х або 4х, часто відбувається надлишкове узагальнення, що негативно впливає на якість реферату.

32
Попри очевидні перевагу такого алгоритму, а саме здатність до складання висновків, хоч би і обмежену, необхідно зауважити його малу частоту очікуваного використання.
1.7.5. СЕМАНТИЧНИЙ АЛГОРИТМ СТИСКУ
Аналогічно до попереднього, цей алгоритм належить до групи алгоритмів, які виконують абстрагування, з опорою на зовнішні джерела
інформації. У наведеному вигляді він не здатний прореферувати весь текст, або стиснути його до малого об’єму. Проте він є корисним, оскільки дозволяє отримати для ряду випадків стиск там, де простий вибір буде змушений втратити інформацію.
Передбачається, що є ряд додаткових механізмів, а саме: синтаксичний та семантичні аналізатори, синтаксичний синтезатор для речень.
У межах областей між двома маркерами „Тема почалася” „Тема скінчилася”, які належать одній темі, також застосовується другий алгоритм узагальнення. Його основою є пошук у ширину в орієнтованому графі онтології. Умови зупинки:
1. Як тільки зустрічається вершина (концепт), що є забороненою (зайвою), алгоритм припиняє обчислювати ваги для цієї вершини та всіх вершин, для яких вона є нащадком в ієрархії WordNet. До заборонених сенсів належать загальні поняття, якщо вони не представлені явно в лексичному ланцюжку.
2. Якщо вершина поза бажаною тематикою, алгоритм припиняє обчислювати ваги для цієї вершини та всіх вершин, для яких вона є нащадком в ієрархії
WordNet;
3. Якщо досягнуто довжину шляху, рівну 5.
Позначимо тематичну область як To. Повнозначне слово – w
i.,
с(w
i
)
j
– сенс слова w
i
Алгоритм узагальнення
Створити список L
Для кожного s
l
є To
Для кожного w
i
є s
l


33
Для кожного с(w
i
)
j
Додати с(w
i
)
j
у L
///
Для кожної ітерації
Створити список L
n
Якщо не виконуються умови зупинки
Для с(w) є L
Визначити кількість шляхів, що проходять через с(w) в напрямку більш загального с(w)
п
у WordNet
Занести с(w)
п
у L
n
Встановити с(w)
п
вагу, рівну сумі всіх шляхів від нижніх с(w)
синсетів через нього с(w)
п
Замінити L =L
n
///
Для кожного с(w) є L
Для кожного s
l
є To
Для кожного w
i
є s
l
Для кожного с(w
i
)
j
Виконати розмітку за WordNet.
///
Для кожного s
l
є To
Створити список L (речень кандидатів)
Для кожного s
l+j
є To
Порівняти маркери s
l
та s
l+j
Якщо маркери співпадають,
Додати s
l+j
у L
Інакше:
Для кожного s
k
є L (речення зі списку)
Порівняти предикатну структуру s
l
зі s
k
Якщо немає відповідностей -вилучити s
k
Опрацювати L, створивши більш загальне речення s
l
Вилучити використані s
k
з тектсу
Зробити список порожнім

34
Оцінка складності роботи алгоритму на одному проході:
О
(N
T
2
*l
max

*k
max
+ SS
3
+ SS* N
T
* l
max
*k
max
+N
T
2
*l
max
*k
max
), де N
T
– довжина блоку тексту в реченнях, k
max
– найбільша кількість сенсів слова, l
max
– найбільша довжина речення в тексті, SS – кількість сенсів у списку сенсів. Очевидно, що чим більше різних змістовно наповнених елементів є в межах теми, то повільніше працює алгоритм.
Таким чином можна визначити ті концепти з WordNet, що не представленні в тексті явно, проте сильно пов’язані з його змістом.
Це дозволяє, наприклад, узагальнити „стіл, стілець, ліжко” до „меблі” але не до „об’єкт”. Проблема полягає у тому, що як і попередній алгоритм, цей також чутливий до синтаксичних структур. Так само, як і у попередньому випадку, необхідно зауважити малу ефективність(частоту очікуваного вживання) даного алгоритму.
1.7.6. АЛГОРИТМ СТИСКУ ВИБОРОМ
Практично це найбільш дієвій алгоритм, оскільки він не чутливий до можливих синтаксичних неоднорідностей.
Позначимо тематичну область як To. Повнозначне слово – w
i.,
с(w
i
)
j
– сенс слова w
i
Алгоритм стиску вибором
Для кожного s
l
є To
Для кожного w
i
є s
l
Для кожного с(w
i
)
j
Встановити вагу відповідно до ваги ланцюжка, ваги поняття в ланцюжку та важливості визначеної користувачем
Створити порожній список L
Для кожного s
l
є To
Занести у список оцінку s
l
як складену як суму оцінок w
i
Відсортувати список L
Вибрати відсоток оцінок, що відповідає відсотку стиску
Взяти останній елемент з вибраних в якості межі
Для кожного речення s
l
є To

35
Якщо оцінка речення менше межі – поставити маркер «Не потрібне»
Оцінка складності роботи алгоритму на одному проході:
О
(N
T
2
*l
max

*k
max
+ N
T
*log(N
T
)), де N
T
– довжина блоку тексту в реченнях, k
max
– найбільша кількість сенсів слова, l
max
– найбільша довжина речення в тексті.
Даний алгоритм дозволяє стискати текст до необхідного розміру. Проте, він гарантовано будує незв’язний текст, який важко читається.
1.7.7 ЗАГАЛЬНИЙ АЛГОРИТМ РЕФЕРУВАННЯ
Алгоритм реферування базується на послідовному застосування алгоритмів, описаних вище. Вони застосовуються в такому порядку:
1.
Texttilling
2.
Алгоритм побудови лексичних ланцюжків
3.
Алгоритм побудови зв’язків між лексичними ланцюгами
4.
Індексація
5.
Алгоритм розмітки тематичних областей
6.
Алгоритм визначення критичних областей
7.
Алгоритм планування.
8.
Семантико-синтаксичний алгоритм стиску
9.
Семантичний алгоритм стиску
10.
Алгоритм стиску вибором
Відповідно до часових оцінок роботи алгоритмів, застосування алгоритму семантичного стиску допускається, тільки якщо час побудови реферату не має значення, оскільки його часова оцінка
O
(S
3
), де S – кількість понять у тексті. Якщо його не застосовувати, то оцінка складності реферування в цілому буде
O
(N
2
), де N – довжина тексту у словах.
Побудований таким чином реферат має бажаний відсоток стиску.
Застосування алгоритму стиску вибором після інших алгоритмів стиску гарантує коректність роботи алгоритмів стиску, що використовують семантику.

36
Проте у побудованого таким чином реферату є ряд суттєвих недоліків.
Попри намагання передати логічну структуру тексту результат може погано читатися.
1.7.8 ПОКРАЩЕННЯ РЕЗУЛЬТАТІВ РЕФЕРУВАННЯ
Є два підходи до покращення реферату, особливо отриманого екстракцією речень: перевпорядкування речень та екстракція одразу груп речень.
Перевпорядкування спирається на припущення, що елементи, віднесені до однієї тематики та вибрані користувачем, було рознесено в оригіналі. Тоді для покращення їх необхідно зібрати разом. Даний метод не розглядається, оскільки він вступає у протиріччя з ідеєю, що послужила основою для методу виділення критичних областей.
Екстракція груп речень. Граф зв’язності тексту представляє собою щось схоже на ланцюжок, де речення найчастіше пов’язане зі своїми сусідами і не пов’язане з віддаленими реченнями. Залежно від контексту, в якому знаходиться речення у рефераті, його оцінка може бути збільшена або ж зменшена. Якщо речення, що розглядається, відповідає принципу нерозривності для речення, яке передує йому або йде за ним у рефераті, то його оцінка збільшується. Те, яким чином визначається, які речення передують йому та слідують за ним, залежить значною мірою від того, які алгоритми використовуються. Якщо це перше або останнє речення (тобто перед ним або після нього немає речень), то для цього речення не проводиться оцінювання.
Якщо порушується принцип нерозривності, то оцінка зменшується.
Після експериментів з різними значеннями було вирішено збільшувати оцінку речення за допомогою максимальної оцінки сенсу у тексті штрафувати також, за допомогою максимальної оцінки сенсу у тексті документа.

37
Задача в загальному випадку є повноперебірною, тому застосовується алгоритм, який здатний досить ефективно виконати перебір і знайти хоча б локально оптимальну оцінку. Тому застосовується генетичний алгоритм.
Хромосомою будемо називати список номерів речень, які входитимуть у реферат. Хромосома може мутувати, змінюючи значення елементу списку.
Дві хромосоми можуть поелементно обмінюватися даними, при цьому утворюється дві нові хромосоми – нащадки, не тотожні батькам.
Генетичний алгоритм
Генерується хромосома за рефератом
Хромосома заноситься у список.
На хромосому накладаються випадкові мутації N-1 разів. Мутанти заносяться у список.
Для всіх кроків
Створюється новій список
Для всіх хромосом зі списку
Для всіх хромосом зі списку
Пара хромосом породжує нащадків
Нащадки заносяться у новій список
Хромосоми в новому списку сортуються за оцінкою
Відбираються N кращих.
Результат стає новим списком.
Оцінка роботи алгоритму:
О
(R*(2N

2
*+ N*l
max
2
*V

+ N*log(N))), де N – довжина тексту в реченнях, l
max
– найбільша довжина речення в тексті, V – складність побудови оцінки хромосоми, R – кількість ітерацій.
На особливу увагу заслуговують такі моменти:
- створення мутацій;
- створення нащадків;
- оцінка хромосоми.
При створенні мутацій, як і при породженні нащадків, забороняється вилучати з реферату елементи, відмічені як «Критичні області». При обчисленні оцінки головним є врахування максимальних ваг лексичних

38 ланцюжків, обчислених на рефераті. Це принаймні дозволить враховувати слова, що мають сенси поєднані зв’язком гіпернім/гіпонім.
Швидкодія генетичного алгоритму: в практичних експериментах за 100 кроків вдавалося досягти пристойного результату.
1.8. ОЦІНЮВАННЯ ЯКОСТІ РЕФЕРАТІВ
Метою методів оцінки рефератів є визначення адекватності (та достовірності) або корисності реферату по відношенню до оригінального тексту. Використовуються дві методики оцінки.
Оцінка „зсередини” (або нормативна оцінка). Користувачі приймають рішення про якість реферату, аналізуючи сам реферат. Користувачі оцінюють гладкість тексту, роблять висновок про те, наскільки добре реферат відображає основні ідеї оригіналу, або порівнюють його з „ідеальним” рефератом, написаним автором вихідного тексту або іншим фахівцем. Жодна з цих оцінок не може вважатися повністю задовільною. Зокрема, отримати достатню кількість „ідеальних” рефератів важко.
Подібно до того, як існує безліч способів описати якусь подію, користувачі можуть визнати прийнятними кілька рефератів, отриманих системами різного призначення. Як показує практика, люди взагалі рідко приходять до згоди щодо того, які положення чи висловлювання слід включати в реферат [*8*].
Оцінка „ззовні”. Користувачі оцінюють якість реферату по тому, як він впливає на завершення тієї чи іншої роботи, наприклад, допомагає знайти джерела інформації з даного питання, або наскільки добре він дозволяє відповісти на певні питання, пов'язані зі змістом всього тексту. Одним із способів є оцінювання часу на пошук та аналіз інформації з використанням та без використання реферату.
Машинні метрики спираються на використання множини еталонних рефератів. Основні з них: Оцінка, орієнтована на повноту основної суті
(ROUGE), Найдовша Спільні Підпослідовність (LCS)

39
ROUGE спирається на n-грами, що повинні бути спільними у рефераті- еталоні та рефераті, зробленому машиною. Є варіації, де n-грами генеруються з розривами (слова одне за одним, але зібрані з пропуском деяких слів), з штрафами за розрив структури.
LCS спирається на ідею, що чим більша спільна підпослідовність, тим краще реферат відповідає еталону.
1.9 ВИСНОВКИ
Описано ряд алгоритмів, що разом формують основу для створення системи автоматичного реферування або мультиреферування. Кожний з них окремо не забезпечує достатньої якості реферування. Проте за умови використання їх у комплексі більшість проблем вдається розв’язати. Це дозволяє досить ефективно будувати реферати, що добре передають зміст оригіналу та водночас добре читаються.

Контрольні запитання до розділу
1.
Задача автоматичного реферування.
2.
Визначення тематичної структури документів.
3.
Визначення основних змістовних елементів. Частотна модель.
4.
Визначення основних змістовних елементів. Модель на основі опорних елементів та тематик.
5.
Використання онтологій для визначення основних змістовних елементів.
6.
Генерація реферату: реферування вибором, забезпечення зв’язності.
7.
Реферування багатьох документів

40 2. МАШИННИЙ ПЕРЕКЛАД
Машинний переклад передбачає виконання комп’ютером перекладу тексту з однієї природної мови на іншу без участі людини та результат такої роботи. Задача машинного(автоматичного) перекладу потребує морфологічного аналізу, аналізу і перекладу лексики, синтаксичного аналізу і синтезу семантичних трансформацій, які б забезпечували смислову рівність введеної і виведеної текстової інформації. Звідси випливає, що задача
машинного(автоматичного) перекладу – це задача штучного інтелекту, який би зміст не вкладався в поняття штучного інтелекту [4,9].
На даний час серед найбільш досліджуваних є системи з використанням мови-посередника (проміжної мови), змішаного підходу, на основі навчання машин, на основі корпусів, на основі прикладів та гідридних методів на основі статистик та прикладів. Працюють як одномовні, так і багатомовні системи, не лише для письмових текстів, але й для усного мовлення.
Окремо стоїть задача автоматизованого перекладу, яка передбачає тісну взаємодію перекладача та системи на всіх етапах перекладу. Завдяки успіхам в розробці систем автоматизованого перекладу професійні перекладачі масово користуються такими системами, особливо для перекладів з повторюваною тематикою або перекладів, де треба узгоджувати роботу багатьох перекладачів.
2.1. АВТОМАТИЧНИЙ ПЕРЕКЛАД
Оскільки першопрохідцями були математики і програмісти, для першого етапу розвитку машинного перекладу було характерне так зване
„кодування-декодування”.
Цей підхід називається прямим методом, у ньому переклад розглядається як звичайний аналог тексту оригіналу. Відповідно до методу прямого перекладу, вихідний і цільової тексти повинні бути схожі і за своєю формою, і за концептуальним змістом. Ця ідея виявилась обмеженою

41 вузьким колом текстів спеціалізованої тематики – прогноз погоди тощо.
Схему подано на Рис. 2.1.
Текст мовою оригіналу сегментація
Слова мови оригіналу
Отримання даних
Слова мови перекладу перегрупування
Текст мовою перекладу
=>
=>
=>
=>
=>
Мова оригіналу –Мова мети
Словники і граматики
Рис. 2.1. Прямий метод
Протягом 1970х-80х рр. відбувався розвиток так званих систем
„другого покоління”, побудований на правилах, спрямованих на лінгвістичну обробку, як правило, у три етапи: синтактико-семантичний аналіз вихідного тексту, застосування правил перетворень з більш-менш абстрактним рівнем представництва та генерування цільового тексту з синтаксичного представлення вхідного тексту. У той же час точилися дебати про те, як можна використовувати системи, побудовані за цієї архітектурою, для забезпечення прийнятного рівня перекладу для реальних користувачів.
Найпопулярнішими були ідеї обмеження входу (підмова і контрольовані мови), або переклад за участю користувача в перед- і пост-редагуванні[3].
Схему подано на Рис. 2.2.
Платформа МП я
Передвідредаговане введення
Введення контрольованої мови
Постредагуванн
«сире» введення
=>
=>
=>
Галузева база даних
Словник користувача
Підмова
Рис. 2.2 Оптимізований прямий метод
Щоб поліпшити якість прямого перекладу, застосовуються два наступні методи, а саме: синтаксичні фільтри і статистичне ранжування перекладних еквівалентів, які б дозволили вибрати найбільш ймовірні з них для конкретного документа, що перекладається.

42
Синтаксичні фільтри мають форму логічних фреймів, де слоти заповнені синтаксичними структурами з зазначенням функції. Зазвичай в системах машинного перекладу на основі прямого методу досить багато фільтрів для „згладжування” сирого перекладу.
Другий основний метод машинного перекладу - це спосіб переносу
інформації, заснований на правилах перетворень[12]. (Першим вважається прямий метод).
У системі на основі перетворень процес перекладу включає наступні стадії обробки: морфологічний та синтаксичний аналіз, власне перенос
інформації у проміжному представленні, синтез синтаксичних структур, морфологічний синтез (побудова тексту перекладу). Досить часто системи на основі переносу містять семантичну складову. Мережа семантичних описів і відносин накладається на синтаксичні структури вихідного тексту і тексту мети (тобто власне перекладу). Метою семантичної компоненти є підвищення точності перекладу. Схему подано на Рис. 2.3.
Текст оригіналу
Аналіз
Дерево представ- лення мови оригіналу.
Перенос
Дерево представ- лення мови мети.
Синтез
Текст мовою мети
=>
=>
=>
=>
=>
Лексикон і граматика мови оригіналу
МО-ММ лексичні
і структурні правила
Лексикон і граматика мови мети
Рис 2.3. Метод, заснований на правилах перетворень
Третім основним методом є використання проміжної мови[13]. У певному сенсі це схоже на попередній метод, однак існує декілька важливих відмінностей. На відміну від процедур переносу, які застосовуються здебільшого на синтаксичному рівні з деякими коригуванням семантики, представлення інформації через проміжну мову включає всю доступну лінгвістичну інформацію.
Крім того, системи на основі проміжної мови претендують на універсальність, тобто поширюються на будь-які мови.

43
Проміжна мова є формальним описом морфологічних, синтаксичних і семантичних характеристик мовної одиниці у вигляді співвідношення один- до-одного. Кожна одиниця мови пов'язана з конкретним незмінним атомом у структурі проміжної мови і навпаки - кожен атом структури проміжної мови незмінно пов'язаний з одиницями різних мов.
В ідеалі, модель із застосуванням проміжної мови у машинному перекладі має включати наступні етапи обробки: морфологічний, синтаксичний та семантичний аналіз вихідного тексту, використовуючи
інформацію зі словника мови оригіналу і парадигм; формування представлення мови вихідного тексту модулем проміжної мови; перетворення початкового представлення модулем проміжної мови у текст перекладу, використовуючи відповідні семантичні, синтаксичні, лексичні та морфологічні дані зі словника мови перекладу і парадигм.
Зазвичай формалізм проміжної мови має вигляд графічного мережі або
її аналітичного еквівалента. Це дуже складна система морфологічних, синтаксичних та семантичних одиниць і відносини. Схему подано на Рис.2.4.
Текст оригіналу
Аналіз
Представлення проміжною мовою
Синтез
Текст мовою мети
=>
=>
=>
Словники і граматики МО
Словники МО-ММ
Словники і граматики ММ
=>
Бази знань
Рис 2.4. Модель на основі проміжної мови:
На особливу увагу заслуговують системи на основі методу штучного
інтелекту (ШІ) – artificial intelligence (AI), які спираються на енциклопедичні дослідження.
Основним компонентом моделі перекладу на основі ШІ є його так звана „база знань”. Відповідно до моделі перекладу, заснованій на ШІ, - основі результати лінгвістичного аналізу на всіх рівнях мови перевіряються за допомогою позамовної інформації, що міститься в базі знань.

44
У всіх трьох вищезгаданих способах моделювання перекладу усунення неоднозначності здійснюється тільки за допомогою контексту. Жодна з цих моделей, однак, не використовує двох інших інструментів усунення неоднозначності, тобто ситуації та довідкової інформації.
У моделях перекладу, заснованих на ШІ, процедури усунення неоднозначності радикально відрізняються і ґрунтуються перш за все на аналізі ситуації та довідкової інформації (бази знань), в той час як лінгвістичні методи аналізу контексту служать тільки в якості вторинних резервних засобів. Бази знань містять особливим чином впорядковані ієрархії фактів про реальний світ,,
а вербальна інформація відіграє підлеглу роль, лексично позначаючи факти і ситуації. Ще одним важливим компонентом моделювання перекладу на основі ШІ є модуль прийняття рішень, який включає структурну ієрархію логічних побудов з оцінкою імовірності.
Нинішній рівень складності моделювання перекладу на основі ШІ досить неоднозначний - з одного боку, результати розвитку моделей ШІ, призначених для перекладу як такого вельми обмежені, а з іншого, однак, розробка моделей ШІ, призначених для інтерфейсу природною мовою, особливо для експертних систем, дуже ефективна.
Машино-орієнтовані статистичні методи складають наступну групу підходів[11].
У статистичних методах моделювання перекладу передбачається, що з певною ймовірністю кожне слово тексту перекладу може бути перекладом кожного слова вихідного тексту, але різні статистичні моделі відрізняються щодо подальших імовірнісних оцінок. Модель може оцінювати:
- імовірності узгодження порядку слів у тексті оригіналу і результуючому тексті перекладу
- імовірності словосполучень у тексті оригіналу і результуючому тексті перекладу тощо.
Схему подано на Рис 2.5.

45
Текст
МО
Сегментація
Одиниці
МО екстракція
Одиниці
ММ комбінування
Послідов ності
ММ
Вибрані фільтри
Речення
ММ
Пере впорядку вання
Модель перекладу
Модель мови
=>
=>
=>
=>
=>
=>
=>
Слова, статистичні фрази, синтаксичні дерева
Корпус текстів
Рис.2.5. Статистична модель
У кінці 1980-х - на початку 1990-х рр. розвивається модель з використанням пар приклад-переклад для довгих конструкцій. Це стало можливим завдяки таким факторам:
1. Розширенню можливості ЕОМ зберігати великі бази прикладів.
2. Наявності великих двомовних корпусів текстів в електронних форматах.
Схему подано на Рис 2.6.
Текст
МО
Сегмент
Фраза МО Добір відпо- відника
Фрази МО
Екстрак- ція
Фраза
ММ
Поєднання
Речення
ММ
(шаблон)
(шаблон)
=>
=>
=>
=>
=>
=>
=>
Паралельні корпуси
Правила ММ або модель мови
Рис.2.6. Діаграма 6. Модель перекладу, побудована на прикладах
Слід зазначити, однак, що жоден з методів машинного перекладу не використовується в реальних системах у чистому вигляді.
У даний час розробляються також змішані або гібридні системи, що використовують як імовірнісні, так і лінгвістичні методи для отримання найкращого результат..
2.1.1 МІКРОКОСМОС
Проект Мікрокосмос розроблявся під керівництвом С. Ніренбурга в
1991-99 рр[13]. В ньому доведено до реалізації метод перекладу з проміжною

46 мовою. Розробники Мікрокосмосу займалися в основному семантичним аналізом, морфологічні і синтаксичні аналізатори були ними запозичені.
Проект покладається на ідею максимально продуктивно синтезувати множину існуючих на сьогодні теоретичних розробок (т.з. мікротеорій) в
єдину систему. До числа найбільш цікавих мікротеорій, що адаптувалися і були покращенні в Мікрокосмосі відносяться:
1) теорія організації онтології, принципів виводу інформації за нею;
2) засоби застосування онтології до реальних текстів, засоби розв’язання омонімії;
3) інтеграція конкретних семантичних мікротеорій.
Концепти реалізуються в тексті в словах. Слова можуть бути омонімічні або полісемічні, їм може бути приписано декілька концептів, з яких потрібне вибрати один. Проблема вибору потрібного значення слова - одна з найбільш складних, повний перебір варіантів значення на великих текстах не є можливим через велику складність. Тому використовуються евристики: лінгвістичні та логічні. Лінгвістичні евристики є застосовними в конкретних мовах, вони звичайно звужують область пошуку конкретними правилами, зменшують відрізки тексту, на яких потрібно застосовувати повний перебір. Логічні евристики - зв'язані з припущенням, що семантична структура речення найчастіше буває деревом.
Обмеження задані текстом: значення слова зумовлює вибір значення
іншого слова. Граф, в вузлах якого містяться слова, а на дугах - знаходяться обмеження, будемо називати

Поділіться з Вашими друзьями:
1   2   3   4   5   6


База даних захищена авторським правом ©divovo.in.ua 2017
звернутися до адміністрації

войти | регистрация
    Головна сторінка


загрузить материал