Тарануха В. Ю. Інтелектуальна обробка текстів



Pdf просмотр
Сторінка5/6
Дата конвертації05.01.2017
Розмір0.71 Mb.
1   2   3   4   5   6
int EditDistance(char s[1..m], char t[1..n])
let d array of int [0..m, 0..n]
for i in [0..m] d[i, 0] ← i // Відстань будь-якого першого рядка до порожньго другого
рядка
for j in [0..n] d[0, j] ← j // Відстань будь-якого другого рядка до порожнього першого
рядка
for j in [1..n]
for i in [1..m]
if s[i] = t[j] then d[i, j] ← d[i-1, j-1]
else d[i, j] ← minimum of
( d[i-1, j] + 1, // видалення d[i, j-1] + 1, // вставка d[i-1, j-1] + 1 // заміна
)

61
return d[m,n]
Цей алгоритм називають алгоритмом Вагнера-Фішера.
Оскільки повний перебір не є раціональним, то як вже згадувалося, використовуються методи виділення запозичень, принаймні для відбору кандидатів та розбиття на субблоки, у яких уже використовується алгоритм
Вагнера-Фішера.
2.2.4. ПРОБЛЕМИ, ЩО ВИНИКАЮТЬ ПРИ ВИКОРИСТАННІ МПП
Іноді використання систем МПП може мати негативний вплив на якість перекладу. Одним з основних недоліків систем МПП є те, що вони зазвичай працюють на рівні речень. Таким чином, існує серйозна небезпека того, що перекладач приділяють занадто багато уваги ізольованим реченням, можливо, без урахування контексту, де вони зустрічаються.
Рисунок 2.10 : Нечіткі відповідності та розпізнавання термінології. Цитується за: U. Reinke State of the Art in Translation Memory Technology

62
Приклади (А) і (В) на Рис.2.10 демонструють проблему відносно мовних вказівників і лексичної неоднозначності. У прикладі (А) займенник задає посилання на словосполучення попередньому реченні. У прикладі (B) такі терміни мають по декілька сенсів, таким чином задаючи мовну неоднозначність. Звідси випливає, що точний збіг у МПП може надати неправильний переклад. Відповідні алгоритми систем МПП засновані на дуже простих формальних критеріях подібності символьних рядків. Таким чином, уявлення людини-перекладача про ступінь подібності між сегментом для перекладу і сегментом з бази даних може істотно відрізнятися від ступеня подібності, розрахованого системою МПП. У прикладі (С) точний збіг насправді дає хибний сенс через те, що втрачено контекст. У перекладах з „нечітким збігом” шанси на помилку ще вищі. Приклад (D).
2.2.5. МЕТОДИ ПОКРАЩЕННЯ СПІВСТАВЛЕННЯ ТЕРМІНІВ ТА БЛОКІВ
Хоча комерційні системи МПП були доступні протягом більше двох десятиліть, продуктивність їх пошуку не значно покращилася з точки зору точності та повноти.
Звичайно, алгоритми співставлення з часом змінювалися, але вони, як і раніше, покладаються на простий збіг символів або на маркери узгоджувальних процедур без урахування лінгвістичних аспектів, як то: морфологічного, синтаксичного або семантичного. Проте ці особливості можуть вказувати на схожість перекладу текстових блоків (ТБ).
Розміщувані елементи: теги, графіки і динамічні поля, як правило, не містять перекладних елементів. Вони часто можуть бути скопійовані
(розміщені) у цільовий текст без необхідності подальшої модифікації. Мітки
є елементи розмітки в HTML і XML файлах; вкладені графічні та динамічні поля, як правило, трапляються в файлах Microsoft Word.
Локалізовані елементи: номери, дати, URL або адреси електронної пошти, у свою чергу, складаються з простого тексту у певному порядку, вони можуть бути ідентифіковані без „мовних знань”. Локалізація (або переклад)

63 цих елементів передбачає врахування правил і часто не впливає на інші частини в ТБ.
Аналіз розміщуваних та локалізованих елементів впливає на ефективність співставлення комерційних систем МПП. Розміщувані елементи іноді призводять до порівняно низького значення нечіткого співставлення, тому що деякі системи ставляться до них як до стандартного тексту при порівнянні довжини відрізків. Замість цього, було доцільніше використовувати фіксований штраф, коли цільовий текст та вихідний текст розрізняються тільки місцем переміщуваних елементів, в той час як інший текст є ідентичний. Проте, якщо є різниця в розміщенні, то це не тотожні ТБ, це треба враховувати.
Локалізовані елементи. Замість того, щоб розглядати їх як звичайний текст, їх слід розглядати в якості спеціальних елементів, які слідують певним шаблонам. Ці моделі можуть бути визначені за допомогою регулярних виразів. Для розрахунку співставлень можуть бути застосовані ті ж принципи, що вже запропоновані для переміщуваної елементів.
Підходи, які застосовують „лінгвістичні знання”. По-перше, це використання морфологічного та часткового синтаксичного аналізу.
Недоліком є обмеження по кількості пар мов, для яких можна проводити такий аналіз. Також, не виключається використання семантики, звісно, за наявності доступу до семантичних баз знань. Можливо таким джерелом стане EuroWordNet. Інше джерело – Вікіпедія, завдяки наявності багатьох зв’язків, представлених посиланнями та наявністю різних мов.
Пізніші дослідження щодо підвищення точності та повноти в системах
МПП в основному зосереджувалися на поліпшення повторного використання нечітких збігів, застосовуючи методи з статистичного МП. Залежності будує машинний перекладач, і вони можуть бути нетривіальними, як у Табл. 2.1.
Математична основа перекладу виражається тоді такою формулою:

64 де s є джерелом для перекладу, t - кандидат у цільове речення, a -
„вирівнювання” між ними,
m

- дійсне значення ознаки (частота такого перекладу пар, синтаксична якість, тощо),
m

дійсний ваговий коефіцієнт ознаки, Z
s
– нормуючий множник. Задача полягає у віднаходженні такої пари
(a, t), що максимізує P(t, a |s).
2.3. ВИСНОВКИ
Описано системи автоматичного та автоматизованого перекладу, основні підходи та задачі. Деталізовано ряд алгоритмів та методів. Останнім часом ці два підходи гібридизують один одного, і надають все більш зручні механізми для автоматизації перекладу.
Контрольні запитання
1.
Задача машинного перекладу. Основні підходи та моделі.
2.
Імовірнісні моделі перекладу.
3.
Переклад з проміжною мовою. Перетворення структур однієї мови у структури іншої мови.
4.
Змішаний підхід на основі статистик та правил перетворення.
5.
Системи типу „машинна пам’ять перекладача”.
6.
Задача автоматичного співставлення фрагментів.

65 3. СИСТЕМИ ПРИРОДНОМОВНОГО ДІАЛОГУ
Існує багато різних архітектур діалогових систем (ДС). Набори компонентів і їхні функції різні. Головний компонент будь-якої ДС - це менеджер діалогу, який керує станом та стратегію діалогу. Обмежимося лише системами текстового діалогу, хоча діалогова система в цілому може використовувати текст, мову, графіку, тактильні, жести і інші режими для спілкування як на вході, так і на виході[10].
Діалогові системи (ДС ) можна розділити на два типи:
- ДС із запрограмованим діалогом;
- ДС, що настроюються на різні класи задач на основі відповідних описів предметної області.
На відміну від ДС з запрограмованим діалогом, обмежених, як правило, певною предметною областю, ДС загального типу дає користувачу більш широкі можливості, оскільки зміна предметної області діалогу не вимагає перегенерації (або перетрансляціі) системи. Модифікація системи забезпечується шляхом введення нового сценарію, що визначає схему діалогового взаємодії (структуру та зміст діалогу), стан діалогу та запускаються в діалозі процедури (функції). При сценарному підході досягається максимально можлива незалежність діалогу від програмних засобів ДС, що дозволяє спростити і прискорити розробку ДС. Як правило,
ДС створюють, користуючись типовою архітектурою систем автоматичної обробки мови. Саме такі ДС, орієновані на допомогу в обробці даних шляхом діалогу, утворюють групу питально-відповідальних систем.
Системи природно мовного діалогу орієнтовані на режим питання- відповідь (англ. QA - Question-answering system)– це інформаційні системи, здатні сприймати питання і відповідати на них природною мовою, іншими словами, це системи спілкування з природно-мовним інтерфейсом. Надалі будемо називати їх питально-відповідальними системами (ПВС).
Сучасні ПВС зазвичай включають особливий модуль - класифікатор питань, який визначає тип питання і, відповідно, тип очікуваної відповіді.

66
Після цього аналізу система поступово застосовує за наданими документами все більш складні і тонкі методи обробки природної мови, відкидаючи непотрібну інформацію. Найбільш грубий метод - пошук в документах - передбачає використання системи пошуку інформації для відбору частин тексту, що потенційно містять відповідь. Потім фільтр виділяє фрази, схожі на очікувану відповідь (наприклад, на питання «Хто...» фільтр поверне шматочки тексту, що містять імена людей). І, нарешті, модуль виділення відповідей знайде серед цих фраз правильну відповідь.
Функціонування більшості ПВС зводиться до здійснення наступних основних дій через інтерфейс:
- введення повідомлень (питань) користувача;
- виведення повідомлень (питань) системи;
- запуск модулів (функцій), які обирають відповідно з повідомленнями користувача та умовами вибору;
- вибір подальших шляхів продовження (або завершення) діалогу, який визначається сповіщенням користувача і задається умовою.
Діаграма діяльності такої системи зображена на Рис 3.1.
Рис. 3.1. Діаграма діяльності ПВС

67
Складність розробки та взаємодії продемонстровано у таблиці 3.1
Таблиця 3.1. Характеристики користувачів, питань і відповідей. Цитується за:
Issues, Tasks and Program Structures to Roadmap Research in Question &
Answering (Q&A). [10]
Характеристику питання і відповіді ПВС наведено на Рис. 3.2. При роботі з ПВС фахівець-аналітик діє у спосіб, показний на Рис. 3.3.
ПВС почали розробляти у 60-роки ХХ ст. як оболонки для експертних систем у конкретних галузях. Сучасні системи в більшості призначені для пошуку відповідей на питання в базах документів з використанням технологій обробки природної мови. ПВС можна умовно розділити на
загальні (open-domain) вузькоспеціалізовані (closed-domain). Загальні ПВС працюють з інформацією з усіх галузей знань, даючи можливість вести пошук і в суміжних областях. Вони характеризуються універсальністю.
Найбільш відома система - Start (1993р.). Вузькоспеціалізовані ПВС працюють у конкретних областях – телефонних системах, настільних та
інших комп’ютерах та ін. У них висуваються вимоги до точності відповідей і вони потребують складання онтологій для предметних областей.
Рівень 1


Рівень 2
Рівень 3

Рівень 4
Пересічний
користувач
Типовий репортер
Допитливий молодий репортер
Аналітик-професіонал
СКЛАДНІСТЬ ПИТАНЬ І ДІАПАЗОН ВІДПОВІДЕЙ
ВІД:
ДО:
==================================================================
Питання:

Питання:
Про прості
факти

Складні, використовує оціночні судження;
Необхідне знання контексту; Широкий
діапазон;
==================================================================
Відповіді:

Відповіді:
Прості, в
межах
одного
документа

Потребують пошуку у багатьох джерелах(мультимедійних системах/багатьма мовами Потребують
поєднання інформації; узгодження
суперечливих даних; велика кількість
альтернативних відповідей і додаткового
розтлумачення; Необхідні висновки

68
Рис. 3.2. Характеристика питання і відповіді ПВС. Цитується за: Issues, Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A)
Рисунок 3.3. Цитується за: Issues, Tasks and Program Structures to Roadmap
Research in Question & Answering (Q&A)

69
Роботу ПВС можна формалізувати як задачу перекладу, в якій цільова природна мова збігається з природною мовою джерела, але множини понять та виразних засобів – відрізняються. Це дозволяє без обмежень застосовувати методи описані в Розділі Машинний переклад.
3.1. МОДЕЛЮВАННЯ ПРЕДМЕТНОЇ ОБЛАСТІ
Сучасні технології проектування ПВС ґрунтуються на використанні методології моделювання предметної області. Моделлю предметної області називається деяка система, яка імітує структуру або функціонування досліджуваної предметної області і відповідає основній вимозі - бути адекватною цій галузі. Без проведення моделювання предметної області велика ймовірність допущення великої кількості помилок у відповідях на питання. Внаслідок цього до моделей предметних областей висуваються такі вимоги:
- Формалізація, що забезпечує однозначний опис структури предметної області.
- Зрозумілість для замовників і розробників на основі застосування графічних засобів відображення моделі;
- Реалізовуваність, тобто наявність засобів фізичної реалізації моделі предметної області в ІС.
- Забезпечення оцінки ефективності реалізації моделі предметної області на основі обраного формалізму.
Для реалізації перерахованих вимог, як правило, будується система моделей, яка:
- складається з певних методів і обчислюваних показників;
- відображає структурний і оціночний аспекти функціонування предметної області.
Структурний аспект передбачає побудову:
- об'єктної структури, яка відбиває склад взаємодіючих в процесах матеріальних та інформаційних об'єктів предметної області;

70
- функціональної структури, яка відбиває взаємозв'язок функцій (дій) щодо перетворення об'єктів в процесах;
- структури управління, яка відбиває події та бізнес-правила, які впливають на виконання процесів;
- організаційної структури, яка відбиває взаємодію організаційних одиниць підприємства і персоналу в процесах;
- технічної структури, яка описує топологію розташування і способи комунікації комплексу технічних засобів.
Для відображення структурного аспекту моделей предметних областей в основному використовуються графічні методи, які повинні гарантувати представлення інформації про компоненти системи. Головна вимога до графічних методів документування - простота. Графічні методи повинні забезпечувати можливість структурної декомпозиції специфікацій системи з максимальним ступенем деталізації та погоджень описів на суміжних рівнях декомпозиції.
Першим стандартом програмної архітектури є стандарт IEEE 1471:
ANSI/IEEE 1471-2000: Рекомендації по опису переважно програмних систем.
Його булло прийнято в 2007 році, під назвою ISO ISO/IEC 42010:2007
Спосіб дії повинен враховувати доступ до інформаційних ресурсів.
Продуктивність ПВС залежить від якості та обсягів текстової бази – локальної чи глобальної. Для локальної необхідні певні потужності для зберігання інформації, а великі сховища (такі як Інтернет) містять багато надлишкової інформації. Проте великі сховища мають і позитивні характеристики. Так як інформацію у великому сховищі представлено в різних формах, ПВС швидше знайде необхідну відповідь, проминувши стадію поглибленого аналізу тексту. У великих масивах правильна
інформація частіше повторюється, тому помилки в документах краще відсіваються.

71 3.2. ФРЕЙМИ
Розглянемо конкретні структури моделей пошуку знань фреймами.
Теорія фреймів - це теорія наукових концепцій, і хоча моделі подання знань фреймами грунтуються на цій теорії, вона повністю не охоплює їх. Останнім часом замість назви „фреймова” використовуються назви „об'єктно- орієнтована”, „структурованих об'єктів” і т.п. Ці назви, як далі буде показано, характерні для мови типу Smalltalk, що, власне, і відноситься до так званих об'єктно-орієнтованих мов, у яких є багато спільного із структурою програм і механізмами управління виконанням. Для порівняння розглянемо Таблицю
3.2:
Таблиця 3.2.
Фреймова термінологія
Об’єктно-орієнтована термінологія
Фрейд
Клас об’єктів
Слот
Властивості і атрибути об’єктів
Тригер
Методи Accessor і Mutator
Метод (певні мови, напр., Loom, KEE) Метод
Іншими словами, змінні (структури даних) і процедури, які стосуються
їх обробки, утворюють об'єкт, а схожі об'єкти мають ієрархічну структуру типу онтології. Управління виконанням проводиться за допомогою передачі повідомлень між об'єктами, що майже аналогічно механізму управління виводу за допомогою передачі повідомлень між фреймами. Однак на відміну від об'єктно-орієнтованої мови, яка має парадигми для універсального програмування, моделі подання знань фреймового типу мають парадигми для управління представленням знань (або пам'яттю) і висновками, тобто за основними ідеями і конкретною реалізацією вони мають багато відмінностей.
Фреймова система - це ієрархічна структура, вузлами якої є фрейми.
Кожен фрейм складається з елементів, значення кожного елемента, розглянуто нижче.
Структуру вузла фреймової системи подано на Рис. 3.4.
Ім'я фрейма(1)
Покажчик наслідування(3)
Покажчик атрибутів слота (4)
Значення слота (5)
Демон (6)

72
(текст, чисельне значення, приєднана процедура, покажчик тощо
Назва, значення, процедура(7), покажчик тощо
Слот 1 (2)
Слот 2
Слот N
Рис 3.4. Структура вузла фреймової системи
(1). Ім'я фрейма. Це ідентифікатор, який присвоюється фрейму, фрейм повинен мати ім'я, єдине в даній фреймової системі (унікальне ім'я). Кожен фрейм, як показано на Рис. 3.2, складається з довільного числа слотів, причому декілька з них зазвичай визначаються самою системою для виконання специфічних функцій, а інші визначаються користувачем. До їх числа входять: слот „IS-А”, що показує на фрейм-батька даного фрейма, слот покажчиків дочірніх фреймів, який є списком покажчиків цих фреймів, слот для введення імені користувача, дати визначення, дати зміни, тексту коментаря та інші слоти. Кожен слот, у свою чергу, також представлений певною структурою даних.
(2). Ім'я слота. Це ідентифікатор, який присвоюється слоту; слот повинен мати унікальне ім'я у фреймі, до якого він належить. Зазвичай ім'я слота не несе ніякого смислового навантаження і є лише ідентифікатором даного слота, але в деяких випадках воно може мати специфічний сенс. До таких імен крім IS-А (відношення IS-А), DDESENDANTS (покажчик прямого дочірнього фрейму), DEFINEDBY (користувач, який визначає фрейм),
DEFINEDON (дата визначення фрейму), MODIFIEDON (дата модифікації фрейму), COMMENT (коментар) і т.п. відносяться імена, використовувані для представлення структурованих об'єктів, наприклад HASPART, RELATIONS та інші. Ці слоти називаються системними і використовуються при редагуванні бази знань і управлінні висновком.
(3) Покажчики наслідування. Ці покажчики стосуються тільки фреймових систем ієрархічного типу, заснованих на відносинах „абстрактне –

73 конкретне”, вони показують, яку інформацію про атрибути слотів у фреймі верхнього рівня успадковують слоти з такими ж іменами у фреймі нижнього рівня. Типові покажчики наслідування Unique (U: унікальний), Same (S: такий же), Range (R: встановлення границь), Override (O: перезаписати ) і т.п.,
U показує, що кожен фрейм може мати слоти з різними значеннями: S - що всі слоти повинні мати однакові значення, R - значення слотів фрейма нижнього рівня повинні знаходитися в межах, зазначених значеннями слотів фрейма верхнього рівня, О - при відсутності вказівки значення слота фрейма верхнього рівня стає значенням слота фрейма нижнього рівня, але у разі визначення нового значення слотів фреймів нижніх рівнів вказуються як значення цих слотів. Незважаючи на те що в більшості систем допускається кілька варіантів вказівки наслідування, існує чимало й таких, де допускається тільки один варіант.
(4). Вказівка типу даних. Вказується, що слот має чисельне значення, або служить покажчиком іншого фрейму (тобто показує ім'я фрейму). До типів даних відносяться FRAME (покажчик), INTEGER (цілий), REAL
(дійсний), BOOL (булеві), LISP (приєднана процедура), ТЕХТ (текст), LIST
(список), TABLE (таблиця), ЕXРRESSION (вираз) та інші.
(5). Значення слота має збігатися з указаним типом даних цього слоту, крім того, повинна виконуватися умова наслідування.
(6). Демон. Демоном називається процедура, що автоматично запускається при виконанні деякої умови. Демони запускаються при зверненні до відповідного слоту. Наприклад, демон IF-REQUIRED запускається, якщо в момент звернення до слоту його значення не було встановлено, IF-ADDED запускається при підстановці в слот значення, IF-
REMOVED запускається при стиранні значення слота. Крім того, демон є різновидом приєднаної процедури.
(7). Приєднана процедура. Як значення слота можна використовувати програму процедурного типу. Коли ми говоримо, що в моделях представлення знань фреймами об'єднуються процедурні та декларативні

74 знання, то вважаємо демони і приєднані процедури процедурними знаннями.
Крім того, у мові представлення знань фреймами відсутній спеціальний механізм управління виводу, тому користувач повинен реалізувати цей механізм за допомогою приєднаної процедури. Однак дана мова має дуже високу універсальність, що дозволяє крім ієрархічного і мережевого представлення знань за допомогою фреймової системи ефективно писати будь-яку програму управління виводу за допомогою приєднаної процедури.
Водночас це додаткове навантаження для користувача. Отже, мову представлення знань фреймами можна назвати мовою, орієнтованою на фахівців з штучного інтелекту, а також мовою, орієнтованою на складні прикладні проблеми. Відомі також приклади систем, що допускають застосування правил продукції як типів даних. Це обумовлено, з одного боку, тим, що більшість систем, орієнтованих на вирішення складних проблем, містить як складову продукційну систему, а з іншого боку - зниженням навантаження на користувача. Крім того, відомі приклади систем типу ZERO, що допускають застосування функцій Прологу як приєднаної процедури.
Можливий розвиток діалогу з уточненням питання. Такий сценарій описується фреймом - прототипом, а конкретна реалізація діалогу фіксується у вигляді фрейму - екземпляра.
Можливість включення в структуру фрейму процедурної інформації дозволяє, у разі незадовільного уточнення, організувати цикл щодо заповнення вмісту слотів фрейма. Недоліком використання апарату фреймів при організації діалогу є відсутність хронологічної інформації у фреймах і неможливість безпосереднього урахування історії діалогу
3.3. ГЕНЕРАЦІЯ ВІДПОВІДІ
Два основних способи: на базі статистичного підходу та на базі фреймів.
Основою генерації відповіді на базі статистичного механізму є обчислення співставлення, що вказує на відповідні блоки, що слугуватимуть

75 ключами для пошуку елементів з бази відповідей, що треба включити в результат. Після того, генерується перестановка, також на базі статистичних закономірностей, а на базі перестановки – речення-відповідь. При потребі система також змінює свій стан по плану ведення діалогу.
Генерації відповіді на базі фреймів передбачає застосування приєднаних процедур, що виконують рекурсивний пошук в базі знань, при потребі викликаючи інші процедури. При цьому головна складність полягає у визначенні фрейму, з якого треба починати обхід. Для економії обчислювальних ресурсів застосовується класифікатора питань, це дозволяє зменшити кількість потенційних стартових фреймів. Також, оптимізація можлива за допомогою побудови таблиці відповідностей, аналогічно до механізму для статичниної побудови відповідей.
Основний допоміжний інструмент - тезаурус або онтологічна база
(наприклад, типу WordNet). З її допомогою можна успішно вирішувати питання синонімії, та заміни термінів на більш загальні або більш деталізовані, хоча і без гарантії якості. Це можна виконувати подібно до реалізацій з Розділу „Реферування”, або Розділу „Машинний переклад”.
3.4. ПЕРСПЕКТИВИ РОЗВИТКУ ПВС
ПВС розвиваються, і Спеціальний комітет, що складається із провідних дослідників з організацій, наукових установ та вишів, визначив структуру програм, здатних вирішувати проблеми обробки питань, у 2002 р. розробив підзадачі і об'єднав їх у більш складні способи, щоб уможливити задоволення потреб найвимогливіших запитувачів. Комітет визначив наступні вимоги, які повинні виконуватися для ПВС:
Відповіді повинні надаватися вчасно в реальному режимі часу, бути вчасними навіть за умови одночасної постановки питань тисячами запитувачів. Нова інформація повинна ставати доступною негайно після її отримання, навіть коли йдеться про найновіші факти чи останні події.
Достовірність

Поділіться з Вашими друзьями:
1   2   3   4   5   6


База даних захищена авторським правом ©divovo.in.ua 2017
звернутися до адміністрації

войти | регистрация
    Головна сторінка


загрузить материал