Тарануха В. Ю. Інтелектуальна обробка текстів




Сторінка1/6
Дата конвертації05.01.2017
Розмір0.71 Mb.
  1   2   3   4   5   6

Київський національний університет імені Тараса Шевченка
Кафедра математичної інформатики
Тарануха В.Ю.
ІНТЕЛЕКТУАЛЬНА ОБРОБКА ТЕКСТІВ
Частина 1
Навчальний посібник














Київ-2014

2
УДК 004.912:81'32
ББК 81.1 я73
Т19
Рекомендовано вченою радою
Київського національний університету імені Тараса Шевченка
Протокол № від .11.2014 р.
Рецензенти д-р фіз.-мат. наук
д-р фіз.-мат. наук

Тарануха В.Ю.
Інтелектуальна обробка текстів: [навчальний посібник] / В. Ю.Тарануха. –
Київ: електронна публікація на сайті факультету, 2014. – 80 с.
У навчальному посібнику розглянуто задачі інтелектуальної обробки текстів. Виклад зосереджено на питаннях автоматичного реферування, автоматичного та автоматизованого перекладу, діалогових та довідкових систем.
Призначений для студентів фізико-математичних та технічних спеціальностей вищих навчальних закладів.
© Тарануха В.Ю., 2014

3
ПЕРЕДМОВА
Лінгвістична обробка природномовних текстів є однією з центральних проблем інтелектуалізації інформаційних технологій. Цій проблемі приділяється значна увага в розвинутих країнах Європи та США, свідченням чого є виділення величезних коштів на розробку лінгвістичного програмного забезпечення. Велику кількість науково-дослідних програм спрямовано на розвиток лінгвістичних інформаційних систем. У зв’язку з бурхливим розвитком Інтернету, інших комп’ютерно-комунікаційних технологій ця проблема набуває ще більшої значущості.
Ще з середини 50-х років минулого століття значні зусилля науковців були спрямовані на розробку математичних алгоритмів та комп’ютерних програм обробки текстів природною мовою. Для автоматизації аналізу та синтезу текстів створювалися різноманітні моделі процесів обробки тексту, а також відповідні алгоритми та структури представлення даних. Традиційно аналіз природномовних текстів представлявся як послідовність процесів – морфологічний аналіз, синтаксичний аналіз, семантичний аналіз. Для кожного з цих етапів було створено відповідні моделі та алгоритми. Для семантики тексту - класичні семантичні мережі та фреймові моделі
Мінського, для синтаксису речення - граматики Хомського, системні граматики Холідея, дерева підпорядкування та системи складових Гладкого, розширенні мережі переходів; для морфологічного аналізу розроблено багато різних моделей, орієнтованих на конкретні групи мов.
Найбільш складні проблеми обробки природномовних текстів зумовлені явищами полісемії, омонімії тощо, які привносять у мову неоднозначність і значно ускладнюють задачу встановлення коректного відображення семантично-синтаксичної структури тексту в його формальне логічне представлення. Всі ці проблеми вирішуються на рівні семантичного аналізу.
З іншого боку. застосування ресурсномістких функцій логічно- семантичного аналізу робить програми обробки тексту занадто складними та

4 повільними. Людина в процесі розуміння тексту не так часто застосовує логіку – лише по мірі виникнення логічних задач, а в решті випадків відбувається застосування інших механізмів, у першу чергу – пошук за асоціацією по за формою чи контекстом.
Пошук за асоціацією – це оцінювання поняття, що відповідає даному слову та є контекстно близьким до свого оточення. При цьому асоціативний пошук є швидким та економічним засобом розв’язання неоднозначності
інтерпретації тексту. Тому частина методів пов’язана з визначенням асоціацій за контекстом. Для роботи цих методів необхідна онтологічно- словникова база (онтологія), яка містить інформацію про концепти (поняття) мови, зв’язки концептів зі словами мови та зв’язки між концептами
(синонімія, антонімія, гіперо-, гіпонімія та інші). Разом з онтологією використовується ряд алгоритмів, а саме: алгоритм визначення концептів за словами в тексті, алгоритми відновлення значень мовних вказівників на основі онтології, алгоритм визначення тематичної належності слів та понять тексту та тексту в цілому, алгоритм визначення змістовної близькості слів та понять, алгоритм узагальнення.
Пошук за формою мовної конструкції – оцінювання фрази/речення через його форму (синтаксичну структуру, регулярний вираз, наявність визначених елементів), з створенням відповідної реакції на віднайдений шаблон. При цьому вчені намагаються збудувати такі шаблони або маркери, які б дозволяли охопити якомога більше мовних явищ.
Для аналізу складних ситуацій використовуються фрейми. Вони що забезпечують найбільш зручний механізм для представлення жорстко структурованих знань про предметну область чи задачу.
Використання всіх цих методів у поєднанні з адаптованими методами статистки суттєво спрощує та прискорює створення систем інтелектуальної обробки текстів та їх використання.
Виклад зосереджено на задачах автоматичного та автоматизованого реферування, автоматичного та автоматизованого перекладу, діалогових

5 систем. Для кожної задачі наводяться також спеціалізовані методи, що мають основне використання лише у вказаній задачі.
Відповідно, Главу 1 присвячено реферуванню та пов’язаним з ним задачам, а саме: індексації (визначенню тематики), вилученню дублів, тощо.
Главу 2 присвячено перекладу, з розглядом двох напрямків – автоматичного та автоматизованого перекладу, та відповідних механізмів що оптимізовані під конкретний напрямок. Глава 3 присвячена діалоговим системам та питально-відповідальна системам.

6 1. АВТОМАТИЧНЕ РЕФЕРУВАННЯ
Необхідність дослідження та розробки систем автоматичного реферування зумовлено збільшенням кількості та обсягу електронних документів, які потребують обробки, оскільки більшість таких документів має вигляді неструктурованих текстів, складених природною мовою, а більшість програмного забезпечення орієнтовано на роботу зі структурованими даними. Крім того, весь час зростає кількість новинних
інтернет-сайтів, і для однієї і тієї ж події різні сайти надають різні
інтерпретації. Разом з поширенням мобільного Інтернету та пристроїв класу смартфон, це створює попит на системи, які, зібравши дані з різних джерел, можуть дати користувачу короткий, проте достатній за охопленням звіт- реферат про поточні новини. Ще один спосіб використання автоматичного реферування пов’язаний з системами підтримки прийняття рішень.
Експертам для виконання швидкого огляду необхідно аналізувати велику кількість документів, і вдалі системи реферування скорочують час, необхідний для читання. Замінити систему реферування пошуковою системою не вдається, тому що пошукова система буде шукати те, про що експерт вже знає або здогадується.
Системи автоматичного реферування здебільшого належать до двох видів. Це або системи, вбудовані в якийсь великий продукт, від новинних агрегаторів до Microsoft Office Word, з різним рівнем залучення користувача до процесу, або он-лайн системи. Останні в основному безкоштовні та пропонують генерацію з простими алгоритмами і не дуже високої якості.
1.1. ПОСТАНОВКА ЗАДАЧІ
Реферат – це текст заздалегідь визначеного об’єму, який менший за текст оригіналу і містить найбільш важливі для користувача думки оригіналу.
Реферування – це процес побудови реферату [5].
В основному реферати будуються за двома напрямками – екстракція та абстрагування.

7
Екстракція – здобуття з тексту оригіналу елементів, які описують його зміст.
Абстракція – побудова висновків на основі тексту, які максимально стисло передають зміст тексту. Цей підхід передбачає застосування додаткових джерел даних про навколишній світ. Дві ці категорії не виключають одна одну і допускають застосування гібридних підходів.
За типами реферати бувають: інформативні, критичні та оповідні.
Інформативний реферат замінює собою текст первинного документа і містить основну або нову фактичну інформацію у скороченій формі.
Критичний реферат повідомляє не тільки інформацію, а й пропонує певну думку про неї. Критичні реферати мають додаткову цінність у порівнянні з оригіналом, оскільки пропонують висновки, яких немає у самому реферованому тексті.
Оповідний реферат формується за принципом здобуття інформації і повинен надати достатній обсяг інформації, щоб створити у користувача уявлення про джерело, з тим щоб можна було вирішити - звертатися до оригіналу чи відкинути текст як нерелевантний.
За орієнтацією на споживача реферати бувають загальні або, орієнтовані на задоволення спеціальних потреб.
Загальний реферат орієнтуються на широке коло читачів; до нього не висуваються спеціальні вимоги, оскільки реферат не призначений для якоїсь однієї групи читачів.
Реферат, орієнтований на потреби, адресований конкретному користувачеві або групі користувачів з їхніми специфічними потребами.
За кількістю документів: звичайні та мультиреферати.
Мультиреферат – реферат з багатьох документів одразу.
У матеріалі посібника розглядається побудова рефератів. орієнтованих на потреби читачів, при потребі – з кількох джерел.
Які саме думки найбільш важливі для користувача? Це залежить від знань та інтересів користувача. Доступу до знань користувача система не має

8
і не може мати, оскільки для цього треба, щоб користувач витратив час і зусилля для навчання системи всьому тому, що він знає сам. У той же час
інтереси користувача можна визначити досить швидко. Найпростіший варіант – перелік ключових слів. Проте це не завжди ефективно, оскільки часто користувач ще не знає, що в документі його може зацікавити. Таким чином, першою задачею виступає задача визначення тематичного наповнення тексту.
Індексація – визначення тематик, що представлені в тексті, та елементів, що є індикаторами. Вона спирається на перелік ключових слів та понять, які цими словами позначаються. Після проведення індексації результати
індексації надаються користувачеві для того, щоб він міг вказати необхідні йому дані.
Враховуючи, що мультиреферування має на меті побудову рефератів з кількох документів, необхідно якимось чином встановити можливі зв’язки між текстами та їх частинами. Це в свою чергу знову вимагає розв’язання задачі індексації та задачі визначення близькості між текстами.
Близькість між текстами – близькість за тематикою, близькість за метою подачі матеріалу (висновками, до яких підштовхує текст), також можливе запозичення тексту, часткове або повне. Запозичення найбільш характерне для текстів новин, коли одна інформагенція передруковує новину, посилаючись на іншу.
Окремо постає задача забезпечення читацьких якостей реферату. Якщо текст реферату утворений вибором та редагуванням речень оригіналу, то необхідно забезпечити зв’язність тексту.
Зв’язність тексту – наявність елементів, які дозволяють коректно визначати зв’язки між змістовними елементами тексту.
Основна причина порушення зв’язності полягає в тому, що речення змістовно наступне за вибраним реченням є в тексті оригіналу, проте відсутнє у рефераті. Реферат готовий, коли вибрані речення зв’язано у цілісний текст. У випадку мультиреферування, крім зв’язності, необхідно

9 забезпечити мінімальний рівень повторів, оскільки часті та невиправдані повтори роблять текст реферату психологічно неприємним та стилістично невиправданим.
Рівень стиску – частка тексту, що лишилася від оригіналу. Звичайно, рівень стиску складає від 30% до 5% від вхідного тексту чи текстів.
Отже, в цілому задача реферування ставиться так: за множиною текстів
(можливо з одного з елементів) побудувати текст з мінімальним рівнем самоповторів, який відображає головні елементи вхідних текстів (основні події), та легко читається.
Тут не розглядаються задачі реферування із стиском одного тексту до одного абзацу, хоча вони є досить актуальними, особливо для агрегаторів новин.
1.2. ДОПОМІЖНІ ЗАСОБИ
Допоміжні засоби перераховуються, проте не деталізуються, оскільки можуть бути реалізовані багатьма способами, і від їх заміни на рівноцінні робота системи в цілому не змінюється.
Допоміжні засоби, що використовуються у роботі системи реферування:
- підсистема морфологічного аналізу (наприклад [6], або словники, вбудовані в систему вищого рівня аналізу [7]), результатом її роботи є граматичні ознаки та нормальні форми (леми);
- підсистема часткового синтаксичного аналізу (припускається, що вона реалізує принаймні зв’язки між іменниками та прикметниками, можна використати і більш потужну [7]);
- підсистема заміни займенників (описано в [9,12]);
- підсистема семантичного аналізу (опціонально [2,13]);
Таким чином, вважається, що задачу розбиття тексту на слова та визначення морфологічних характеристик слів вже розв’язано. На основі отриманих морфологічних даних проводиться частковий синтаксичний

10 аналіз. Зв’язуються прикметники (дієприкметники) з відповідними
іменниками, що є мінімально необхідним для роботи системи. Для заміни займенників на повнозначні слова, на які вони посилаються - антецеденти, використовуються перш за все морфологічні ознаки. І лише у випадку, коли
їх недостатньо, використовується простий семантичний аналіз, а саме: серед альтернатив вибирається слово, яке має зміст, найближчий за семантичною мірою близькості до слів контексту займенника. Для визначення семантичної близькості рекомендується використовувати семантичну базу WordNet (якщо
є домовленість, то і її версія локалізовану до російської та української мов) та алгоритм пошуку найкоротших відстаней.
1.3. ІНДЕКСАЦІЯ
Є два способи побудови тематичного представлення - з фіксованими темами та з динамічними темами. Індексація з фіксованими темами спирається на фіксовані тематичні словники.
Найпростіше скласти теми з чітко вираженою термінологією: біологія, хімія, комп'ютерна тематика, фінанси, геологія та географія, право, лінгвістика, математика, атомна енергетика, фізика тощо. У таких темах до цих ключових слів входять як деталізовані, так і більш загальні поняття.
Створення тематичних словників для загального політичного дискурсу ускладнене, так само як і для історичного. Рекомендується вживати спеціалізовані словники реалій відповідного місця(регіону) та часу.
Динамічна індексація використовує динамічно створювані комплекти повнозначних слів, що належать приблизно до однієї тематики.
Для задачі мультиреферування, яке в першу чергу орієнтується на тексти новин, використання фіксованих списків ключових слів не є раціональним. Окремо використовується список слів, які при тематичному аналізі тексту будуть ігноруватися.

11 1.3.1 ЗМІСТОВНА БЛИЗЬКІСТЬ
Змістовна близькість є одним з найбільш важливих елементів зв’язності тексту. Розглянемо такий фрагмент тексту:
«Розвиток обчислювальної техніки відбувався одночасно з розвитком технологій. На зміну електронним лампам прийшли напівпровідники. На їх основі було створено інтегральні схеми. Щодалі, то більше і більше
логічних елементів стали розміщувати на одному кристалі.»
У даному тексті виділено два типи змістовної близькості:
- пов’язаної за значеннями термінів;
- пов’язаної за структурою тексту.
Виділені в тексті жирним шрифтом словосполучення позначають поняття, пов’язані значеннями відповідних слів або термінів. Зв’язок першого типу будується на основі знань про те, що два елементи (поняття) пов’язані між собою в базі знань.
Виділені підкресленням слова позначають поняття, пов’язані з іншими поняттями за рахунок того, що зустрічаються поблизу. Цей тип зв’язку задається автором тексту і є відображенням того, що саме хотів повідомити автор цим текстом.
Зв’язки можуть бути реалізовані як термінами безпосередньо, так і мовними вказівниками (у лінгвістиці це називається анафора). Задача встановлення елементів, на які вказують мовні вказівники, називається
розв’язанням анафори[12].
1.3.2 ЛЕКСИЧНІ ЛАНЦЮЖКИ
Лексичні ланцюжки представляють змістовні єдності серед довільного числа зв'язаних слів.
По-перше, це лексичний ланцюжок тотожних об’єктів. До нього заносяться ті елементи тексту, що вказують на один і той самий об’єкт або одне і те саме поняття. Задачу знаходження всіх згадувань одного і того самого об’єкту називають задачею розв’язання кореференції[12].

12
По-друге, це лексичний ланцюжок семантично зв'язаних об’єктів.
Такий ланцюжок не обмежує типи елементів та види зв’язків між ними, поки вони пов’язані між собою з точки зору автора. Надалі вживається саме таке значення терміну, оскільки це дозволяє визначати не лише тотожність/відмінність між об’єктами, а і визначати тематичну належність.
Для побудови таких лексичних ланцюжків в якості джерела знань вживається
WordNet.
1. 3.3 СПОСІБ ОБ’ЄДНАННЯ ЛЕКСИЧНИХ ЛАНЦЮЖКІВ
Лексичні ланцюжки обчислюються шляхом групування послідовних наборів семантично зв’язаних слів. Тотожні слова, синоніми, гіперніми і гіпоніми, мероніми, голоніми – ознаки, що дозволяють групувати слова в один ланцюжок.
Гіпернім – поняття, що є узагальнюючим для даного у онтології (WordNet[8]).
Гіпонім – поняття, що є уточненням даного у онтології (WordNet).
Меронім – поняття, що позначає «ціле» у відношенні «ціле-частина».
Голонім – поняття, що позначає «частина» у відношенні «ціле-частина».
Необхідно зауважити, що у WordNet представлені не слова, а сенси(концепти) – поняття, і кожен сенс має свій комплект слів, які його позначають. Такий комплект слів називається „синсет”
Умови групування
1. Два входження повнозначного слова ідентичні, і використовуються в тому ж самому сенсі. (Великий корабель на рейді. Цей корабель – вітрильник.)
2. Два входження повнозначних слів використовуються в одному і тому ж самому сенсі, але текстуально різні тобто, є синонімами. (Той аероплан
летить швидко. Проте, мій літак швидше.)
3.Змісти двох входжень повнозначних слів мають гіпернім/гіпонім відношення між ними. (Я маю автомобіль. Це –вантажівка.)

13 4.Змісти двох входжень повнозначних слів – елементи одного рівня в гіпернім/гіпонім дереві і мають спільного предка. (Той аеробус летить
швидко. Проте, мій винищувач швидше.)
5. Два входження повнозначних слів означають відповідно частину та ціле –
є зв’язок меронімії. (Дмитро відчинив двері. Замок голосно клацнув.)
В обчисленні лексичних ланцюжків, входження повнозначних слів повинні бути згруповані згідно з вищезгаданими правилами, але кожне входження повнозначного слова повинно належати точно одному лексичному ланцюжку.
Розглянемо загальний метод побудови колекції лексичних ланцюжків для заданого тексту, що був запропонований Реґіною Барзілай.
1.
Вибрати слово або словосполучення, який взято з тексту (надалі об’єкт)
і який має представлення у WordNet.
2.
Для кожного об’єкту знайти відповідний ланцюжок і вставити об’єкт туди.
3.
Якщо ланцюжок не існує, то створити новий на основі заданого об’єкту.
Як видно з опису методу, немає однозначного способу для відповіді на певні питання.
1. Як визначити відповідний ланцюжок? Наприклад, входження іменника може відповідати декільком різним сенсам слова, і система повинна визначити, яке саме входження має місце. Наприклад, «коса» як інструмент і
«коса» як зачіска.
2. Як забезпечити однозначність? Навіть якщо сенс слова може бути визначений, може трапитись, що слово можна занести до декількох різних лексичних ланцюжків, тому що це слово може бути зв’язане зі словами в різних ланцюжках.
Для коректності вводяться параметри об’єднання об’єкту з ланцюжком.
До цих параметрів входять відстані та напрямки для зазначених у

14 попередньому розділі умов групування за зв’язками. Необхідно враховувати, що комбінуючи умови групування, можна будувати як завгодно складні зв’язки.
1. Для умови групування 3. накладається обмеження на довжину такого зв’язку при обчисленні його від більш деталізованого поняття до більш загального, але не навпаки.
2. Для умови групування 4. накладається обмеження на відстань від узагальнюючого поняття. В нашому випадку – 2.
3. Для умови групування 5. накладається обмеження на довжину такого зв’язку, якщо в шляху є різнотипні переходи. У нашому випадку – 2.
Необхідно зауважити, що два слова будуть зв’язані разом з більшою вірогідністю, якщо в тексті, який аналізується, вони стоять поблизу. З цього випливає ще один параметр об’єднання: об’єкти зв’язані, якщо вони знаходяться у сусідніх реченнях.
Для різних умов групування варто задати різні допустимі відстані для визначення сусідства.
1. Для умов 1-3 відстань може сягати 7 речень.
2. Для умов 4-5 відстань не повинна перевищувати 4 речення.
1.3.4 АЛГОРИТМ ПОБУДОВИ ЛЕКСИЧНИХ ЛАНЦЮЖКІВ
Для ефективного обчислення лексичних ланцюжків створюється структура, яка неявно зберігає кожну інтерпретацію кожного слова. А потім з цього неявного представлення обчислюється оптимальна конфігурація.
Обробка документа починається зі створення великого масиву мета- ланцюжків, розмір якого дорівнює числу сенсів слів тексту, знайдених у
WordNet, плюс число слів у документі, оскільки можливо, що слова не будуть знайдені у WordNet. Довжина кожного такого мета-ланцюжка дорівнює кількості повнозначних слів у тексті.

15
Коли алгоритм знаходить повнозначне слово, збільшується лічильник у відповідному мета-ланцюжку, який містить сенс цього слова, та у кожному ланцюжку, куди це слово входить за однією з вище визначених ознак.
Коли переший прохід закінчено, текст проглядається ще раз, і для кожного повнозначного слова визначається ланцюжок, до якого воно вносить якнайбільшу вагу. З решти ланцюжків слово вилучається.
Позначення: w
i
– повнозначне слово з тексту, с(w
i
)
j
– сенс слова w
i визначений за WordNet, {с(w
i
)
j
}
k
– мета-ланцюжок.

Алгоритм побудови лексичних ланцюжків
.
Для кожного w
i
є T
Для кожного с(w
i
)
j
Для кожного {с(w
i
)
j
}
k обновити значення
Для кожного w
i
є T
Для кожного {с(w
l
)
m
}
k,
що має с(w
i
)
j
Визначити k мета-ланцюжа, до якого с(w
i
)
j
належить найбільше
Обновити таблицю, видаливши зайві елементи.
Оцінка складності роботи алгоритму:
О
(N*s
max
*M
2
), де N – довжина тексту в словах, s
max
– найбільша кількість сенсів слова, M – довжина мета- ланцюжка. Таким чином, отримані ланцюжки представляють собою динамічно сформований комплект тем документу.
За відсутності даних про конкретне слово чи поняття у локалізації
WordNet можна застосувати евристичне об’єднання елементів тексту у тематичні ланцюжки. Таке об’єднання спирається на припущення, що автор тексту писав його як осмислений текст, і користувався однією термінологією у межах викладення однієї думки або ідеї.
Алгоритм TextTilling розділяє текст на сукупність фрагментів, які мають внутрішні зв’язки. Тоді два об’єкти будуть зв’язані з більшою достовірністю, якщо вони знаходяться в одному фрагменті.
Відстань між вікнами - cos Θ = (A,B)/ ( |A||B| ),

16 де A,B – частотні вектори відповідних вікон.
Межа розриву – параметр Th


Поділіться з Вашими друзьями:
  1   2   3   4   5   6


База даних захищена авторським правом ©divovo.in.ua 2017
звернутися до адміністрації

войти | регистрация
    Головна сторінка


загрузить материал