Українські реферати, курсові, дипломні роботи
UkraineReferat.org
українські реферати
курсові і дипломні роботи

Морфологічні процесори

Реферати / Комп'ютери і технології / Морфологічні процесори

2. В мовах можуть зустрітися такі омонімічні суфікси, що вибір потрібного суфікса зумовлюється лише його позицією відносно інших суфіксів у залишку.

Наприклад, вибір одного з декількох омонімічних суфіксів α залежить від того, чи був даний суфікс першим у ланцюжку суфіксів, або йому передував один із суфіксів β, γ, δ, ε, ζ і т.д.

Щоб враховувати такі складні взаємозалежності суфіксів за можливістю стандартним способом, можна розподіляти подібні омонімічні суфікси по кільком таблицям таким чином, щоб у кожній таблиці було наведено лише один з омонімічних суфіксів. Окрім того, під час розподілу суфіксів по таблицях враховується їх взаємна сполучність. Нехай, наприклад, в наведеній вище ілюстрації суфікс α має значення х, коли він починає залишок або коли йому передує суфікс ε; омонімічний йому суфікс α має значення у, коли він знаходиться після суфікса β, γ або δ; нарешті, ще один омонімічний суфікс α має значення z, коли йому передує суфікс ζ. Тоді суфікси α, β, γ, δ, ε та ζ можна розташувати по таблицях таким чином:

у таблиці 1 ­– ε;

у таблиці 2 – α, β, γ, δ (у значенні х);

у таблиці 3 – ζ;

у таблиці 4 – α (в значенні у);

у таблиці 5 – α (в значенні z).

Послідовність пошуку залишків по таблицях така: таблиця 1 – таблиця 2 – таблиця 4 - таблиця 3 – таблиця 5. Те, в якій таблиці буде знайдено залишок, однозначно визначає значення суфікса (тобто, вибір потрібного з кількох омонімічних).

Такий підхід може бути зручним, наприклад, в алгоритмі морфологічного аналізу грузинської мови (для дієслівних закінчень).

Коли в частині Б суфікси розташовані в кількох таблицях, кожній таблиці дається номер тієї наступної таблиці, де потрібно шукати робочий залишок, якщо його не буде знайдено в поточній. Цей номер позначається через ψ і використовується в розділі ІІІ частини А.

Частина В – “Список інформацій до суфіксів”

Частина В – це перелік основних інформацій до суфіксів, що зібрані до однієї таблиці.

Основна інформація до суфікса складається з низки інструкцій двох видів: 1) до яких рядків інформації до робочої словоформи надходять нові дані від суфікса, що знайдено; 2) які ці нові дані, тобто які нові значення повинні бути записані до вказаних рядків робочої інформації.

Частина Г – “Нестандартний запис”

Ця частина являє собою набір правил, що забезпечують розбір випадків, коли на результатах аналізу словоформи відбиваються індивідуальні особливості якихось морфем. Всі такі випадки об`єднуються (доки це можливо) у типові, і для кожного типового випадку в частині Г є окремий розділ. Таким чином, кількість розділів частини Г теоретично необмежена і залежить від кількості типових особливостей морфем у даній мові. Для російської мови, наприклад, частина Г має дванадцять розділів.

Кожний розділ – це невеличка інструкція, що складається з кількох операторів і вказує, що саме потрібно робити, щоб, будуючи загальну інформацію до словоформи, правильно врахувати індивідуальні особливості морфем, що її складають.

Частина Д – “Омонімія словоформ”

Частина Д необхідна для аналізу таких випадків, коли від двох різних основ можуть утворюватися однакові форми (при цьому інші форми цих основ не співпадають). Інакше кажучи, тут розглядається те, що традиційно називають “граматичною омонімією”. Очевидно, що якщо дві форми співпадають, то їх основи також або співпадають повністю, або одну з них спряжено іншою. Тому, якщо в інформації до основи є вказівка на те, що від цієї основи утворюються деякі форми, що співпадають з формами якоїсь іншої основи, то в цій інформації обов`язково повинна бути або адреса інформації до омонімічної основи, або адреса інформації до спряженої основи.

Частина Д складається з двох розділів: алгоритму обробки омонімічних словоформ (Д-І) та таблиці омонімічних словоформ (Д-2).

Висновки

Завдяки сучасним методам морфологічного аналізу створюються все більш досконалі морфологічні процесори. Але треба пам’ятати про один важливий аспект:

Спроби побудови алгоритмів автоматичного аналізу природної мови завжди зводяться до спроб формалізувати розумову діяльність людини. І незважаючи на те, що спроби ці підчас дуже вдалі, завжди знаходиться щось, що не піддається формалізації.

Це й відрізняє людину від машини.

Література

1. И.А. Мельчук «Морфологический анализ при машинном переводе», стаття із збірки “Проблемы кибернетики”, М., 1961.

2. Л.Н. Иорданская «Морфологические типы основ русского языка (для различения омонимии морфем в процессе анализа при машинном переводе)», стаття із збірки “Проблемы кибернетики”, М., 1961.

3. «Использование ЭВМ в лингвистических исследованиях», отв. ред. В.И. Перебейнос, Киев, «Наукова Думка», 1990.

Завантажити реферат Завантажити реферат
Перейти на сторінку номер: 1  2  3  4 

Подібні реферати:


Останні надходження


© 2008-2024 україномовні реферати та навчальні матеріали