Контекстные правила разрешения морфологической многозначности в татарском языке

Разрешение многозначности (word sense disambiguation, WSD) в тексте является одной из наиболее сложных и важных задач компьютерной лингвистики. Данная проблема с особой остротой обнаруживается при попытке создания автоматических систем обработки текстов, т.е. полностью автоматизировать такие процессы как поиск информации, перевод текста с одного языка на другой, разметка текстов в электронном корпусе языка, извлечение знаний, контент-анализ и др.

Одной из подзадач WSD является разрешение грамматической омонимии (морфологической многозначности). В настоящее время в задачах автоматического разрешения омонимии используются контекстный и статистический методы. Метод контекстного разрешения грамматической омонимии сводится к разработке для каждого функционального типа омонимии группы правил, задающих синтаксический контекст разрешения омонима, и построение управляющей структуры группы, определяющей порядок применения правил. В работе «Разрешение функциональной омонимии в русском языке на основе контекстных правил» [Невзорова и др., 2005] подробно описаны основные достоинства и недостатки данного метода, приведены конкретные структуры обобщенных правил для разрешения функциональной омонимии некоторых типов для русского языка. Подход, основанный на правилах, является чрезвычайно трудоемким, требует проведения тщательной лингвистической экспертизы каждого типа омонимии. Тем не менее, контестный метод в настоящее время для татарского языка является наиболее предпочтительным. Во-первых, в настоящее время не имеется достаточно объемного электронного корпуса татарского языка, позволяющего полноценно задействовать статистические методы, во-вторых, обнадеживает тот факт, что регулярность грамматики и строгая подчиненность правилам практически на всех языковых уровнях [Сулейманов Д.Ш., 1994], позволяют рассчитывать на обнаружение и описание четких контекстных ограничений.

Обобщенный контекстный метод

Обобщенный метод контекстного разрешения функциональной омонимии для татарского языка включает несколько этапов:

  • 1) построение полной классификации типов функциональных омонимов;
  • 2) выделение множества минимальных разрешающих контекстов для каждого типа. Минимальный разрешающий контекст (МРК) - совокупность минимальных контекстов, достаточных для разрешения функционального омонима как определенного варианта структуры омоформы. Минимальный контекст (МК) - простейшее контекстное условие, имеющее минимальную сложность распознавания. Чаще всего формулируется как “встречается ли в заданном интервале от анализируемого слова заданная языковая единица”. Под языковой едницей подразумевается словоформа, морфема или совокупность морфем (т.е. аффиксальная цепочка), основа слова, а также граница предложения.
  • 3) построение управляющей структуры (УС) правила, обеспечивающего максимальную точность и оптимальность распознавания.

Рис.1. Совокупность минимальных разрешающих контекстов (МРК) для разрешения функциональной омонимии (X) типа T1|T2|T3, где S – контекст (предложение), в котором омонимия находится. MK11∘MK12∘...∘MK1n – минимальный разрешающий контекст (МРК) для распознования функциональной омонимии как тип T1, MK21∘MK22∘...∘MK2n – минимальный разрешающий контекст (МРК) для распознования функциональной омонимии как тип T2. Иначе, функциональная омонимия распознается как тип T3.

Рис. 2. Управляющая структура (УС), которая для функциональной омонимии (Х) определяет её тип (T1|T2| и т.д.) множество минимальных разрешающих контекстов (МРК), на основе которой будет проходить процесс разрешения. В данном примере, правила типа T11|T21|... являются исключением (с другой стороны, это подтип) к правилам типа T1|T2|... . Для того, чтоб это отрабатовало должно быть выполнено включение T11 ⊆ T1, T21 ⊆ T2 и т.д.

Веб-интерфейс

Рис. 3. Интерфейс Управляющей структуры (УС), в которой находятся два контекстных правила, при чем одна из них (V+PCP_PS(ГАн)|V+PST_INDF(ГАн)) является подтипом другой (V|V). У типа (V|V) не определен ни один МРК (0 в колонке “Количество правил”), т.е. он в данном случае выполняет лишь собирательную функцию. У типа (V+PCP_PS(ГАн)|V+PST_INDF(ГАн)) определены 2 МРК. С помощью данной страницы, кроме редактирования (кнопка “Редактировать”) и удаления (кнопка “Удалить”) контестных правил, к ним можно добавить исключения (кнопка “+Добавить исключение”), провести тестирование (кнопка “Тест”) на корпусных данных. А также отправить Администратору сайта запрос на добавление (кнопка “Pull Request”) соответствующего контекстного правила в основную базу правил. Нажав на кнопку “Правила >>”, можно попасть во вкладку редактирования МРК.

Рис.4. Интерфейс Управляющей структуры (УС) на уровне совокупности минимальных разрешающих контекстов (МРК). В данном примере, для типа (V+PCP_PS(ГАн)|V+PST_INDF(ГАн)) определены два МРК: первый функциональную омонимию разрешает как (V+PCP_PS(ГАн) - 13), второй как (V+PST_INDF(ГАн) - 14). Кроме этого у первого МРК определено два минимального контекста (МК): “встречается любой контекст”(подходит под любой контекст; при определении МРК всегда является первым МК; реализовано из технических соображений) и “И встречается морфема "N" в интервале расстоянии [+1, +1] от рассматриваемого слова”. У второго только один “встречается любой контекст”, что говорит о том, что если омонимия не будет разрешена как (V+PCP_PS(ГАн)), то при любом другом контексте будет разрешена как (V+PST_INDF(ГАн)). Порядок применения МРК закреплен. Система построена так, что при нахождении требуемого контекста, алгоритм не проверяет оставшиеся МРК. Соответсвенно, для оптимизации процесса разрешения необходимо частотные МРК поднимать наверх (т.е. в начало списка).

Рис. 5. Окнодобавления минимального контекста (МК). Основные элементы: “Тип контекста” [Словоформа, грамматическая форма, морфема, основа слова и граница предложения], “Форма” (конкретная искомая форма), “Минимальное расстояние”, “Максимальное расстояние” и “Операнд” [булева операция: AND, OR, AND NOT, OR NOT] - используется для вычисления общего результата с предыдущим МК.

Рис.6. Тестировать разработанные правила можно на странице морфологического анализа. Для этого в выпадающем списке справа от кнопки “Анализ” необходимо выбрать “С разрешение морфологической многозначности пользовательскими правилами”, затем ввести тестирующую фразу и нажать на кнопку “Анализ”. После этого, ниже во вкладке “Результат” появится результат морфологического анализа с частично снятой омонимией. В данном примере, функциональная омонимия “укыган” с типом (V+PCP_PS(ГАн)|V+PST_INDF(ГАн)) было разрешено как (V+PCP_PS(ГАн)), в полном соответсвии с ранее разработанным контекстным правилом.