Статистический машинный перевод: дайте точку опоры!
Впервые опубликовано на сайте MEMBRANA
Летом 1999 года на стене одной лаборатории в одном американском университете висело изображение старинного пергамента с японскими иероглифами. Под японской надписью значилась интригующая фраза на менее экзотичном английском языке…
Фраза эта гласила: «Для большинства людей это выглядит как секретный код. Секретные коды обычно взламывают». Сей рекламный плакат, висевший на стене в лаборатории статистического машинного перевода в Университете Джона Хопкинса ( Johns Hopkins University ), предвещал скорое появления новой системы по «кличке» Decoder .
Тогда, в 1999 году, этим не занимался практически никто. Сейчас профессор Кевин Найт ( Kevin Knight ), тогда возглавлявший исследования в Университете Джона Хопкинса, говорит, что надпись под пергаментом оказалась пророческой.
Статистический метод автоматизированного перевода обогнал некогда превалировавшую, традиционную технологию, которая лишь отчасти можно назвать автоматической. В основе её лежат многоязычные словари, которые программисты и переводчики собирают вручную, и на основе которых впоследствии «учат» программу, какое слово что означает - с учётом синтаксиса.
Подобные «словарные» технологии используются в системах вроде BabelFish и Translate.ru .
Поскольку их банки данных - собственно, словари, - были и являются поныне очень массивными, раньше они были более эффективными, нежели «статистические» переводчики.
А новая технология статистического машинного перевода позволяет создавать системы, которые будут «щёлкать» тексты на самых разных языках.
Главное - это наличие «параллельных данных».
Основа для этой технологии была заложена ещё в конце 1980-х начале 1990-х годов - сотрудниками корпорации IBM . Именно тогда в умные головы специалистов корпорации пришла очень простая мысль: если компьютеру «скормить» текст на английском языке, и его выполненный вручную перевод на другой язык, то машина, используя статистический метод, «выучит» второй язык.
New York Times приводит следующий пример. Сравниваются две простые фразы на арабском (написано латиницей) - « rajl kabir » и « rajl tawil ». Если машина «знает», что первая фраза означает «крупный человек», а вторая - «высокий человек», то банальная статистика позволит машине понять, что « rajl » означает «человек».
Подобные простые фразы носят название «N-граммы», и они считаются базовыми элементами систем машинного перевода.
Хотя принцип кажется простым до примитивизма, у него есть ряд своих «но». Во-первых, для полноценного «знания» второго языка требуется огромный массив данных - одним текстом не обойдёшься.
Во-вторых, для эффективной работы таких систем требовались компьютерные мощности, в начале 1990-х ещё недоступные. То же касается и программного обеспечения.
А сейчас различные группы исследователей занимаются усовершенствованиями здания, возведённого на фундаменте методики IBM .
Например, во всё том же Джоне Хопкинсе доктор Дэвид Яровски ( David Yarowski ) и его команда занимаются разработкой системы, которая управлялась бы с текстами на таких языках, как узбекский , бенгальский , непальский и даже клингоский - язык, на котором говорит раса клингонов, существ из сериала Star Trek .
Для «разработки» этого языка даже создан целый институт , умудрившийся перевести на этот язык Библию и «Гамлета» .
Технология всё та же: если автоматическому переводчику предоставить «на съедение» тексты на двух языках, дальше он уже сможет переводить тексты самостоятельно в обе стороны.
Доктор Яровкски полагает, что в итоге ему и его коллегам удастся создать систему, которая будет управляться сразу с сотней языков. И хотя грамматические структуры китайского и арабского, например, языков с трудом поддаются статистическому анализу, по мнению Яровски, проблема эта решаема, нужно лишь время.
Аналогичным образом работает технология, разработанная сотрудниками Южно-калифорнийского университета ( University of Southern California ), в частности, Францем Йозефом Охом ( Franz Josef Och ).
Перефразируя Архимеда , Ох говорит: «Дайте мне достаточное количество параллельных данных, и через несколько часов у вас будет двусторонняя система перевода».
Система Оха полностью игнорирует грамматические правила, и словари ей тоже не нужны - а нужно, как уже сказано, большое количество данных, к которым прилагаются статистические модели.
Надо сказать, что в своё время таким образом была расшифрована надпись на Розеттском камне - базальтовой плите, найденной французской армией в Египте в 1799 году. На этой плите содержалась запись на трёх языках, одним из которых был греческий. Благодаря тому, что в греческой надписи упоминались имена «Птолемей» и «Клеопатра», удалось расшифровать иероглифическую египетскую надпись, и в итоге - практически весь язык.
Дело Франсуа Шампольона ( François Champollion ), которому и принадлежит пальма первенства в расшифровке надписи Розеттского камня, живёт, процветает и автоматизируется.
Впервые опубликовано на сайте MEMBRANA