Лингвистика — это наука, которая изучает устную и письменную формы человеческого языка, его структуру, элементы, его связь с другими науками. Современная лингвистика имеет два подхода к изучению: синхронический и диахронический.
Изначально преобладал диахронический подход, описывающий историю развития языка, этимологию ее форм и слов.
Изменения в лингвистической теории начались с появлением работ швейцарского лингвиста Фердинанда де Соссюра . Он первым обратил внимание лингвистов на необходимость изучения языковой системы в целом (1916). Было важно провести систематизацию элементов языка, выстроить иерархию и установить систему связей между элементами. Упор делался на современное состояние языка. Именно так появился синхронический подход.
Лингвистика и кибернетики: первое знакомство
Столь значительное изменение привлекло к лингвистике внимание математиков и инженеров. Этому способствовали экономические и политические события до и после Второй мировой войны . Первые попытки междисциплинарных исследований были проведены американскими инженером и математиком Клодом Шенноном (1948) и Уорреном Уивером. Заинтересованные идеей научить компьютер говорить и общаться, ученые пытались применить математические аспекты к трансформации естественного языка в формальный — тот, который будет понимать компьютер. В их работах заложена база для стохастических методов, которые играют ведущую роль в современной лингвистике.
Следующей ступенью в знакомстве и коллаборациях наук стали идеи американского лингвиста Ноама Хомского — он разработал первое представление систематической формализации описания предложений естественного языка (1957). Интересно, что сам Хомский всегда подчеркивал, что его мотивация к введению формальной грамматики никогда не была связана с компьютеризацией. По разным причинам, в первую очередь из-за нехватки вычислительной мощности, необходимой для вероятностных и других вычислительно интенсивных подходов, его работа оставалась доминирующей в области компьютерной лингвистики более тридцати лет.
Другие теории формального языка и системы формальных грамматик появились в 1960-х, 1970-х и начале 1980-х годов (Gazdar, Kaplan and Bresnan), и были связаны с контекстно-свободным грамматическим формализмом, предложенным Хомским . Хотя новый подход существенно отличался, эти теории мало способствовали достижению реальных целей компьютерной лингвистики, например, создание широко распространенных синтаксических анализаторов предложений на естественном языке. Сегодня работы Ноама Хомского и его последователей находят более широкое применение в области формальных языков, таких как синтаксис программирования или языки разметки.
Параллельно с разработкой формального языка в 1980-х гг. возрождаются стохастические методы, заложенные в работах Шеннона и Уивера. Благодаря значительно возросшей мощности компьютеров использование этих методов привело к значительным успехам в автоматической обработке текста, распознавании речи, машинном переводе. Сегодня формальные средства описания естественного языка объединяются с классическими информационно-теоретическими методами, порождая гибридные технологии.
Продуктивная дружба — компьютерная лингвистика
Компьютерная лингвистика — относительно новая междисциплинарная наука, которая занимается компьютерной обработкой человеческого языка или NLP (Natural Language Processing — не путать с нейролингвистическим программированием).
Ее теоретическая основа представляет ядерную смесь из лингвистики, математики (теория вероятности, статистики, теории информации, алгебры, теории формальных языков и т. д.), логики, психологии, когнитивных и компьютерных наук. Результатом служат прикладные исследования в разработке искусственного интеллекта и новые формы представления знаний — текстовые корпуса, семантические векторные модели, предобученные нейросети для синтеза текста, новые поколения тезаурусов и идеографических словарей.
Изучая формальные теории описания языка, компьютерную морфологию и семантику, компьютерный синтаксис, а также применяя различные алгоритмы, исследователи компьютерной лингвистики пытаются найти решения практических задач в области обработки естественного языка (NLP): генерация текстов и языковое моделирование, создание параллельных корпусов и систем машинного перевода, разработка диалоговых систем и чат-ботов, распознавание и синтез речи.
Примечательно, что в отличие от многих других областей гуманитарных наук, исследования в области компьютерной лингвистики получают оценки. Что это значит? Кроме исходных данных, с которыми будет происходить основная работа, также используются заранее подготовленные проверочные данные. С ними сравниваются «преобразованные» исходные данные. На результатах их сравнения и формируется оценка. Зачастую она определяется количеством ошибок, которые делает система; когда это невозможно, используется другая мера (например, вероятность тестовых данных). Дополнением к частоте ошибок является точность.
Объективная автоматическая система оценивания вошла в вычислительную компьютерную лингвистику с возрождением статистических методов и считается одним из важнейших изменений в этой области с момента ее создания — считается, что именно такая оценка стала движущей силой в быстрых темпах достижений в недавнем прошлом.
Будущее
Несмотря на то, что компьютерная лингвистика считается относительно молодой наукой, современному человеку уже сложно представить свою жизнь без существования голосовых помощников, эффективных веб-поисковиков или автоматических переводчиков. В то же время многие проблемы обработки естественного языка, включая и машинный перевод, до сих пор не имеют хорошего универсального решения. Поэтому необходимо продолжать исследования в этой области и разрабатывать новые технологии.
Евгения Заковоротная
Комментариев нет:
Отправить комментарий