html текст
All interests
  • All interests
  • Design
  • Food
  • Gadgets
  • Humor
  • News
  • Photo
  • Travel
  • Video
Click to see the next recommended page
Like it
Don't like
Add to Favorites

Большие данные в лингвистике

Лингвист Анастасия Бонч-Осмоловская о корпусной лингвистике, поиске изменений в языке и проблемах оцифрованных данных

ПостНаука продолжает рассказывать о современных технологиях в проекте «Банк знаний», созданном совместно с Корпоративным университетом Сбербанка.

Большие данные представляют особый интерес в социальных науках, потому что из них мы можем получить обобщенные сведения о том, как люди живут, что ими движет, на какие группы они делятся, какие существуют социальные практики. Достаточно много примеров исследований, в которых для понимания этих социальных практик используются разные цифровые «следы», которые люди оставляют за собой. Это и их активность в соцсетях, и их предпочтения, покупки, передвижения по городу и так далее. Поскольку центральной социальной практикой является язык, коммуникация с использованием естественного языка, то становится интересно, какие здесь могут быть возможности и, собственно говоря, где вообще взять эти большие данные, эти цифровые следы, цифровые образцы, чтобы мы могли что-то понять про то, как язык используется, как он развивается, как люди говорят и как они не говорят.

К большому объему данных в лингвистике обращаться стали достаточно давно. Уже в конце XX века начала развиваться корпусная лингвистика. Лингвисты стали собирать корпуса, то есть такие большие наборы текстов, объединенные с некоторой идеей, с каким-то там балансом, которые в дальнейшем специальным образом обрабатывались, снабжались морфологической разметкой. И таким образом подготавливались ресурсы, для того чтобы потом ученые, специалисты могли к ним обращаться и получать какие-то сведения, какую-то выборку данных и работать с ними.

С самого начала корпуса использовались в двух направлениях. С одной стороны, лингвисты-теоретики с помощью корпусов могли получить примеры употребления определенной конструкции, примеры использования определенного класса глаголов. И конечно же, кроме самих примеров первое, что дает корпус, — это частотность их употребления. Частотность — это вообще самая главная вещь, которая эксплуатируется в корпусной лингвистике и в работе с большими или, может быть, не самыми большими, но все равно значительными языковыми данными.

Собственно говоря, с этой самой частотностью связано и второе направление использования корпусов — для решения задач компьютерной лингвистики, для машинного обучения. Когда стоит задача построения какой-то языковой модели, используется корпус, снабженный определенной разметкой. Разметка выделяет какие-то интересующие классы элементов, и дальше происходит обучение программы, специально написанного скрипта, который учится эти элементы различать. Таким образом решается задача, связанная непосредственно с лингвистикой. Например, задача морфологического анализа. Мы обучаем программу отличать существительное от глагола. Каким образом? Мы даем на вход корпус, где у нас уже размечено: вот у нас существительное, это глагол, это прилагательное, это предлог. И дальше по разным уже свойствам появления того или иного тега высчитывается некоторая вероятность того, будет ли слово существительным, или глаголом, или какой-то другой частью речи. И алгоритм принимает это решение. Такие программы уже есть и для русского языка и работают вполне хорошо.

Но кроме того, решаются самые разные нелингвистические задачи, связанные, например, с тематическим моделированием, то есть с определением темы текста. Или, более конкретно, с делением текстов по определенным тематикам. На вход подаются тексты с уже размеченной тематикой, на выходе получаются эти классы. Или на вход подаются тексты с какой-то другой разметкой, там тематика может быть не определена, но какие-то свойства все равно есть. И на выходе алгоритм машинного обучения делит этот корпус на какие-то тексты, близкие по тематике.

Хочу заметить, что все-таки и такой традиционный анализ примеров, полученных из корпуса, и машинное обучение — это не тот анализ данных, который мы имеем в виду, когда мы говорим про большие данные, про процессы, которые можем выявить только некоторым статистическим образом. Это направление стало развиваться недавно, и здесь есть интересное противоречие. Когда мы анализируем большие языковые данные, то мы либо очень сужаем задачу и как бы сужаем эти данные, остаемся в пределах лингвистики, либо мы всегда рискуем выйти в какие-то экстралингвистические исследования. То есть мы уже говорим не про язык, а, условно говоря, о том, как меняется жизнь, которая некоторым хитрым образом, не очень понятным, отражается в тех текстах, которые мы анализируем.

Что, собственно говоря, является самым интересным, привлекающим исследователей и что они надеются узнать с помощью такого анализа данных? Это то, как язык меняется, возможность увидеть, каким-то образом поймать язык в динамике. Но это очень хитрая вещь, потому что лингвистика начиналась со сравнительного исторического языкознания, которое, привлекая данные разных языков на уровне какой-то лексики и немножко грамматики, показывало языковые изменения в глобальном масштабе. То есть мы видим следы этих изменений, но это какие-то другие языки, которые реконструируются, и мы не очень можем себе на самом деле представить, что это были за языки.

Но если сузить фокус и сказать, что сейчас мы читаем текст XIX века или даже текст 50-х годов XX века и понимаем, что что-то изменилось: так люди уже не говорят, а вот это вообще сложно понять. И школьникам, например, очень сложно понимать тексты классической литературы XIX века: это совершенно другой для них язык. Что изменилось? Как это описать? Как это поймать?

Оказывается, что без корпусов это описать достаточно сложно. Мы можем находить что-то одно и говорить: «Ну да, вот этот глагол сейчас употребляется по-другому». Но в целом описать, что происходило с языком, очень трудно. И насколько я понимаю, какой-то такой четкой методологии пока нет.

Существует такое важное направление — грамматика конструкций, изучающая лексико-грамматические конструкции в языке. Оно сейчас обращено в сторону диахронических исследований. И в частности, конечно, интересует то, как, например, образовывались какие-то грамматические конструкции. Условно говоря, как из английской конструкции “I am going” («Я иду») произошла фактически некоторая грамматическая конструкция, выражающая будущее время: “I am going to do something”. Такие вещи очень хорошо отслеживаются с помощью диахронических корпусов, с помощью исследований частотности сочетания этой конструкции с глаголами, как постепенно происходит затвердевание в какую-то грамматическую форму.

Другая большая история связана с корпусом, с ресурсом, который называется Google Ngram. Этот ресурс делали не лингвисты, а биоинформатики. В 2011 году в журнале Science была опубликована статья, которая была названа “Quantitative analysis of culture using millions of digitized books”. Как видно из названия, это совершенно не про лингвистику, а про культуру. Но факт в том, что эта статья была о том, как можно изучать культуру и язык с помощью анализа данных Google Books. Google Books — это как раз очень-очень-очень большие данные. И это как раз такие следы, которые оставляет культура и естественный язык как главное средство передачи культуры в нашей текущей цифровой реальности. Потому что Google Books — это примерно 6%, как они утверждают, всех когда-либо опубликованных человечеством книг на восьми языках.

Что сделала эта замечательная команда? У них есть несколько достижений. Главное достижение в том, что они придумали, как можно предоставить миру, исследователям эти данные, не нарушая ничьи авторские права. Это, конечно, был прорыв. Они сделали такую ресурсную базу, в которой исчислили все слова, а также сочетания слов от одного слова и до пяти слов подряд, которые встречаются в корпусе Google Books, то есть в этих Google-книжках за каждый год. Мы на каждый год можем посмотреть, сколько встретилось слов или сочетаний слов. И такие данные есть на основных европейских языках, китайском и русском.

Резонанс этой статьи был очень велик. Кроме того, что они эти данные выложили в открытый доступ, они еще сделали замечательный инструмент, для того чтобы любой человек мог воспользоваться этими данными. Он называется Google Ngram Viewer, куда мы можем задать запрос по какому-то слову и сразу же увидеть график, как менялась его частотность. И дальше уже делать какие-то выводы, почему частотность менялась. Сразу был представлен целый ряд возможных исследований, которые можно сделать на Google Books. В их числе и лингвистическое, которое было посвящено тому, как постепенно уходят неправильные английские глаголы и как глагольная парадигма постепенно выравнивается. Оказывается, что малочастотные глаголы утрачивают свои неправильные формы и образуют прошедшее время с формой на ed.

Кроме этого, конечно, были сделаны и общекультурные исследования. Самое знаменитое — исследование того, как была организована цензура в гитлеровской Германии и как упоминание еврейских деятелей культуры, например Шагала, не меняется в англоязычных книгах, но резко падает в немецкоязычных.

Надо сказать, что, несмотря на фурор, который произвело это исследование, опубликованное в Science и выложенное в открытый доступ, критика из академического мира не заставила себя ждать. Действительно, проблем достаточно много. Когда мы берем такие огромные данные, это сейчас вообще относится не только к Google Ngram, но вообще к очень большим данным в лингвистике. Бывают корпуса, которые собирают весь интернет, и очень трудно оценить баланс источников — нарушенный баланс источников, то есть, например, если в корпусе очень много блогов, очень много прессы или очень много повторяющихся текстов, это может очень сильно влиять на те частотные показатели, на которых мы дальше строим свои исследования. И это было первое такое возражение, что мы вообще не знаем, что мы исследуем.

Второе возражение, связанное непосредственно с русским языком, очень смешное. К сожалению, этот индексатор, который индексирует Google-книжки, ничего не знает про старую орфографию. Поэтому, например, мы не можем найти Федора Михайловича Достоевского, потому что даже если «Достоевский» мы можем с помощью i воспроизвести, то фита в слове «Федор» не воспроизводится и поэтому не находится. Мы ничего не можем сказать про популярность Федора Михайловича.

Возвращаясь к лингвистике: оказывается, что непонятно сейчас, как можно сделать такие какие-то осмысленные лингвистические диахронические исследования на таких огромных корпусах. Делаются, например, такие весьма симпатичные, интересные исследования с помощью методов дистрибутивной семантики (метод дистрибутивной семантики показывает контекстуальную близость слов в разные периоды).

С использованием ресурса Google Ngram есть несколько больших проблем, которые, как мне кажется, пока не очень решены. Первая проблема связана с тем, что если мы смотрим, как менялись некие выражения, то на самом деле мы прослеживаем историю выражений, историю слов, но мы ничего не знаем о том, какие слова употреблялись вместо них. Потому что люди могли просто употреблять совершенно другие конструкции, другие слова, чтобы выражать те же самые смыслы.

Вторая проблема, очень серьезная, состоит в том, что прямым анализом больших данных оказывается весьма сложно отделить лингвистические факторы от экстралингвистических, то есть изменение языка как системы от изменения частотности каких-то слов, просто потому, что изменились реалии. Условно, если мы возьмем слово «мышка», мы вдруг увидим какой-то страшный взрыв частотности этого слова с тех пор, как люди стали использовать компьютерную мышку. И те эксперименты, которые именно исследуют слова и их какое-то контекстуальное окружение, то, какие есть близкие по контексту слова, лексика и как она меняется, на самом деле упираются в то, что все их выводы отражают какие-то экстралингвистические процессы.

Есть очень хорошее исследование, проведенное группой ученых, среди которых очень известный компьютерный лингвист Дэн Журавски. Он вообще компьютерный лингвист, но у него много работ, несколько выходящих за пределы компьютерной лингвистики, когда он исследует даже какие-то филологические проблемы либо как раз лингвистические. В исследовании они сравнивают, как меняются существительные и глаголы. Гипотеза состоит в том, что экстралингвистические факторы влияют на употребление существительных, а вот употребление глаголов как раз чаще всего связано с какими-то внутренними лингвистическими смещениями. И они показывают, что просто нужно использовать разные методы подсчета изменения частотности для существительных и для глаголов. И именно эти методы, как они считают дальше, и различают лингвистическое и экстралингвистическое.

Но мне кажется, что в современных отношениях лингвистики как исследования языковой системы и больших-больших корпусных данных есть еще очень существенные методологические пробелы, назовем это так. Есть это множество текстов, но не очень понятно, как к ним подбираться, доставать то, что нас интересует. И главное, получать что-то новое, а не то, что мы заранее задаем. Мы можем проверять гипотезы. Есть как бы гипотеза, которую предложили люди, занимающиеся исследованиями грамматикализации. Мы можем проверить ее, мы видим, что shall вот именно таким образом постепенно начинает обозначать будущее время, а вначале это слово обозначало какую-то интенцию. Как предсказывалось, так оно и есть. А как использовать эти данные, чтобы формировать гипотезы, непонятно.

Самая большая проблема состоит в том, что мы не очень понимаем, как мы можем их анализировать, как мы можем оценить. Тот результат, который мы получили, как оценить, что он валидный, корректный? Над такими методологическими провалами сейчас идет большая работа.

Читать дальше
Twitter
Одноклассники
Мой Мир

материал с postnauka.ru

2

      Add

      You can create thematic collections and keep, for instance, all recipes in one place so you will never lose them.

      No images found
      Previous Next 0 / 0
      500
      • Advertisement
      • Animals
      • Architecture
      • Art
      • Auto
      • Aviation
      • Books
      • Cartoons
      • Celebrities
      • Children
      • Culture
      • Design
      • Economics
      • Education
      • Entertainment
      • Fashion
      • Fitness
      • Food
      • Gadgets
      • Games
      • Health
      • History
      • Hobby
      • Humor
      • Interior
      • Moto
      • Movies
      • Music
      • Nature
      • News
      • Photo
      • Pictures
      • Politics
      • Psychology
      • Science
      • Society
      • Sport
      • Technology
      • Travel
      • Video
      • Weapons
      • Web
      • Work
        Submit
        Valid formats are JPG, PNG, GIF.
        Not more than 5 Мb, please.
        30
        surfingbird.ru/site/
        RSS format guidelines
        500
        • Advertisement
        • Animals
        • Architecture
        • Art
        • Auto
        • Aviation
        • Books
        • Cartoons
        • Celebrities
        • Children
        • Culture
        • Design
        • Economics
        • Education
        • Entertainment
        • Fashion
        • Fitness
        • Food
        • Gadgets
        • Games
        • Health
        • History
        • Hobby
        • Humor
        • Interior
        • Moto
        • Movies
        • Music
        • Nature
        • News
        • Photo
        • Pictures
        • Politics
        • Psychology
        • Science
        • Society
        • Sport
        • Technology
        • Travel
        • Video
        • Weapons
        • Web
        • Work

          Submit

          Thank you! Wait for moderation.

          Тебе это не нравится?

          You can block the domain, tag, user or channel, and we'll stop recommend it to you. You can always unblock them in your settings.

          • PostNauka
          • ученые
          • университет
          • исследования
          • эксперименты
          • домен postnauka.ru

          Get a link

          Спасибо, твоя жалоба принята.

          Log on to Surfingbird

          Recover
          Sign up

          or

          Welcome to Surfingbird.com!

          You'll find thousands of interesting pages, photos, and videos inside.
          Join!

          • Personal
            recommendations

          • Stash
            interesting and useful stuff

          • Anywhere,
            anytime

          Do we already know you? Login or restore the password.

          Close

          Add to collection

             

            Facebook

            Ваш профиль на рассмотрении, обновите страницу через несколько секунд

            Facebook

            К сожалению, вы не попадаете под условия акции