html текст
All interests
  • All interests
  • Design
  • Food
  • Gadgets
  • Humor
  • News
  • Photo
  • Travel
  • Video
Click to see the next recommended page
Like it
Don't like
Add to Favorites

Вычислительные методы в разработке искусственного интеллекта

Математик Иван Оселедец о моделировании физических явлений, проблемах нейронных сетей и подготовке обучающих данных

Нейронные сети сегодня показывают очень высокую эффективность. Почему принципиально важно понять, как они принимают то или иное решение? Какие числовые методы применяются в разработке искусственного интеллекта? Как новейшие решения в разработке искусственного интеллекта влияют на научное сообщество? Об этом рассказывает профессор магистерской программы «Вычислительные системы в науке и технике» Иван Оселедец.

Искусственный интеллект сегодня очень модная тема. О нем говорят все — от банкиров до простых людей. Кто-то считает, что скоро он захватит мир. Но на самом деле мало кто понимает, что это такое. На самом деле каждый подразумевает под этим термином что-то свое. Но под этим есть конкретная научная основа, про которую я как раз хотел бы сказать, а потом сконцентрироваться именно на вычислительных методах: какое они имеют отношение к искусственному интеллекту и что вообще под этим понимают.

В России вычислительные методы развивались в течение долгого времени и очень хорошо: космические полеты, атомные проекты — все это решение уравнений в частных производных. Разностные схемы и другие методы у нас тоже очень хорошо развиты. Много людей занимались теорией искусственного интеллекта, но, на мой взгляд, больше с философской точки зрения: что такое искусственный интеллект, какие у него типы. Сегодня на какой-нибудь конференции, особенно в России, стоит только сказать про искусственный интеллект — и примерно полчаса уйдет на обсуждение, что предмет дискуссии искусственным интеллектом не является.

На Западе ситуация проще. Под artificial intelligence в основном понимают машинное обучение, даже более конкретно — deep learning (глубинное обучение), которое примерно с 2012 года стало очень популярной темой. Но все эти методы были придуманы не пять лет назад и даже не десять, а существенно раньше. Но в начале 2010-х годов произошла революция в глубоком обучении, после которой алгоритмы, основанные на нем, стали показывать бо́льшую производитель и успешность, чем у людей. Почему так произошло — отдельная тема для обсуждений. Если кратко — появилось новое железо и большие объемы данных, и оказалось, что алгоритмы, которые не очень хорошо работали на тысяче примеров, очень хорошо работают на 50 тысячах и миллионах.

В результате в научном мире возникла совершенно уникальная ситуация: огромное количество научных групп работают в узкой области. Обычно одна научная группа исследует какую-то одну свою тему. А теперь оказалось, что одной задачей (условно говоря, как отличить кошку от собаки — с этого ведь все и начиналось) занимаются сотни и тысячи научных групп с хорошим финансированием. И оказалось, что можно выстроить вычислительную инфраструктуру так, чтобы все работало. А после этого возникли новые алгоритмы (их можно довольно долго перечислять), которые существенно повысили качество в первую очередь в задачах распознавания изображений. Потом они стали применяться в задаче обработки естественного языка, в задаче обработки аудио. Сейчас это все достаточно успешно переносится на обработку медицинских изображений. Тем не менее там есть еще открытые проблемы, задачи, но все равно присутствует очень быстрое распространение знаний. Статья, которая вышла, например, в октябре, к маю следующего года может стать уже классической, и все будут на нее ссылаться. Такое в научном мире было достаточно редко.

К тому же добавляется огромный интерес со стороны глобальных корпораций, большое финансирование, открытость исследований, открытость исходных кодов. Те же самые Google или Facebook открыли программные коды своих вычислительных пакетов, направленных на машинное обучение и глубокое обучение. Этим все пользуются, все развиваются, и скорость развития очень большая.

Но тем не менее вернемся к вычислительным методам. Обычно под вычислительным методом понимаются две вещи: либо это эффективный алгоритм для вычисления чего-то, либо, если чуть более узко, это вычислительный алгоритм для расчета нашего физического мира. Физический мир описывается уравнениями и зависимостями, которые люди долго и упорно выводили. Любая математическая модель является упрощением самого физического мира. После этого строится численная схема, строится эффективный метод и так далее.

Одно из направлений, наиболее интересных лично для меня и моей научной группы, занимается вопросами того, как скрестить эти два мира: моделирование физических явлений и те методы, которые так успешны в обработке изображений. На самом деле моделирование сложных физических систем является в каком-то смысле искусством. Чтобы построить хорошую модель, нужен специальный человек, у которого есть чутье, — физик, теоретический физик или, как их в математике называют, модельеры (модельеры не от одежды, а от людей, которые строят математические модели). И после этого строится численный метод по стандартным подходам.

Альтернативой могут стать подходы, которые пытаются создавать модели по типу черного ящика. Например, в машинном обучении нам нужна обучающая выборка. Мы знаем точный результат (это, например, картинка), у нас есть объект признаков — картинка определенного цвета — и класс, а точный ответ — «кот» или «собака». Или если брать что-то более практическое, то, например, МРТ, и нужно определить заболевание: есть пневмония или нет, есть рак или нет. Здесь фактически все сводится к тому, что нужно подготовить такую обучающую выборку. Это так называемое обучение с учителем (supervised learning) — один из трех основных подходов в машинном обучении. После этого строится достаточно общего вида нейронная сеть, которая это все обучает. Оказывается, что если выборка достаточно большая, параметры обучения выстроены хорошо, то все это можно сделать относительно быстро и достаточно точно.

Если мы говорим про классические численные методы, то там можно применить точно такой же подход. Это то, что называется low-hanging fruit: мы берем какую-нибудь относительно сложную систему, например двумерное уравнение Шредингера, которое описывает квантовые системы. И в качестве построения обучающей выборки уже используем тот метод, который был придуман ранее, например какой-то вычислительный метод, который умеет решать это уравнение, который строит дискретизацию, строит аппроксимацию и строит метод его решения. Это может быть долго. Затем все это отдается нейронной сети, которая выдает нам ответ. У нас получается черный ящик, делающий примерно то же самое, что и исходная система, но быстрее. Такой подход получил достаточно большое распространение, потому что он легкий. Мы берем какой-то долгий, тяжелый симулятор и создаем для него суррогат. На самом деле не только нейронные сети, а это даже более старая система, метамоделирование, суррогатное моделирование, которое делает примерно то же самое, но в сто раз быстрее.

В чем проблема такого подхода? Мы до сих пор не знаем, как работает этот черный ящик. Если мы, например, используем уравнения математической физики, мы понимаем, что там должны выполняться некие естественные вещи, которые соответствуют нашей интуиции. Например, масса не может стать отрицательной, энергия должна сохраняться. Если мы хорошо приблизили на обучающей выборке, это совершенно не значит, что на новых данных у нас эта модель будет работать столь же хорошо. У нас нет никакой гарантии. Есть только некий черный ящик, некая совокупность преобразований, и совершенно непонятно, почему эта вещь должна работать. Появится какая-то новая точка, новое значение параметров, и совершенно непонятно, почему это будет гарантировать правильный результат. В рамках математического моделирования понятно, как работают модели (или мы думаем, что понимаем это). По крайней мере, мы знаем, что одно слагаемое отвечает за один физический процесс, другое слагаемое — за другой. А с черным ящиком есть только входные и выходные данные.

Можно ли это использовать в каких-то критических приложениях, например для полета самолета, для расчета атомных устройств, — это большой вопрос. Я бы сказал, что на данный момент нет. Все это пока остается неким вспомогательным инструментом, например, для решения задачи оптимизации. Нам нужно подобрать оптимальную конструкцию, и мы с помощью быстрой модели производим варианты, а потом уже их тестируем. На самом деле, конечно, на практике тестирование происходит не только с помощью симуляторов на математическом моделировании, но и с помощью реальных физических экспериментов.

Проблема интерпретируемости таких алгоритмов условно искусственного интеллекта очень важна. Когда задача нам не очень интересна (например, там та же самая «кошка или собака»), ничего страшного, если мы где-то ошибемся. Есть задачи, в которых ошибка играет высокую цену, например обработка медицинских изображений. Представьте, что мы все подобные задачи отдадим искусственному интеллекту, он будет ставить нам диагноз и ошибаться. Или мы сделаем беспилотную машину, которая управляется какой-то нейронной сетью, и она куда-нибудь врежется. Кто будет за это отвечать? Здесь много этических вопросов, и это большое направление исследований, связанное с тем, как понять, почему нейросеть дала такой ответ, как понять, почему именно такое предсказание. Другой пример может быть связан с финансовым скорингом. Почему в банках никто не использует ничего, кроме логистической регрессии, линейной комбинации факторов? Грубо говоря, один фактор имеет вес 60%, другой 20%, третий 10%, потому что это можно интерпретировать. Если берется более сложный пример, более сложная сеть, она может давать на обучающей выборке больший процент, а потом клиент придет и спросит, почему ему отказали в кредите. Потому что нейронная сеть так сказала? Все это большой вопрос.

Обычно, когда мы говорим о моделировании, о вычислительных методах, мы подразумеваем, что мы верим и понимаем, как оно работает. Когда мы говорим об искусственном интеллекте применительно к задачам физического моделирования или математического моделирования и так далее, мы говорим о неких черных ящиках, про которые мы не понимаем, как они внутри работают и есть ли там хотя бы выполнение каких-то основных требований для новых точек. Это проблема, потому что появляется довольно много статей, например, в области химии, где, грубо говоря, десять авторов — специалистов в области машинного обучения и один химик. Для химии, например, строят какую-нибудь метамодель, которая предсказывает свойства молекул по каким-то косвенным характеристикам. И предъявляется тренировочная выборка, в которой много молекул. Она разбивается на обучающую и тестовую, как это обычно делается. Строится модель, и она очень хорошо работает. Но если предъявляется некая модель, которой не было в обучающей и тестовой выборке, то ошибка может быть огромная. То есть ошибка по отношению к методам, основанным на первых принципах, грубо говоря, выведенным из уравнений Шредингера, в которое все верят и которое описывает наш микромир, может быть огромной, больше раз в десять. И невозможность интерпретировать результаты и ошибки на новых данных — это большая проблема.

Связанная с этим область исследований занимается решением вопроса, что делать, если у нас нет нормальной обучающей выборки и нет симулятора, который нам позволит посчитать точный ответ. Например, какие-нибудь сложные динамические системы, которые мы наблюдаем, но написать для них какую-то разумную математическую модель, возвращаясь к тому, с чего я начинал, — это искусство. Например, для роста помидоров в теплице можно описать эту систему набором параметров. Грубо говоря, площадь листьев, общий вес, биомасса. Входные параметры — это температура, число удобрений, влажность. И в принципе, конечно, если открыть литературу, там очень много статей, где строятся всякие достаточно разумные модели в виде обыкновенных дифференциальных уравнений. И они более-менее описывают экспериментальные данные. Но сделать разумную модель, которая восстанавливает исходную динамическую систему, просто наблюдая эти векторы данных, — это на самом деле открытая задача.

Похожая ситуация возникает в микробиологии. Например, есть различные концентрации вирусов, и нужно понять, как они друг с другом взаимодействуют, и построить некую достаточно простую математическую модель. И здесь методы, которые используются, близки, но отличаются от методов, которые используют при классификации изображений. Это все-таки относится больше к задачам, что называется обучением без учителя (unsupervised learning). У нас есть данные, но нет точного ответа. И нужно понять, что эта группа данных относится к одному классу, эта группа данных — к другому, потом, наверное, привлечь эксперта и посмотреть, что там на самом деле происходит внутри.

Поэтому здесь есть большой пробел. И в чем я вижу основной интерес в своей научной группе? Можно брать методы из одной области, переносить в другую, и наоборот. Так как современная наука развивается, это можно делать достаточно быстро. Вообще говоря, мало кто в мире так умеет делать, потому что обычно все-таки люди работают либо в одной области, либо в другой.

Скажу пару слов о вычислительных методах с точки зрения второго смысла. Это повышение скорости работы, повышение производительности. Несмотря на то что сейчас все-таки учить нейронные сети научились все, это требует достаточно много процессорного времени. Например, то, что описано в одной из последних статей Google, можно воспроизвести. Но если посчитать затраты на электричество и перевести в доллары, то окажется, что нужно потратить 13 тысяч долларов, просто чтобы повторить все те эксперименты. У них есть много машин, есть много железа, которое позволяет такие расчеты производить. Очень долго считается градиентный спуск, и все хорошо. Тем не менее человек все равно остается самым эффективным вычислительным устройством на планете: потребляет 30 ватт, а работает гораздо быстрее, чем компьютер, на многих задачах.

Однако остается огромное поле, для того чтобы придумать алгоритм, который обучает искусственный интеллект и нейронные сети быстрее и точнее за счет того, что используются более современные, например, методы линейной алгебры или даже алгебраической геометрии или топологии. Это чисто математические области, которые всегда находятся где-то сбоку, и люди, которые говорят: «Мы занимаемся чистой математикой, не трогайте нас», на самом деле там, на мой взгляд, огромный ресурс, для того чтобы улучшить понимание, что вообще происходит. Потому что на самом деле никто не понимает, почему эти алгоритмы работают так хорошо. По современной теории они должны работать гораздо хуже.

Есть классическая теория Вапника — Червоненкиса, из которой следует, что современные архитектуры нейронных сетей не должны работать так хорошо, как они это делают сейчас. Говорят, что есть Big Data, миллионы изображений, а в нормальной нейронной сети — сотни миллионов параметров. То есть число параметров существенно больше, чем число изображений. И она должна переобучаться. Она должна очень хорошо работать на обучающей выборке и очень плохо на тестовой. Но этого не происходит, и никакой адекватной теории до сих пор нет. Есть какие-то попытки, связанные с теорией информации, но на самом деле, если посмотреть внимательно на эти работы, они ни в коей мере не являются теорией в том виде, в котором мы привыкли это считать. И никто толком не понимает, почему так происходит. Поэтому, во-первых, надо ускорять, придумывать новые методы. Во-вторых, надо разрабатывать теорию, объясняющую, почему оно работает так хорошо. И в-третьих, надо понимать, почему этот искусственный интеллект принимает одно решение, а не другое. Это все открытые вопросы.

Читать дальше
Twitter
Одноклассники
Мой Мир

материал с postnauka.ru

3

      Add

      You can create thematic collections and keep, for instance, all recipes in one place so you will never lose them.

      No images found
      Previous Next 0 / 0
      500
      • Advertisement
      • Animals
      • Architecture
      • Art
      • Auto
      • Aviation
      • Books
      • Cartoons
      • Celebrities
      • Children
      • Culture
      • Design
      • Economics
      • Education
      • Entertainment
      • Fashion
      • Fitness
      • Food
      • Gadgets
      • Games
      • Health
      • History
      • Hobby
      • Humor
      • Interior
      • Moto
      • Movies
      • Music
      • Nature
      • News
      • Photo
      • Pictures
      • Politics
      • Psychology
      • Science
      • Society
      • Sport
      • Technology
      • Travel
      • Video
      • Weapons
      • Web
      • Work
        Submit
        Valid formats are JPG, PNG, GIF.
        Not more than 5 Мb, please.
        30
        surfingbird.ru/site/
        RSS format guidelines
        500
        • Advertisement
        • Animals
        • Architecture
        • Art
        • Auto
        • Aviation
        • Books
        • Cartoons
        • Celebrities
        • Children
        • Culture
        • Design
        • Economics
        • Education
        • Entertainment
        • Fashion
        • Fitness
        • Food
        • Gadgets
        • Games
        • Health
        • History
        • Hobby
        • Humor
        • Interior
        • Moto
        • Movies
        • Music
        • Nature
        • News
        • Photo
        • Pictures
        • Politics
        • Psychology
        • Science
        • Society
        • Sport
        • Technology
        • Travel
        • Video
        • Weapons
        • Web
        • Work

          Submit

          Thank you! Wait for moderation.

          Тебе это не нравится?

          You can block the domain, tag, user or channel, and we'll stop recommend it to you. You can always unblock them in your settings.

          • PostNauka
          • математика
          • физика
          • исследования
          • эксперименты
          • домен postnauka.ru

          Get a link

          Спасибо, твоя жалоба принята.

          Log on to Surfingbird

          Recover
          Sign up

          or

          Welcome to Surfingbird.com!

          You'll find thousands of interesting pages, photos, and videos inside.
          Join!

          • Personal
            recommendations

          • Stash
            interesting and useful stuff

          • Anywhere,
            anytime

          Do we already know you? Login or restore the password.

          Close

          Add to collection

             

            Facebook

            Ваш профиль на рассмотрении, обновите страницу через несколько секунд

            Facebook

            К сожалению, вы не попадаете под условия акции