html текст
All interests
  • All interests
  • Design
  • Food
  • Gadgets
  • Humor
  • News
  • Photo
  • Travel
  • Video
Click to see the next recommended page
Like it
Don't like
Add to Favorites

Система GRID в обработке данных

Физик Денис Деркач о системе триггеров, четырех уровнях дата-центров и генерации симулированных событий на Большом адронном коллайдере

За начало сбора данных на Большом адронном коллайдере отвечает система триггеров. Они сообщают, какое событие происходит внутри коллайдера, а если оно интересное, то нужно начинать запись. Но триггеры не всегда выполняют точное вычисление, так как нужно время вычисления и принятия решения. После того как данные собраны, они проходят дополнительную обработку, и эта обработка начинается с нуля. Она происходит в компьютерном центре, который находится за пределами эксперимента. Чтобы начать обработку, человек, который оценивает качество данных, ставит флаг о том, что данные являются хорошими, и только после этого начинается обработка.

В конце 1990-х годов люди осознали, что количество данных, которое собирает каждый детектор на Большом адронном коллайдере, будет слишком большим, чтобы обрабатывать его на месте. Поэтому в 2002 году была придумана и предложена система обработки данных, которая будет распределена по всему миру. Эта система называется GRID, и ее суть заключается в том, что все компьютерные и дата-центры разбиты на четыре ступени — от нулевой до третьей. В зависимости от номера ступени эти центры участвуют в разных стадиях обработки данных.

Изначально файл с данными эксперимента хранится на компьютерной ферме эксперимента. Спустя время происходит трансферт данных из эксперимента в центральный компьютерный центр ЦЕРН. Там находится сайт Tier-0 — это сайт нулевого уровня, где происходит самая первая обработка данных. Но этот сайт уже не помещается на территории ЦЕРН, поэтому он является двойным компьютерным центром: одна часть находится в ЦЕРН под Женевой, а вторая часть — в Будапеште, Венгрии.

Когда данные поступили в этот компьютерный центр, его основная задача — сохранить эти данные. Данные хранятся не на жестких дисках, а на специализированных магнитных лентах, потому что магнитные ленты — это самый дешевый и самый долговечный способ, который пока существует для хранения большого количества данных. Система, которая занимается хранением данных, полностью роботизирована. Там ходит специальный робот, который вытаскивает магнитную ленту из нужного периода времени и вставляет в прибор для чтения магнитных лент, после чего файл попадает на более быстрые носители, например на жесткие диски, а дальше начинается обработка.

Обработка происходит в компьютерных центрах первого уровня — на сайтах Tier-1. Они находятся в разных местах мира: в Северной Америке, в Европе, в Азии. Два центра есть в России — в Курчатовском институте и Дубне. Там происходит первичная обработка данных коллайдера. Именно в этом месте происходит первый анализ данных, который попадает после этого в статью. То есть мы распределяем файлы по дата-центрам, находящимся в какой-то стране, а там уже практически с нуля начинаем реконструировать данные, которые были набраны в каком-то эксперименте. Дополняется работа триггера, потому что в нем мы очень сильно зависим от времени принятия решения. Здесь мы можем заниматься анализом данных столько, сколько нужно, для того чтобы достигнуть определенной точности.

Далее первичные обработанные данные распределяются по хранилищам и сайтам второго уровня — Tier-2. Это сайты, компьютерные центры уровня университета или большого института. Например, есть центр в Санкт-Петербургском университете, в Московском университете, в Новосибирске и в других местах. Там ученые могут написать программу для анализа обработанных данных. Ученые не имеют доступа к сайтам на уровне Tier-1. Эти сайты контролируются централизованной командой IT-инженеров, потому что стоимость работы этих сайтов достаточно велика и людям зачастую не нужны сырые данные, а нужны обработанные.

На сайте второго уровня работают в основном обычные ученые, которые берут программу для обработки данных и говорят, какие им нужны данные, с какого эксперимента, набранные в определенном промежутке времени, которые похожи на распад подходящей частицы. Дальше происходит поиск этих файлов в системе, работа отправляется в тот компьютерный центр, в котором находится этот файл, или этот файл может дополнительно копироваться. Таким образом, человек, находящийся в Москве, может попросить файлы и информацию с компьютеров, которые находятся в Китае или Европе.

Сайты третьего уровня — это уже гораздо более простые сайты. На них обрабатываются и постобрабатываются данные. На них обучаются простые модели машинного обучения, которые необходимы для последнего анализа данных. Но обычно на уровне Tier-2 люди настолько сильно вытаскивают и выбирают данные, что Tier-3 использует не каждый человек. Иногда бывает достаточно компьютера или ноутбука, который стоит под столом, для того чтобы это все проанализировать.

Сейчас при распределении реплик файлов, их копий по системе в некоторых экспериментах уже используется машинное обучение — это алгоритм, который позволяет предсказывать место, куда положить файл, сколько копий файла сделать или насколько популярен будет этот файл.

Обычной практикой является то, что тебе открыты все данные. Если ты хочешь сделать какой-то анализ, то нужно об этом заявить. Обычно тебе нужно прийти в ЦЕРН или позвонить по видеоконференции и сказать, что хочешь заниматься определенными вещами, потому что хотел бы что-то найти, и нужно будет проанализировать все эти данные.

Проблема в том, что анализами, которые могут привести к большому результату, хотят заниматься множество людей, а не только человек, придумавший что-то в Москве. Для этого существует способ принятия решения, кто будет делать этот анализ. В таком случае есть два варианта: либо все соединяются в единую группу с центром координации и каждый человек каким-то образом делает вклад в этот анализ; либо создается несколько, обычно две, конкурирующие группы, которые должны, с одной стороны, обработать данные и доказать отдельному комитету, что их обработка правильная, а с другой стороны — победить соседнюю группу, то есть сделать это быстрее, чем они. И здесь есть элемент соревнования, который дает, с одной стороны, скорость, а с другой — большее качество.

Отдельной задачей компьютерных центров является генерация симулированных событий. Это большая задача, которая является одной из проблем для будущего Большого адронного коллайдера. Дело в том, что симуляция события отнимает очень много времени, сейчас она происходит на сайтах второго уровня. Но когда сайты первого уровня свободны, туда также поступает некоторое количество задач, потому что они гораздо быстрее и могут симулировать больше событий. Проблема будет понятна, если на нее посмотреть с точки зрения набора данных со скоростью нескольких тысяч событий в секунду, и в таком случае, для того чтобы симулировать данные, на событие вам необходима минута или несколько. Порядок величины очень разный, и здесь возможно применение машинного обучения.

Есть направление, которое занимается тем, что генерирует картинки кошек, собак, исходя из какого-то шума, или пытается объединить их вместе, сделать из зимы лето на фотографии, на видео. Эти алгоритмы можно применять и к симуляции событий, потому что они берут какой-то набор цифр, чисел и производят из него картинку. Симуляция событий делает то же самое: она берет набор чисел, которые являются импульсом частицы, местом ее падения в детектор, углом полета, и из этого делает картинку. Единственная разница между честной симуляцией и симуляцией с помощью нейронной сети заключается в том, что честная будет решать очень много уравнений. Уравнения потребляют много компьютерных ресурсов, поэтому это является долгим процессом. В отличие от этого, нейронная сеть примерно представляет себе, как решается это уравнение, потому она будет делать все гораздо быстрее.

Сейчас, к сожалению, пока не хватает математического аппарата, чтобы воспроизвести картинку, похожую на честную симуляцию. Мы можем обмануть человеческий глаз, но не дальнейшую математическую обработку события. На данный момент множество людей занимаются именно этой симуляцией по причине того, что компьютерные ресурсы, которые необходимы для симуляции, превосходят те ресурсы, которые есть у ЦЕРН.

Читать дальше
Twitter
Одноклассники
Мой Мир

материал с postnauka.ru

1

      Add

      You can create thematic collections and keep, for instance, all recipes in one place so you will never lose them.

      No images found
      Previous Next 0 / 0
      500
      • Advertisement
      • Animals
      • Architecture
      • Art
      • Auto
      • Aviation
      • Books
      • Cartoons
      • Celebrities
      • Children
      • Culture
      • Design
      • Economics
      • Education
      • Entertainment
      • Fashion
      • Fitness
      • Food
      • Gadgets
      • Games
      • Health
      • History
      • Hobby
      • Humor
      • Interior
      • Moto
      • Movies
      • Music
      • Nature
      • News
      • Photo
      • Pictures
      • Politics
      • Psychology
      • Science
      • Society
      • Sport
      • Technology
      • Travel
      • Video
      • Weapons
      • Web
      • Work
        Submit
        Valid formats are JPG, PNG, GIF.
        Not more than 5 Мb, please.
        30
        surfingbird.ru/site/
        RSS format guidelines
        500
        • Advertisement
        • Animals
        • Architecture
        • Art
        • Auto
        • Aviation
        • Books
        • Cartoons
        • Celebrities
        • Children
        • Culture
        • Design
        • Economics
        • Education
        • Entertainment
        • Fashion
        • Fitness
        • Food
        • Gadgets
        • Games
        • Health
        • History
        • Hobby
        • Humor
        • Interior
        • Moto
        • Movies
        • Music
        • Nature
        • News
        • Photo
        • Pictures
        • Politics
        • Psychology
        • Science
        • Society
        • Sport
        • Technology
        • Travel
        • Video
        • Weapons
        • Web
        • Work

          Submit

          Thank you! Wait for moderation.

          Тебе это не нравится?

          You can block the domain, tag, user or channel, and we'll stop recommend it to you. You can always unblock them in your settings.

          • PostNauka
          • физика
          • ученые
          • университет
          • эксперименты
          • домен postnauka.ru

          Get a link

          Спасибо, твоя жалоба принята.

          Log on to Surfingbird

          Recover
          Sign up

          or

          Welcome to Surfingbird.com!

          You'll find thousands of interesting pages, photos, and videos inside.
          Join!

          • Personal
            recommendations

          • Stash
            interesting and useful stuff

          • Anywhere,
            anytime

          Do we already know you? Login or restore the password.

          Close

          Add to collection

             

            Facebook

            Ваш профиль на рассмотрении, обновите страницу через несколько секунд

            Facebook

            К сожалению, вы не попадаете под условия акции