html текст
All interests
  • All interests
  • Design
  • Food
  • Gadgets
  • Humor
  • News
  • Photo
  • Travel
  • Video
Click to see the next recommended page
Like it
Don't like
Add to Favorites

Оценка качества данных в физике высоких энергий

Физик Денис Деркач объяснил, почему важно сохранять как можно больше данных в ходе экспериментов БАК, как устроен процесс обучения алгоритмов для проверки качества данных и какие бывают аномалии в качестве данных

Проверка качества данных является неотъемлемой частью работы Большого адронного коллайдера. И именно здесь искусственный интеллект и методы машинного обучения пока что не смогли отстранить человека от самых базовых операций.

Существует два режима проверки качества данных: онлайн и офлайн. Онлайн-режим — это режим, в котором оператор 24 часа в сутки и 7 дней в неделю следит за работой коллайдера непосредственно в области детектора. Офлайн-режим проверки качества данных — это режим, в котором оператор проверяет качество данных после некой предварительной обработки.

Проверка качества данных онлайн

На Большом адронном коллайдере работают два крупных (ATLAS и CMS) и два средних (ALICE и LHCb) эксперимента, а также несколько экспериментов небольшого масштаба. У каждого эксперимента есть своя группа детекторов.

Во время онлайн-обработки качества данных оператор следит за самыми базовыми характеристиками работы детектора. Например, идет ли подача электроэнергии на ту или иную плату или есть ли какие-то данные, которые исходят из того или иного субдетектора. В этот момент оператор принимает решение, являются ли данные, которые набираются в этот момент, хорошими или плохими. Если существуют какие-то проблемы с какой-то характеристикой, оператор должен попробовать решить эту проблему самостоятельно. Для этого можно посмотреть на то, что происходило с системой ранее, не было ли какого-нибудь изменения в условиях сбора данных. Влиять на качество данных может новое программное обеспечение или перенастройка отдельных частей детектора. И если оператор не может самостоятельно решить проблему, он должен связаться с экспертом, который также сидит недалеко от него, и попытаться решить эту проблему вдвоем.

«Хранить данные — это довольно дорогое удовольствие. Поэтому данные, которые не проходят первичную онлайн-обработку и онлайн-тестирование, не сохраняются вообще»

Именно вариативность набираемых данных обычно препятствует внедрению новых продвинутых методов анализа данных. Обычно машинное обучение должно обучаться на достаточно постоянном наборе данных. Но в случае с экспериментами на БАК мы не можем точно сказать, являются ли аномалии при проведении экспериментов и получении данных каким-то сбоем или действительно результатом эксперимента.

Типичными видами сбоев для этапа онлайн-проверки качества данных является отсутствие или неправильная температура охлаждения частей детектора. Или, например, какие-то проблемы на компьютерной ферме: может зависнуть софтверный триггер. В этом случае его нужно перезагрузить, но делать это может только определенный специалист, имеющий право перезагружать компьютерную ферму.


Контрольная комната в ЦЕРН // cds.cern.ch

Проблема хранения данных

В Стандартной модели мезоны — это составные элементарные частицы, состоящие из равного числа кварков и антикварков. К мезонам относятся пионы (π-мезоны), каоны (K-мезоны) и другие.

Хранить данные — это довольно дорогое удовольствие. Поэтому данные, которые не проходят первичную онлайн-обработку и онлайн-тестирование, не сохраняются вообще. Если оператор решает, что какие-то данные необходимо пометить как плохие, он выставляет в специализированной базе начало и конец плохого периода, и обычно эти данные уничтожаются.

В дальнейшем данные, которые помечены как хорошие, отправляются на дополнительное тестирование после применения разных элементов реконструкции. Можно искать какие-то треки или нестабильные частицы, замерять среднее количество пионов, каонов, протонов за несколько минут. И в дальнейшем тестирование качества происходит уже при более «физических» характеристиках — таких, на которые среагирует, например, триггер высокого уровня.

Типичный пример аномалии, которую замечает оператор во вторичной проверке качества данных, — это сдвиг в массе известных частиц. То есть, например, если мы поймали B-мезон, который должен иметь определенную массу, а это значение сдвинуто на несколько сотен килоэлектронвольтов, это означает, что есть проблемы с калибровкой детектора. Соответственно, нужно это поправить. Высокоуровневый триггер должен принимать решения несколько тысяч раз в секунду. И естественно, что человек не может принимать решение о качестве данных с такой же скоростью. Поэтому оператору, который находится за компьютером, обычно показывают агрегированные данные, то есть данные, полученные за несколько секунд, минут или даже часов работы коллайдера. Таким образом, оператор принимает решение не на основании какого-то моментального всплеска в данных, а на основании более усредненной информации.

 

 

Большой адронный коллайдер — детектор ALICE
Изображение:flickr.com
Проверка качества данных офлайн

Для оператора, который производит обработку качества данных офлайн, обычно отбирают небольшое количество данных — всего несколько процентов, а все остальное оставляют для дальнейшей обработки. На этом этапе также важно разметить данные на хорошие или плохие.

В плохих данных может наблюдаться неправильная частота рождения известных нам частиц либо неправильная масса простейших нестабильных частиц. Получается, что мы пытаемся спрогнозировать, как будет выглядеть весь набор данных, по очень небольшому количеству данных, которые мы выбираем из определенных мест работы коллайдера. Как правило, это происходит в начале заполнения пучка, потому что это очень характерный участок эксперимента.

Кажется, что эту часть работы очень трудно автоматизировать. Существует несколько математических характеристик, которые показывают, что полученные данные не похожи на идеальные данные, которые набирает коллайдер. У нас всегда есть какая-то вариативность. Мы не можем точно сказать, произошло ли изменение набранных данных из-за вмешательства человека или просто из-за того, что у нас сломалась установка. Поэтому необходимо сделать какой-то специализированный алгоритм, который будет принимать во внимание эту вариативность.

 


Рекомендательная система в эксперименте LHCb // M. Adinolfi et al. 2017
Компактный мюонный соленоид (CMS от англ. Compact Muon Solenoid) — один из двух больших универсальных детекторов элементарных частиц на Большом адронном коллайдере (БАК). Это детектор общего назначения, предназначенный для поиска бозона Хиггса и «нестандартной физики», в частности темной материи // wikimedia.org

Такой алгоритм был предложен. И сейчас несколько экспериментов пробуют внедрить его либо в онлайн-, либо в офлайн-обработку. Идея алгоритма заключается в итеративном обучении для проверки качества данных. То есть оператор, который приходит и размечает первичные данные, отдает свое мнение алгоритму, обучающемуся на этих данных. После чего алгоритм сообщает следующему оператору свое мнение о том, какие данные хорошие, а какие плохие. На начальных этапах обучения алгоритм занимается предсказанием качества только относительно крайних вариантов данных, а не всего массива.

Второй оператор в основном занимается серой зоной, то есть той зоной, в которой алгоритм не был уверен. И на следующий день алгоритм переучивается уже с учетом мнения первого и второго эксперта. И так продолжается несколько дней или недель до тех пор, пока алгоритм не научится видеть очень многие вещи, которые видят операторы, и на самом деле не улучшит качество до того, чтобы схлопнуть серую зону до очень маленького количества принятых решений. Тем не менее мы все равно считаем, что необходимо будет финальное решение эксперта по поводу тех или иных данных по причине того, что все-таки цена ошибки будет слишком велика. Поэтому, скорее всего, алгоритм превратится в какого-то типа рекомендательную систему.

Обучаясь просто на предыдущих ответах оператора, мы можем не только предсказать, хорошие это данные или плохие, но и с помощью небольшой модификации локализовать возникающие проблемы. Такой алгоритм тоже был предложен, и сейчас он проходит тестирование в эксперименте CMS. Этот алгоритм позволит не только судить о качестве данных, но и отметить, что определенные данные плохие из-за такого-то субдетектора.

 

Изображение:unsplash.com
Зачем нужно проверять качество данных

Проверка качества данных нужна для того, чтобы сохранить как можно больше данных. Мы можем ввести не только категории плохого или хорошего, но и сказать, что определенные данные «хорошие для такого-то анализа». Например, если вы ищете распад бозона Хиггса в два мюона, то вам необходимы данные, которые хорошие с точки зрения мюонных камер, но вам, скорее всего, не понадобится качество данных других субдетекторов. Поэтому вы таким образом немного выигрываете в статистике, но это может быть достаточно важным, чтобы получить какое-то открытие.

Проверка качества данных нужна для того, чтобы сохранить как можно больше данных. Мы можем ввести не только категории плохого или хорошего, но и сказать, что определенные данные «хорошие для такого-то анализа». Например, если вы ищете распад бозона Хиггса в два мюона, то вам необходимы данные, которые хорошие с точки зрения мюонных камер, но вам, скорее всего, не понадобится качество данных других субдетекторов. Поэтому вы таким образом немного выигрываете в статистике, но это может быть достаточно важным, чтобы получить какое-то открытие.

«В предыдущих экспериментах удалось после окончания работы восстановить еще несколько процентов статистики. А каждый процент статистики имеет свою буквальную стоимость — в долларах, рублях или евро»
Babar — эксперимент, проводимый в Стэнфордской лаборатории SLAC с целью изучения нарушений CP-симметрии при распаде B-мезонов.

Такой подход далеко не новость. Предыдущие эксперименты, например эксперимент Babar, смогли таким образом после окончания своей работы восстановить еще несколько процентов своей статистики. А каждый процент статистики имеет свою буквальную стоимость — в долларах, рублях или евро. Таким образом, получается, что при автоматизации оценки качества данных мы сможем автоматически набирать дополнительную статистику уже после окончания экспериментов. То есть вытаскивать данные, которые были помечены как плохие, в такую зону, в которой они могут быть использованы для некоторых типов анализов.

Сейчас системы автоматизации проверки качества данных проходят тестирование в нескольких экспериментах и даже в центральном контрольном центре ЦЕРН. И когда они будут внедрены, мы надеемся, что освободится ценное время специалистов-операторов, которые обычно являются физиками-экспериментаторами. Вместо того чтобы заниматься рутиной, они смогут больше времени уделять исследованиям.

 

 

Читать дальше
Twitter
Одноклассники
Мой Мир

материал с postnauka.ru

1

      Add

      You can create thematic collections and keep, for instance, all recipes in one place so you will never lose them.

      No images found
      Previous Next 0 / 0
      500
      • Advertisement
      • Animals
      • Architecture
      • Art
      • Auto
      • Aviation
      • Books
      • Cartoons
      • Celebrities
      • Children
      • Culture
      • Design
      • Economics
      • Education
      • Entertainment
      • Fashion
      • Fitness
      • Food
      • Gadgets
      • Games
      • Health
      • History
      • Hobby
      • Humor
      • Interior
      • Moto
      • Movies
      • Music
      • Nature
      • News
      • Photo
      • Pictures
      • Politics
      • Psychology
      • Science
      • Society
      • Sport
      • Technology
      • Travel
      • Video
      • Weapons
      • Web
      • Work
        Submit
        Valid formats are JPG, PNG, GIF.
        Not more than 5 Мb, please.
        30
        surfingbird.ru/site/
        RSS format guidelines
        500
        • Advertisement
        • Animals
        • Architecture
        • Art
        • Auto
        • Aviation
        • Books
        • Cartoons
        • Celebrities
        • Children
        • Culture
        • Design
        • Economics
        • Education
        • Entertainment
        • Fashion
        • Fitness
        • Food
        • Gadgets
        • Games
        • Health
        • History
        • Hobby
        • Humor
        • Interior
        • Moto
        • Movies
        • Music
        • Nature
        • News
        • Photo
        • Pictures
        • Politics
        • Psychology
        • Science
        • Society
        • Sport
        • Technology
        • Travel
        • Video
        • Weapons
        • Web
        • Work

          Submit

          Thank you! Wait for moderation.

          Тебе это не нравится?

          You can block the domain, tag, user or channel, and we'll stop recommend it to you. You can always unblock them in your settings.

          • PostNauka
          • физика
          • исследования
          • эксперименты
          • домен postnauka.ru

          Get a link

          Спасибо, твоя жалоба принята.

          Log on to Surfingbird

          Recover
          Sign up

          or

          Welcome to Surfingbird.com!

          You'll find thousands of interesting pages, photos, and videos inside.
          Join!

          • Personal
            recommendations

          • Stash
            interesting and useful stuff

          • Anywhere,
            anytime

          Do we already know you? Login or restore the password.

          Close

          Add to collection

             

            Facebook

            Ваш профиль на рассмотрении, обновите страницу через несколько секунд

            Facebook

            К сожалению, вы не попадаете под условия акции