html текст
All interests
  • All interests
  • Design
  • Food
  • Gadgets
  • Humor
  • News
  • Photo
  • Travel
  • Video
Click to see the next recommended page
Like it
Don't like
Add to Favorites

Завершилось соревнование по дата-майнингу Heritage Health Prize


Крупнейшее со времен Netflix Prize соревнование в области анализа больших массивов данных подошло к концу. И хотя официальные результаты первой десятки и победитель будут объявлены через два месяца, итоги уже можно подводить.
Целью было спрогнозировать госпитализацию пациентов в течение будущего года на основании данных за предыдущие два года лечения. По замыслу спонсора это позволит больше внимания уделять именно тем пациентам, которые больше всего в нем нуждаются, за счет чего сэкономить часть из 30 млрд. $, ежегодно затрачиваемых в США на госпитализацию.
Заявленный организаторами приз в 3 000 000$ был недостижим из-за установленного предела точности в 0.4 RMSLE(меньше-лучше; лучший достигнутый результат 0.46; разница между первым и сотым местом 0.008; RMSLE — среднеквадратическое отклонение логарифмов) и предоставленных данных — в них просто не содержалось достаточного для достижения такого уровня точности количества информации. Поэтому фактически борьба шла за 500 000$, достающиеся лучшей команде, фонд промежуточных финишей и бесценный опыт.

Несмотря на сложность задачи, желающих попробовать свои силы набралось более полутора тысяч. Говорят, что в конкурсе даже участвовали два нобелевских лауреата, но кто это был и каковы успехи не признаются. Учитывая, что в области математики и программирования их не бывает, остается медицина — в качестве консультанта или экономика.

Соревнование длилось два года и имело три промежуточных финиша, на каждом из которых было два призовых места. Победители, по условиям конкурса, выкладывали описание своих методов. Однако соперникам это не сильно помогало, дело в том, что основные алгоритмы хорошо известны — это деревья решений, Random Forest(случайный лес), Gradient Boosting, Градиентный спуск, Ridge Regression(гребневая регрессия, регуляризация Тихонова) их модификации и комбинации. Отличия заключались в тонкостях реализации, использования, комбинирования и небольших вариациях самих алгоритмов. Однако деталей получалось так много, что не было понятно — за счет чего собственно достигается результат. То есть, что победители делают — понятно, не понятно почему они делают именно это, и почему то, что они делают работает.

По промежуточным финишам победители распределились так:
  • 1. Market Makers 2. Willem Mestrom
  • 1. Market Makers 2. Edward & Willem
  • 1. Edward & Willem 2. crescendo


Странности начались перед третьим промежуточным финишем — все три команды почти не использовали разрешенную раз в день проверку модели по 30% тестовых данных и лидер сменился без боя. Причиной оказалось объединение в одну команду, при этом нельзя было превысить лимит отправленных моделей за все время с начала конкурса — чудом уложились.

В день финиша предварительные результаты по 30% тестовых данных выглядели так.
Но самое интересное было в результатах по скрытой части, опубликованных через несколько дней, отражающих истинные оценки работы алгоритмов.
Сводная таблица для первых 50-ти мест:

Главным врагом был эффект, наиболее ярко наблюдающийся у команды Almata, занимавшей первое место по открытому рейтингу. Это overfitting — переподгонка. Они добыли всю полезную информацию из данных по которым считался рейтинг, основываясь на оценках рейтинга, и вместе с ней захватили вредную, специфическую для набора информацию. В результате ухудшается(или по крайней мере не улучшается) оценка для неизвестных данных. Итог — перемещение с 1-го на 19-е место.

Победитель и оценки первых 10-ти участников будут официально объявлены в начале июня на конференции Health Datapalooza IV. Однако почти нет сомнений в победе POWERDOT — команды образованой слиянием победителей промежуточных финишей. Имея в своем распоряжении 3 лучших результата, они получили возможность неявно обучаться по скрытой части рейтинга, после чего бороться с ними стало невозможно.
Зато поучиться было чему. Для меня это выразилось в перемещении с 261-го места по итогам последнего промежуточного финиша на финальное 27-е. Могло быть повыше — понимание происходящих процессов пришло слишком поздно, зато в следующий раз будет интереснее.

Описание методов победителей промежуточных финишей (из их комбинации наверняка и будет составлен алгоритм победитель) можно почитать здесь (много математики и маневров, которых я до сих пор не понимаю).
Читать дальше
Twitter
Одноклассники
Мой Мир

материал с habrahabr.ru

1

      Add

      You can create thematic collections and keep, for instance, all recipes in one place so you will never lose them.

      No images found
      Previous Next 0 / 0
      500
      • Advertisement
      • Animals
      • Architecture
      • Art
      • Auto
      • Aviation
      • Books
      • Cartoons
      • Celebrities
      • Children
      • Culture
      • Design
      • Economics
      • Education
      • Entertainment
      • Fashion
      • Fitness
      • Food
      • Gadgets
      • Games
      • Health
      • History
      • Hobby
      • Humor
      • Interior
      • Moto
      • Movies
      • Music
      • Nature
      • News
      • Photo
      • Pictures
      • Politics
      • Psychology
      • Science
      • Society
      • Sport
      • Technology
      • Travel
      • Video
      • Weapons
      • Web
      • Work
        Submit
        Valid formats are JPG, PNG, GIF.
        Not more than 5 Мb, please.
        30
        surfingbird.ru/site/
        RSS format guidelines
        500
        • Advertisement
        • Animals
        • Architecture
        • Art
        • Auto
        • Aviation
        • Books
        • Cartoons
        • Celebrities
        • Children
        • Culture
        • Design
        • Economics
        • Education
        • Entertainment
        • Fashion
        • Fitness
        • Food
        • Gadgets
        • Games
        • Health
        • History
        • Hobby
        • Humor
        • Interior
        • Moto
        • Movies
        • Music
        • Nature
        • News
        • Photo
        • Pictures
        • Politics
        • Psychology
        • Science
        • Society
        • Sport
        • Technology
        • Travel
        • Video
        • Weapons
        • Web
        • Work

          Submit

          Thank you! Wait for moderation.

          Тебе это не нравится?

          You can block the domain, tag, user or channel, and we'll stop recommend it to you. You can always unblock them in your settings.

          • habrahabr.ru
          • домен habrahabr.ru

          Get a link

          Спасибо, твоя жалоба принята.

          Log on to Surfingbird

          Recover
          Sign up

          or

          Welcome to Surfingbird.com!

          You'll find thousands of interesting pages, photos, and videos inside.
          Join!

          • Personal
            recommendations

          • Stash
            interesting and useful stuff

          • Anywhere,
            anytime

          Do we already know you? Login or restore the password.

          Close

          Add to collection

             

            Facebook

            Ваш профиль на рассмотрении, обновите страницу через несколько секунд

            Facebook

            К сожалению, вы не попадаете под условия акции