html текст
All interests
  • All interests
  • Design
  • Food
  • Gadgets
  • Humor
  • News
  • Photo
  • Travel
  • Video
Click to see the next recommended page
Like it
Don't like
Add to Favorites

«Надо по-настоящему болеть этим». Дата-сайентист – о своей работе

В каждой профессии есть своя рутина. В случае с дата-сайентистом – это работа с сырыми данными. На нее уходит около 80% времени: нужно подготовить их и привести к правильному формату. И только после этого начинается интересное – подготовка моделей, проверка гипотез, эксперименты и интеграция в продукт. Поэтому важно найти компанию, чей продукт бы того стоил – приносил драйв и осознание крутости, – чтобы не пришлось тратить драгоценные 80% на то, что никому не принесет радость. Евгений Терпиль, дата-сайентист в YouScan, рассказывает о своей работе. 

Меня зовут Евгений Терпиль, я из YouScan (система мониторинга и анализа соцмедиа), работаю дата-сайентистом уже около 3 лет и за это время успел обучить не один десяток моделей.

Как проходит мой рабочий день

Свой рабочий день я начинаю с кофе и чтения англоязычных медиа. В моей профессии, если хочешь быть в курсе трендов, надо достаточно хорошо знать английский, чтобы читать о новых технологиях, ведь все самые последние интересные новости появляются в среде англоязычных разработчиков. В основном я читаю блоги на Medium и научные статьи на arxiv.org – архив электронных публикаций и препринтов Корнелльского университета, ставшего настолько популярным, что там стали публиковаться все основные новинки сферы data science и machine learning.

Также регулярно заглядываю в ODS (open data science) чат – это русскоязычное slack-коммьюнити для общения с единомышленниками, которое сейчас насчитывает более 12 тысяч пользователей. Из локальных ресурсов можно еще выделить группу в ВК Deep Learning и, конечно же, «Хабр», где всегда можно найти интересные кейсы, он вообще интересен своим прикладным контентом. Но все же первыми всегда появляются новости в англоязычных ресурсах, и за ними нужно следить.

В условиях глобализации разрыв между нашими дата-сайентистами и зарубежными уменьшается.

Большинство научных статей сейчас публикуются в открытом доступе. Тe же Google и Facebook регулярно выкладывают детальное описание работы их алгоритмов и широко анонсируют новые модели state-of-the-art на различных научных конференциях. Поэтому при наличии необходимого количества данных и вычислительных ресурсов даже небольшие компании могут позволить себе использовать такие же технологии, как и мировые гиганты.

Если же говорить про сервисы анализа соцмедиа, то тут все еще наблюдается некоторое отставание, которое в первую очередь связано с объемом рынка и развитием маркетинга. Например, функцию распознавания логотипов на фото пользователей западные коллеги запустили раньше. Зато мы в довольно короткие сроки смогли у себя построить систему, которая на многомиллионном потоке онлайн распознает и логотипы, и контекст изображения. При аналогичном качестве распознавания нам удалось сделать стоимость этой услуги в разы меньше западных аналогов.

Теперь мы можем находить упоминания бренда в соцмедиа, даже если в тексте нет его названия — достаточно, чтобы на опубликованной пользователем фотографии или картинке присутствовал логотип.

Итак, изрядно напившись кофе и начитавшись всего, что надо знать дата-сайентисту, я прихожу в офис, вместе с ребятами принимаюсь за свою работу. Это обработка и подготовка данных, проверка на них различных гипотез, составление моделей и их обучение. Само обучение происходит на основе supervised- и unsupervised-методов (по-нашему – с учителем и без учителя).

Если для части данных мы наперед знаем класс, к которому они относятся, например, тональность сообщения, то мы имеем дело с обучением с учителем. Наша задача заключается в том, чтобы по небольшой выборке обучить модель различать классы. Однако чаще готовой разметки в данных просто нет. В таком случае можно использовать методы обучение без учителя, которые помогают определить структуру данных и выделить различные кластеры.

Часто, помимо обучения модели, приходится проверять различные гипотезы на данных. Например, возникает гипотеза: «Пользователи, которые от нас уходят раньше других, не используют автоматические правила системы. Соответственно, нужно мотивировать их использовать данную функцию, чтобы они получали больше ценности от самого продукта, который у нас потребляют».

Звучит логично, но все равно нужно проверить, подтверждают ли это данные. Если корреляция между использованием автоправил с оттоком пользователей окажется действительно значимой, мы будем вносить изменения в продукт, стимулируя пользователей ее использовать. Однако в большинстве случаев лучше просто обучить модель и проанализировать, какие признаки больше всего влияют на отток пользователей. Там могут оказаться вполне неочевидные вещи, на которые никто бы никогда и не подумал и, соответственно, правильная гипотеза могла даже и не возникнуть.

В общем, рецепт простой: отдаем данные машине, которая уже знает, как обучаться, нажимаем кнопку и идем пить кофе, ожидая интересных инсайтов.

Команда YouScan на конференции #aiukraine2016

Так мы готовим и запускаем новые алгоритмы. Можем, конечно, не предугадать какие-то параметры, тогда придется переосмыслить модель и начать снова. Только путем многочисленных экспериментов и проверки альтернативных вариантов добиваешься эффекта.

Весь же процесс разработки «умной» фичи для нашей системы можно условно разбить на несколько этапов:

  • исследование (например, мы изучаем, какие в мире есть технологические подходы в распознавании картинок);

  • эксперимент (внедрение какой-то определенной модели на своих данных. Например, есть модель, по которой происходит распознавание котиков и собак на фото пользователей соцсетей и, возможно, позволит так же хорошо распознать колу и пепси. Но не факт – надо провести эксперимент);

  • прототип (этап proof of concept, мы допиливаем модель и вместе с разработчиками на основе ее строим сервис, который представляем на внутреннем demo);

  • внедрение в продукт (к процессу подключаются продуктологи, маркетологи, дизайнеры, чтобы сделать из всего, что мы наворотили, продукт, каким его будут видеть конечные пользователи).

Все! Победа! Идем праздновать или играть в настольный теннис у нас в офисе.

О профессии

В эту профессию идут люди, которые любят математику. Не стану спорить, наверное, можно из кого угодно сделать дата-сайентиста, если есть сильное желание. Но без фундаментальных знаний в математике и информатике будет довольно трудно: хотя бы на базовом уровне надо разбираться в теории алгоритмов, теорвере, матстате, численных методах, уметь программировать на Python. И надо по-настоящему болеть этим. Таких сразу видно – они постоянные участники всевозможных хакатонов, конференций, соревнований, имеют какие-то свои проекты на «Гитхабе», активно пишут на форумах и чатах.

5-ый Московский Data Fest. Data Fest — крупнейшая конференция, объединяющая исследователей, инженеров и разработчиков, связанных с data science, machine learning и artificial intelligence.

Когда меня спрашивают, что нужно делать, чтобы стать успешным дата-сайентистом, если не окончил специализированный вуз, я, конечно, советую пройти профориентационные онлайн-курсы. Coursera и другие MOOC-курсы – отличный трамплин для старта карьеры в DS. Отдельно стоит отметить платформу для соревнований Kaggle, на которой можно тестировать свои решения, обучаться, обладая доступом к множеству полезных материалов и решениям победителей различных machine learning-задач.

Сам я закончил Киевский политех и еще студентом интересовался нейронными сетями Social Network Analysis. Как многие другие, начал карьерный путь в роли фронтенд-разработчика в одном B2B-проекте. Однако при этом все время присматривался к Data Science и в YouScan решил окончательно переквалифицироваться. В основном мне как раз помогли специализированные онлайн-курсы и хороший математический бэкграунд. И моя история не уникальна, сейчас больше половины дата сайентистов – это бывшие разработчики, которые решили попробовать что-то новое. Если еще 5 лет назад количество вакансий, связанных с машинным обучением, можно было перечислить по пальцам, то сейчас их сотни, если не тысячи.

В моем отделе сейчас 5 человек. Этих пятерых мы подбирали довольно долго и единого подхода у нас не было. Кто-то нам сам писал с предложением, с кем-то познакомились на регулярных встречах комьюнити, недавно взяли интерна по результатам рейтинга курса по data science, в организации которого мы приняли участие.  В итоге сложилась команда, с которой мы делаем крутые проекты в СНГ.

Вот сейчас, например, мы занимаемся тем, что работаем с анализом тональности. Это, пожалуй, одновременно и самая классическая, и самая сложная задача в нашей индустрии.

Тональность – это вербальное выражение отношения к тому или иному предмету. Она бывает позитивная/нейтральная/негативная. Но ведь мы работаем с «живым» контентом, который генерируют пользователи в соцсетях, оттенки их позитива/негатива иногда трудно уловимы, а самое сложное – это ирония или сарказм, которые могут быть выражены в какой угодно тональности. А от ошибки в оценке высказывания иной раз зависит маркетинговая стратегия наших клиентов.

Новая модель на основе рекуррентных нейронных сетей лучше понимает специфику упоминания, за счет этого удалось уменьшить количество ошибок в несколько раз.

Еще одной сложностью при определении тональности является то, что одни и те же слова могут иметь как негативный, так и позитивный оттенок в зависимости от того, о чем именно идет речь. Например, «Фейри помог хорошо отмыть грязную кастрюлю» – позитивное упоминание, но когда кто-то пишет, что кока-кола помогла хорошо отмыть кастрюлю – то это негатив, поскольку кока-кола никак не заинтересована в том, чтобы их бренд ассоциировался с моющим средством.

Мы учим наш новый алгоритм справляться с подобными трудностями. В основе модели заложены глубокие нейронные сети с рекуррентными слоями памяти и слоями, которые выбирают на какой части сообщения концентрировать свое основное внимание в зависимости от контекста, объекта и тематики. Благодаря большой обучающей выборке мы смогли научить модель понимать, о чем и как говорят в социальных сетях, чтобы хорошо определять тональность для разных брендов с учетом их специфики. Поэтому при наличии размеченных данных, даже такие специфические кейсы, как в примере с кока-колой, не являются проблемой – алгоритм будет их «понимать».

Доклад YouScan о тональности на Data Fest 5.

Что будет дальше?

Дальше, анализ контента станет сложнее. Мы научимся анализировать и видео – от stories пользователей до каналов блогеров на YouTube. Ведь видео – это просто набор картинок, которые мы уже умеем анализировать.

В целом искусственный интеллект продолжит свое развитие. Однако не стоит забывать, что в течение всей своей истории ИИ знал много «зим». В основном они все были  связаны с завышенными ожиданиями индустрии в отношении таких систем. Так, после активного старта развития в 60-х многие ученые верили в возможность построения универсальных роботов уже через несколько десятков лет.

Однако на данный момент мы можем похвастаться разве что роботами пылесосами и автоматизацией только самых простых функций на предприятиях. Не смотря на то что за последние пару лет удалось разработать эффективные системы распознавания лиц, управления беспилотным автомобилем и многое другое, по сути своей, они являются слабым искусственным интеллектом, так как представляют собой лишь небольшой набор алгоритмов, заточенных под конкретную задачу (система, которая управляет автомобилем не сможет с вами сыграть в шахматы и наоборот).

Но я оптимист и верю, что рано или поздно, мы все-таки дойдем до сильного искусственного интеллекта и настоящих роботов.

Читать дальше
Twitter
Одноклассники
Мой Мир

материал с rb.ru

2

      Add

      You can create thematic collections and keep, for instance, all recipes in one place so you will never lose them.

      No images found
      Previous Next 0 / 0
      500
      • Advertisement
      • Animals
      • Architecture
      • Art
      • Auto
      • Aviation
      • Books
      • Cartoons
      • Celebrities
      • Children
      • Culture
      • Design
      • Economics
      • Education
      • Entertainment
      • Fashion
      • Fitness
      • Food
      • Gadgets
      • Games
      • Health
      • History
      • Hobby
      • Humor
      • Interior
      • Moto
      • Movies
      • Music
      • Nature
      • News
      • Photo
      • Pictures
      • Politics
      • Psychology
      • Science
      • Society
      • Sport
      • Technology
      • Travel
      • Video
      • Weapons
      • Web
      • Work
        Submit
        Valid formats are JPG, PNG, GIF.
        Not more than 5 Мb, please.
        30
        surfingbird.ru/site/
        RSS format guidelines
        500
        • Advertisement
        • Animals
        • Architecture
        • Art
        • Auto
        • Aviation
        • Books
        • Cartoons
        • Celebrities
        • Children
        • Culture
        • Design
        • Economics
        • Education
        • Entertainment
        • Fashion
        • Fitness
        • Food
        • Gadgets
        • Games
        • Health
        • History
        • Hobby
        • Humor
        • Interior
        • Moto
        • Movies
        • Music
        • Nature
        • News
        • Photo
        • Pictures
        • Politics
        • Psychology
        • Science
        • Society
        • Sport
        • Technology
        • Travel
        • Video
        • Weapons
        • Web
        • Work

          Submit

          Thank you! Wait for moderation.

          Тебе это не нравится?

          You can block the domain, tag, user or channel, and we'll stop recommend it to you. You can always unblock them in your settings.

          • rusbase
          • маркетинг
          • искусственный интеллект
          • роботы
          • домен rb.ru

          Get a link

          Спасибо, твоя жалоба принята.

          Log on to Surfingbird

          Recover
          Sign up

          or

          Welcome to Surfingbird.com!

          You'll find thousands of interesting pages, photos, and videos inside.
          Join!

          • Personal
            recommendations

          • Stash
            interesting and useful stuff

          • Anywhere,
            anytime

          Do we already know you? Login or restore the password.

          Close

          Add to collection

             

            Facebook

            Ваш профиль на рассмотрении, обновите страницу через несколько секунд

            Facebook

            К сожалению, вы не попадаете под условия акции