html текст
All interests
  • All interests
  • Design
  • Food
  • Gadgets
  • Humor
  • News
  • Photo
  • Travel
  • Video
Click to see the next recommended page
Like it
Don't like
Add to Favorites

Проблема больших данных в городских исследованиях

Урбанист Алексей Новиков о визуализации больших данных, официальной статистике в развивающихся странах и проектировании крупных аэропортов

ПостНаука продолжает рассказывать о современных технологиях в проекте «Банк знаний», подготовленном совместно с Корпоративным университетом Сбербанка.

Проблемы с большими данными существуют, и они делятся на несколько категорий. Первая категория — проблемы безопасности данных, хранения, обеспечения работы с ними в агрегированном виде. И компании, которые работают на этом рынке, более или менее научились решать этот вопрос. В частности, решение состоит в том, что все данные хранятся внутри периметра безопасности тех компаний, которые их собирают. А уже те, кто их обрабатывает, запускают туда свои алгоритмы, обобщают их до того состояния, что они уже более не содержат никаких чувствительных данных, затем пересылают их в свои платформы и уже дальше визуализируют.

Вторая, пожалуй, главная проблема ― придумать механизм собственно обработки больших данных, который позволял бы их воспринимать. Потому что на то они и большие данные, что плохо структурированы и их воспринять невозможно. И пожалуй, единственный способ их воспринять ― это их визуализировать. И визуализация ― умная визуализация, аналитическая визуализация, а не просто рисование красивых картинок ― это, пожалуй, тоже очень важная проблема. И здесь на рынке есть конкуренция. То есть тот, кто лучше визуализирует, тот, кто лучше представит ту характеристику процессов, которую эти данные обозначают, и победит в этой борьбе.

Третий очень существенный вопрос связан с новыми метриками и новыми подходами в оценке тех явлений, которые описывают эти данные. К ним так же, как к обычной статистике, подходить невозможно. Они совершенно по-другому устроены. Они дают вам гораздо больше возможностей. И вы можете сделать то, о чем вы раньше даже не мечтали. Например, есть тема в корпоративном секторе, work-life: какое время человек тратит на работу, какое время он тратит на жизнь. Считается, что на работу мы тратим 12% своей жизни, но реально в течение какой-то рабочей недели, рабочего дня рабочий человек тратит гораздо больше. И эта проблема очень важна. Ее нужно измерить не только для того, чтобы мы поняли, сколько мы тратим на работу и сколько на жизнь, а чтобы поняли это различного рода бизнесы, которые нас обслуживают.

И понять, куда идет это соотношение, в какую сторону сдвигается, можно очень легко с помощью больших данных, потому что они фиксируют наше положение, время, в котором мы находимся, наше настроение и так далее. И в этом смысле такие неожиданные индикаторы, просто поставленные вопросы не от статистики, а от нашего понимания процесса: работа и жизнь, приверженность месту, продуктивное время в том или ином месте и так далее. Все это очень легко можно понять, но при этом нужно это придумать, нужно правильно сформулировать вопрос. Постановка вопроса здесь гораздо важнее, чем сами данные. Они абсолютное золото, но из него надо сделать ювелирное изделие. Кто это может сделать? Тот, кто поставит правильные вопросы и создаст правильную метрику.

И наконец, можно говорить о том, насколько точны эти большие данные, насколько в них присутствует информационный шум и что они реально могут нам сказать. И это на самом деле вопрос тоже очень важный. И здесь на него есть несколько ответов.

Прежде всего, конечно же, само покрытие: объем покрытия настолько велик, что даже если мы отбросим все шумы, которые там существуют, откалибруем эти данные по социально-демографическим категориям, учитывая, что люди пожилого возраста меньше, например, пользуются интернетом или мобильным телефоном и так далее, тем не менее даже при этом сжатии объем информации на несколько порядков превышает объем, который нам позволяет выборка любого социологического опроса. А с другой стороны, когда речь идет о каких-то возможных допущениях и ошибках, то они действительно есть. Но ущерб от этих ошибок и допущений намного меньше, чем та ценность, которую приносит вообще владение этой информацией. И в данном случае просто нужно привыкнуть к немного другому подходу. Вы получаете такой неожиданный объем информации, причем в осмысленном виде. И если там и существуют какие-то отдельные ошибки, они не определяют никакой погоды, они не влияют на общее качество результата. Они дают нам возможность автоматизированным образом достигать невероятных информационных глубин.

Пожалуй, единственным способом понять большие данные является способ их визуализации. Их можно увидеть. Впервые такого рода визуализационные схемы появились на рынке акций, на денежном, биржевом рынке. Сейчас более 75% всей биржевой торговли осуществляется роботами, алгоритмами, то есть индивидуальному инвестору невозможно в это вникнуть и принять решение. Алгоритмы принимают решения за миллисекунды. Это почти невозможно понять и в это невозможно встроиться, если у вас нет какого-то простого механизма, который позволяет вам увидеть, куда движется рынок: в сторону акций отдельных компаний, какого-то сектора или из акций в облигации, от крупных компаний к мелким. Для того чтобы это видел инвестор, который не обладает этими алгоритмами, придумана система визуализации с помощью различного рода диаграмм, схем, ландшафтных схем. Это все можно уловить.

Для города это еще проще, поскольку в городе есть карта, у него есть как бы временная шкала, мы можем понять, когда какая информация появляется. И первое, что мы делаем, ― визуализируем эти данные. Это одна из проблем качественной визуализации данных. А первая проблема — это проблема тщательного хранения этих данных, обеспечение нераскрываемости чувствительной информации, но при этом возможность использовать эти данные в агрегированном виде. И сейчас эта проблема решается. То есть тот, кто отвечает за сохранность, эти данные хранит. Но алгоритмы, которые их преобразуют и в обобщенном виде передают в платформу общего пользования, ― это и есть алгоритмы очистки и визуализации этих данных. Причем когда визуальный материал передается от одного источника к другому, его невозможно назад преобразовать в исходную цифру или в исходную информацию. Он не подвержен реинжинирингу. И таким образом и безопасность сохраняется, и скорость передачи информации увеличивается.

Возникает визуализационная модель, но в данном случае очень важно, чтобы эта модель показывала вам те городские процессы, которые вы как бы раньше не могли даже увидеть: какие-то миграции внутри города, их рисунок, настроение людей. Вы даже помыслить об этом не могли.

И следующая проблема, как мне кажется, очень важная, поскольку с данными все более-менее научились работать, а спрос на аналитику после того, как появился этот ресурс, вырос десятикратно. Эти данные не решили аналитические проблемы прошлого, они поставили новые, гораздо более интересные, потому что подумать о том, что можно было бы сделать, имея эти данные, раньше мы не могли. А теперь мы имеем эти данные и должны придумать альтернативную статистику, альтернативные метрики.

Что это такое? Например, раньше мы не могли измерить приверженность к конкретному месту. Люди любят в него ходить, они о нем пишут, они там тратят деньги, бывают и так далее. Есть такое английское выражение ― place attachment. То есть люди приходят и хотят там каким-то образом находиться. И это отличается, например, от узнаваемости места, то есть place visibility. Место может быть очень узнаваемым, очень ярким, но там совершенно не хочется быть, оно транзитное. Например, на Times Square в Нью-Йорке только туристы, туда местные вообще не ходят. Оно транзитное, его все знают во всем мире. А есть какие-то маленькие, небольшие квартальчики, которые любимы конкретной категорией людей, и они там появляются и к ним привязаны.

Очень интересная вещь существует сейчас ― метрика, которая называется dwell time. Это время, проведенное в конкретном месте с некоторой пользой. В основном этим интересуются, например, аэропорты, поскольку основной их доход идет не от платы за посадку авиакомпаниями ― это только часть порядка 20–25%. Остальное ― это еда, парковки, гостиницы. И это вся прилегающая территория, которая ему принадлежит. Там и общественный транспорт, и стоянки такси, и какие-то логистические компании, склады. И им, конечно, важно, чтобы человек, у которого есть деньги и который может принести доход с этой территории, оставался там как можно дольше, чтобы он не сел в такси и сразу не уехал, а поел, остановился в гостинице, поработал, может, даже снял там квартиру на время, пока он приехал в этот город, и так далее.

Сейчас такие проекты делают крупные аэропорты мира вроде Хитроу, JFK (это аэропорт Джон Кеннеди в Нью-Йорке). Они пытаются эту абсолютно странную территорию вокруг себя, которая представляет собой охвостья разных терминалов, логистических компаний, каких-то автобусных остановок и пустырей, преобразовать в нормальную городскую среду. И единственным индикатором для них, чтобы померить, насколько градостроительная политика в отношении этих территорий реализуется, является измерение времени, сколько там находится человек, а также с какой пользой, сколько он тратит там денег, тратит ли вообще. И весь комплекс индикаторов, который описывается как время, проведенное в этом месте, чрезвычайно важен именно для того, чтобы оценить экономический эффект от проводимых преобразований.

Такого рода индикаторы умножаются с каждой попыткой проанализировать какой-то новый сектор. И есть еще одна интересная особенность и одновременно некоторая проблема: такого рода альтернативная статистика может быть вообще единственным источником данных в развивающихся странах, где нет вообще никакой государственной статистики. Если мы здесь говорим, что государственная статистика отстает на год или же на два, она очень грубая, мы ею пользоваться для анализа какой-то динамики городской среды не можем, то в развивающихся странах и той нет. В каком-нибудь Нигере или в Чаде нормальной статистики в принципе не существует. Или существует настолько ангажированная и настолько неточная, что ею пользоваться невозможно. Но то, что там точно есть, ― это мобильные телефоны практически у всех жителей. И это фантастический ресурс, для того чтобы понять очень много об этом городе и этих людях.

В контракте на мобильный телефон есть возраст, пол, страна происхождения. По траектории движения можно понять, ездит ли человек на индивидуальном автомобиле, идет ли он пешком, пользуется ли он общественным транспортом. По тарифу можно примерно прикинуть, какой у него доход, пользуется ли он интернет-трафиком и так далее. Это все перепроверяется. Это все необязательно так просто, как я говорю, потому что есть способы это перепроверить, сделать какую-то реальную выборку, которая нам покажет эти данные во всей чистоте. И дальше уже мы можем, по сути дела, создать систему альтернативных индикаторов, которая нам покажет и социально-демографические параметры населения, и концентрацию населения, сделать прекрасный прогноз дорожного движения, понять ценности населения через социальные сети, которыми они также пользуются, коммерческие ценности, культурные ценности, их ожидания.

Таким образом эти страны перепрыгивают тот сложный этап с обычной статистикой, которой пользовались в конце XIX века, весь XX и в начале XXI века. У них ее не было, а сейчас появляется совершенно другая статистика, другие источники информации. И в известной степени более надежная и более гранулированная, которая имеет намного больше смысла для тех организаций, которые занимаются, в частности, развитием этих стран, делают там проекты для международных финансовых организаций и так далее. Они все страдают без нормальной информации. Им нужно посчитать доходности инвестиций, а они этого сделать не могут, и тут оказывается, что есть такие фантастические источники. Помимо этого есть, естественно, сенсоры, Wi-Fi-точки, есть космические снимки. Это все та же самая спонтанная информация, которая укладывается в большие платформы и дает нам очень хорошие индикаторы.

Читать дальше
Twitter
Одноклассники
Мой Мир

материал с postnauka.ru

1

      Add

      You can create thematic collections and keep, for instance, all recipes in one place so you will never lose them.

      No images found
      Previous Next 0 / 0
      500
      • Advertisement
      • Animals
      • Architecture
      • Art
      • Auto
      • Aviation
      • Books
      • Cartoons
      • Celebrities
      • Children
      • Culture
      • Design
      • Economics
      • Education
      • Entertainment
      • Fashion
      • Fitness
      • Food
      • Gadgets
      • Games
      • Health
      • History
      • Hobby
      • Humor
      • Interior
      • Moto
      • Movies
      • Music
      • Nature
      • News
      • Photo
      • Pictures
      • Politics
      • Psychology
      • Science
      • Society
      • Sport
      • Technology
      • Travel
      • Video
      • Weapons
      • Web
      • Work
        Submit
        Valid formats are JPG, PNG, GIF.
        Not more than 5 Мb, please.
        30
        surfingbird.ru/site/
        RSS format guidelines
        500
        • Advertisement
        • Animals
        • Architecture
        • Art
        • Auto
        • Aviation
        • Books
        • Cartoons
        • Celebrities
        • Children
        • Culture
        • Design
        • Economics
        • Education
        • Entertainment
        • Fashion
        • Fitness
        • Food
        • Gadgets
        • Games
        • Health
        • History
        • Hobby
        • Humor
        • Interior
        • Moto
        • Movies
        • Music
        • Nature
        • News
        • Photo
        • Pictures
        • Politics
        • Psychology
        • Science
        • Society
        • Sport
        • Technology
        • Travel
        • Video
        • Weapons
        • Web
        • Work

          Submit

          Thank you! Wait for moderation.

          Тебе это не нравится?

          You can block the domain, tag, user or channel, and we'll stop recommend it to you. You can always unblock them in your settings.

          • PostNauka
          • университет
          • исследования
          • домен postnauka.ru

          Get a link

          Спасибо, твоя жалоба принята.

          Log on to Surfingbird

          Recover
          Sign up

          or

          Welcome to Surfingbird.com!

          You'll find thousands of interesting pages, photos, and videos inside.
          Join!

          • Personal
            recommendations

          • Stash
            interesting and useful stuff

          • Anywhere,
            anytime

          Do we already know you? Login or restore the password.

          Close

          Add to collection

             

            Facebook

            Ваш профиль на рассмотрении, обновите страницу через несколько секунд

            Facebook

            К сожалению, вы не попадаете под условия акции