Во время сегодняшнего заседания дискуссионного клуба «Технологии и будущее» участники обсудили перспективы анализа на основе Big Data
Сегодняшняя тема нашего дискуссионного клуба «Технологии и будущее» посвящена «большим данным». Участники обсуждения попытались ответить, что такое Big Data, чем ограничены возможности анализа на основе «больших данных» и действительно ли Big Data понимает нас лучше, чем близкие. Помогала разобраться в этой сложной теме наш постоянный эксперт и автор Портала Виктория Агранович.
Big Data как новая нефть
Эпоха больших данных ставит под вопрос наш образ жизни и способ взаимодействия с миром. Поразительнее всего то, что обществу придется отказаться от понимания причинности в пользу простых корреляций: променять знание, почему, на что именно.
Виктор Майер – Шенбергер
Что такое Big Data
Термин «большие данные» был предложен Клиффордом Линчем в 2008 году. Именно он первым заговорил о взрывном росте объёмов информации в мире. К большим данным, в концепции Линча, «относились любые массивы неоднородных данных более 150 Гб в сутки». Однако единого критерия для определения «больших данных» до сих пор не существует.
В 2014 году популярность сервиса Big Data начала заметно увеличиваться. К его использованию прибегли ведущие мировые вузы. В особенности представители факультетов прикладной инженерии, а также обучавшиеся IT-специальностям. Немного позднее к университетам стали присоединяться IT-корпорации. Такие, как Microsoft, IBM, Oracle, EMC, а затем и Google, Apple, Facebook и Amazon.
Использование технологии Big Data
Большие данные прежде всего используют для того, чтобы анализировать, делать прогнозы, принимать оптимальные решения. Технология Big Data позволяет моделировать предметы, явления и процессы, и затем тестировать модели.
В распоряжении ФБР и ЦРУ с 2007 года появилась платформа — сервис PRISM. На сегодня она является одним из самых значимых сервисов. Эта платформа способна собирать персональные данные, которые обычные пользователи заносят в свой аккаунт в социальных сетях. Включая Microsoft, Google, Apple, Yahoo, а также записи телефонных разговоров.
Виктория Агранович, эксперт
Перед тем, как перейти к разговору о способах анализа больших данных, необходимо сделать несколько предварительных замечаний. Давайте вспомним слова известного когнитивного психолога Гэри Маркуса, который говорил: «Мы должны перестать делать вид, будто “большие данные” — это волшебство». Дело в том, что Big Data действительно могут помочь установить взаимосвязь. Но эта взаимосвязь никак не объясняет причины, следствия и закономерности. Только наука позволяет выявить законы, знание которых позволит решить ту или иную проблему.
Big Data и облачные хранилища
Технологический прогресс позволяет обращаться и обеспечивать мгновенный доступ к массивам. Помимо физических серверов, для хранения Big Data используют облачные хранилища, «озёра данных», или data lake — хранилища большого объёма неструктурированных данных из одного источника. А также Hadoop — фреймворк, который состоит из набора утилит для разработки и выполнения программ распределённых вычислений.
Благодаря внедрению новых высокоэффективных технологий — таких, как грид-вычисления или аналитика в оперативной памяти — компании используют произвольные объёмы больших данных для анализа.
Применяются «большие данные» для решения различных задач из области аналитики, где также используется искусственный интеллект.
«Большие данные» и выявление закономерностей
Статистика в изоляции годна лишь на то, чтобы отыскивать тенденции и корреляции, наблюдавшиеся в прошлом, исходя из предположения, что они сохранятся и дальше.
Эмануэль Дерман – специалист по количественному финансовому анализу.
Возможности Big Data действительно ограничены. Они могут, например, позволить выявить корреляцию между курением и раком легких. Но важна не просто корреляция сама по себе. Важно выявление причинно-следственных связей.
Виктория Агранович, эксперт
Согласна, анализ данных не способен заменить традиционные научные методы. Научному открытию всегда предшествует инсайт, озарение, догадка. Затем идет моделирование процессов, затем формулирование гипотезы и только потом – использование данных статистики. С другой стороны, нельзя не принимать во внимание мнение автора книги «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» Виктора Майера-Шенбергера: «Мы склонны предполагать причины даже там, где их нет».
Чтобы действительно понять, какая связь существует между раком легких и курением, нужно проводить многочисленные эксперименты. А также понимать, что такое процесс возобновления ДНК, какие существуют канцерогенные вещества и как они связаны с веществами-онкогенами.
Мы можем убедиться на этом примере, что использование больших данных не объяснит, каким образом курение связано с раком легких. Но, благодаря использованию Big Data, мы понимаем, что курящие болеют чаще и можем использовать этот факт в профилактической работе.
Способы анализа больших данных
Выделяют четыре основных метода анализа Big Data.
Описательный анализ
Наиболее распространенным является описательный анализ, или описательная аналитика. Она отвечает на вопрос «Что произошло?». А также анализирует исторические и оперативные данные. Основная цель метода — выяснить причины и закономерности успеха или неудачи в заданной области. Для того, чтобы впоследствии использовать эти данные для наиболее эффективных моделей. Основные математические функции используются для описательного анализа. Типичным примером являются данные социологических исследований или веб-статистика, которые компания получает через Google Analytics.
Виктория Агранович, эксперт
Широко известно высказывание председателя правления Сбербанка, Германа Грефа: «Всего 11-12 лайков достаточно, чтобы предсказания модели совпали с оценками [вашего поведения] коллегами, а 230 дадут нам возможность понимать вас лучше, чем ваши близкие». Смысл этого высказывания в том, что чем бы вы ни пользовались, вы обязательно оставляете цифровой след.
Predictive, или прогнозирующий анализ
Метод помогает предсказать наиболее вероятный ход событий на основе имеющихся данных. При этом используются готовые модели на основе любого предмета или явления с аналогичным набором характеристик. С помощью предиктивного анализа можно, например, рассчитать обвал или изменение цены на фондовом рынке. Или сделать выводы о способности потенциального заемщика погасить кредит.
Предписывающая аналитика
Это следующий уровень предиктивной аналитики. С помощью «больших данных» и современных технологий можно выявить болевые точки в бизнесе или любой другой деятельности и просчитать, при каком сценарии их можно избежать в будущем.
Aurora Health Care ежегодно экономит шесть миллионов долларов за счет предписывающей аналитики. Этот метод анализа позволяет компании сокращать повторные госпитализации на 10%.
Есть и пример авиакомпании American Airlines, которая сэкономила около сорока тысяч долларов в год, убрав из меню для пассажиров первого класса один дополняющий продукт – оливки.
Big Data понимает вас лучше, чем ваши близкие
Этот факт подтверждает история с несовершеннолетней беременной. Однажды сеть Target начала присылать несовершеннолетней беременной девушке купоны на товары для беременных. Отец девушки не знал, что она беременна. Он даже обвинил сеть в том, что она побуждает школьниц к рождению детей. Вот уж точно Big Data знает вас лучше, чем ваши близкие!
Не все закономерности, которые можно выявить при помощи Big Data, оригинальны и неочевидны. Например, в результате анализа поведения посетителей торговых центров была выявлена корреляция между посещением магазинов Big Size и ресторанов Burger King.
Технологии Big Data позволяют дифференцировать целевую аудиторию компании. Таким образом компания «Аэрофлот» получила неожиданную информацию о своих клиентах. Оказалось, что из тридцати двух миллионов человек, которые ежегодно пользуются услугами компании, только десять миллионов пассажиров являются уникальными. А половину выручки обеспечивает один миллион двести тысяч человек. Это помогло авиакомпании существенно сэкономить бюджет на рекламу. А также сделать выгодные предложения ядру своей целевой аудитории.
Виктория Агранович, эксперт
Почему «большие данные» сравнивают с нефтью? Потому что Big Data являются основой современной цифровой экономики. Ещё «большие данные» сравнивают с ураном. В этом веществе одни видят мощный энергетический ресурс, другие – опасность, в связи с его радиоактивностью. Так и Big Data, с одной стороны, является мощным информационным ресурсом, а с другой стороны – серьезной угрозой для конфиденциальной информации и приватной жизни.
Рубрики: Люди будущего о будущем и Футурология
Комментариев: 0 обсудить?