20 декабря 2018 г. | Автор: Редакция OYLA
Что такое Big Data

В начале XXI века объём данных, накопленных в мире за пару десятилетий усиленной информатизации, едва перевалил за 5 миллиардов гигабайт. К 2008 году объём данных вырос почти в 40 раз, главным образом за счёт широчайшего распространения мультимедиа-технологий. а в наши дни глобальное количество данных достигло 7 зетта­байт (1 зеттабайт — это триллион гигабайт.).

Эта статья была опубликована в журнале OYLA №7(23). Оформить подписку на печатную и онлайн-версию можно здесь.

Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных. Это решение проблем и альтернатива традиционным системам управления данными.

Если на заре информатизации главная проблема была — «как хранить данные», теперь же насущным становится вопрос — «как организовать оперативный доступ к ним». Под доступом следует понимать прежде всего возможность корректного и релевантного поиска.

Здесь уместно провести аналогию с библиотекой. Если весь фонд описан, пронумерован и рассортирован, картотека регулярно исправляется и дополняется, найти нужное издание — дело нескольких минут, в современных компьютеризованных хранилищах, располагающих миллионами и миллионами единиц хранения — вообще секунд. А если книги (немного, всего лишь тысяча-другая) свалены просто в кучу? Тогда даже элементарный поиск становится проблемой, для решения которой нужно много времени и сил. Нелегко иметь дело с кучей разнородной информации, мало связанной между собой и абсолютно неупорядоченной.

​Дальше – больше

Однако, как говорили древние, хаос — это другая степень порядка. Идея обработки гигантских объёмов разнообразных данных, наряду с облачными вычислениями и развитием методов анализа, стала новым вектором информатизации, основанном на предположении об их глубинной связи. Она станет ещё актуальней в самом близком будущем: по прогнозам International Data Corporation (IDC), ведущей консалтинговой компании, специализирующейся на компьютерной тематике, объём глобальных данных к 2020 году достигнет 45–50 зеттабайт, а рынок программно-аппаратных комплексов для обработки и анализа гигантских объёмов информации вырастет до 150–200 миллиардов долларов.

Львиная доля «пирога» данных будет генерироваться корпоративными участниками. Это вселяет надежды на некоторую систематизацию «сырой» информации. Сам же модный термин Big Data, введённый в оборот в 2008 году редактором журнала Nature Клиффордом Линчем, означает не столько сам объём цифровых данных, а комплекс специализированных методов их обработки. Порогом, за которым наступает необходимость их применять, принят поток не менее 100 гигабайт в сутки.

​Истоки потопа

Из каких же источников формируется эта информационная река? Во-первых, это документы, так или иначе попадающие в сеть. До тех пор, пока служебная записка формата Microsoft Word или Libre Office хранится на вашем персональном компьютере, она является вашей собственностью, но как только вы отправите её по инстанции, она превращается в объект Big Data. Страшно представить, сколько таких докладов, презентаций, отчётов, публикаций, таблиц, диаграмм и модных фотографий ежесекундно пополняет мировой водопад информации!

Второй источник — социальные сети и блоги. Социальная сеть Facebook насчитывает почти 2 миллиарда активных пользователей в месяц: это 6 миллиардов лайков и комментариев, 300 миллионов фотографий.

Следующие по значимости — аудио/видеоисточники. Камеры слежения, регистраторы, коммуникационные и вещательные сети, персональное видео, выложенное на видеохостинги — вот далеко неполный перечень каналов, которые нуждаются в отслеживании. С учётом массового распространения форматов высокого и сверхвысокого разрешения (видео HD и UHD, звук с высоким битрейтом или вообще в lossless) просто принять и сохранить всё это уже непросто.

И, наконец, многочисленные контрольно-измерительные устройства: бесконечные датчики, анализаторы, мониторы и прочая электронная мелочь, непрерывно снабжающие процессоры систем управления цифровой «пищей». В «голове» любого мало-мальски современного предприятия — системы контроля и управления, связанные с внешним миром многочисленными каналами коммуникаций, в том числе и через Интернет. Сюда же можно отнести и научно-исследовательские системы: ускорители элементарных частиц (включая Большой Адронный Коллайдер), астрономические обсерватории, оснащённые ультрасовременными телескопами, химико-биологические лаборатории и многое другое, вносящее свою лепту в цифровой ураган.

​Слишком хорошо – нехорошо

Очевидно, что обычные методы обработки информации для такого потока информации не годятся, хотя некоторые классические принципы (например, реляционных баз данных) не потеряли своей актуальности. Прежде всего попробуем разобраться, как изменился сам характер информационных взаимодействий. Поставим простейшую задачу: вы продаёте некий технический товар, который нужно сопровождать сервисом (запасные части, расходные материалы и т. д.), а также время от времени обновлять. Решение несложное — простая база данных, которая заполняется на основе покупательских анкет. Вести её может любой достаточно квалифицированный сотрудник, даже офис-менеджер в перерыве между пасьянсом и чаепитием.

Но вот дела пошли в гору, и теперь за вашим товаром выстраивается очередь. У сотрудника уже не остаётся времени на пасьянсы, и он со злостью 8 часов подряд вбивает данные в базу. А последняя всё разрастается и разрастается, доходит до того, что на обработку простейшего запроса не хватает ресурсов дешёвого компьютера позапрошлого поколения. Ваши действия? Нанять ещё несколько человек с расчётом на работу только с клиентской базой, попутно организовав нечто вроде сервера баз данных (им может стать новый производительный компьютер) и локальных терминалов, на которых будут работать операторы. В терминологии IT-индустрии такое решение получило название масштабирование по вертикали (scale up), оно означает расширение ресурсов вычислительного узла.

А теперь закроем глаза и представим, что под вашим мудрым руководством продажи взлетели до небес и вам теперь нужен полноценный интернет-магазин. Это значит, что теперь масштаб и объём коммуникаций вырастут на порядок, а необходимость оперативной и корректной обработки станет доминирующей. Что делать теперь? 

​«Мельницы» данных

И здесь на сцену выступает горизонтальное масштабирование (scale out), смысл которого — добавление дополнительных вычислительных узлов, которым совершенно необязательно обладать выдающейся производительностью. «Изюминка» — в организации работы! Сотни «слабых» офисных компьютеров, объединённые в кластер, обеспечивают совокупную мощь, сравнимую с возможностями ультрадорогих суперкомпьютеров. А несколько таких кластеров — это и есть та самая цифровая «мельница», которой под силу решение проблем Big Data.

«Сырьём» для неё являются данные, отвечающие так называемым параметрам «3V» — они объёмны (volume), быстро изменяемы (velocity) и многообразны (variety). В последнее время к ним стали добавлять и требования достоверности (veracity) и содержательной ценности (value). По большому счёту, смысл сверх­усилий современной IT-индустрии заключается в добывании новых знаний из гигантских «залежей» исходного материала. Применительно к нашей гипотетической фирме это значит, что отныне разумнее не развивать свой изолированный data-­сегмент, а стать частью глобальной мегабазы, частично потеряв суверенитет, но взамен обретя многоуровневые аналитические инструменты.
​Три шага к «Богу»

По мнению авторитетного эксперта Дайона ­Хинчклифа, вице-­президента и старшего аналитика компании Constellation Research, при объёме данных в несколько терабайт доступен метод Fast Data, позволяющий детализировать происходящие процессы в рамках существующих теорий. В известной степени результаты применения Fast Data (на этом уровне работают СУБД Oracle Exadata, Verica и др.) мы можем наблюдать на примере контекстной рекламы, досаждающей на поисковых порталах. Стоит вам погуглить, например, про серебряные ложечки, как на вас обрушивается поток рекламы посуды!

Уровень Big Analytics оперирует с данными на 3–5 порядков выше. Главная его особенность — применение мощных экспертных квазиинтеллектуальных систем, совершенствующихся в процессе обучения. С их помощью уже можно добывать новые знания на основе анализа существующей информации. Такие комплексы, построенные по технологии MapReduce (автоматическое распараллеливание данных и их обработка на вычислительных кластерах), могут обыгрывать в шахматы гроссмейстеров, анализировать данные научных исследований, с высокой степенью вероятности прогнозировать погоду и «прокручивать» сценарии геополитических катаклизмов.

К самому высокому уровню, названному Дайоном Хинчклиффом Deep Insight, ещё предстоит подобраться. Здесь речь идёт уже о глобальной самоообучающейся интеллектуальной системе, располагающей неограниченными вычислительными мощностями и применяющей самые изощрённые аналитические методы. Формальная цель — обнаружение знаний и закономерностей, априори неизвестных.
Но на пути к ней возможны и побочные эффекты вроде приступов шизофрении цифрового «Бога», который вдруг посчитает, что люди с их ограничениями и запретами, вроде законов робототехники Азимова, ему вроде и не нужны… Кто знает, какие призраки прячутся в урагане Big Data?