ПОДПИСКА НА ВЕБ-САЙТ. ПРЕИМУЩЕСТВА:
Доступ к эксклюзивным статьям на сайте
Приглашение на образовательные лекции и мастер-классы
Возможность просматривать на всех мобильных устройствах и планшетах
Отличная цена: всего 200 тг в месяц!
В начале XXI века объём данных, накопленных в мире за пару десятилетий усиленной информатизации, едва перевалил за 5 миллиардов гигабайт. К 2008 году объём данных вырос почти в 40 раз, главным образом за счёт широчайшего распространения мультимедиа-технологий. а в наши дни глобальное количество данных достигло 7 зеттабайт (1 зеттабайт — это триллион гигабайт.).
Эта статья была опубликована в журнале OYLA №7(23). Оформить подписку на печатную и онлайн-версию можно здесь.
Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных. Это решение проблем и альтернатива традиционным системам управления данными.
Если на заре информатизации главная проблема была — «как хранить данные», теперь же насущным становится вопрос — «как организовать оперативный доступ к ним». Под доступом следует понимать прежде всего возможность корректного и релевантного поиска.
Здесь уместно провести аналогию с библиотекой. Если весь фонд описан, пронумерован и рассортирован, картотека регулярно исправляется и дополняется, найти нужное издание — дело нескольких минут, в современных компьютеризованных хранилищах, располагающих миллионами и миллионами единиц хранения — вообще секунд. А если книги (немного, всего лишь тысяча-другая) свалены просто в кучу? Тогда даже элементарный поиск становится проблемой, для решения которой нужно много времени и сил. Нелегко иметь дело с кучей разнородной информации, мало связанной между собой и абсолютно неупорядоченной.
Однако, как говорили древние, хаос — это другая степень порядка. Идея обработки гигантских объёмов разнообразных данных, наряду с облачными вычислениями и развитием методов анализа, стала новым вектором информатизации, основанном на предположении об их глубинной связи. Она станет ещё актуальней в самом близком будущем: по прогнозам International Data Corporation (IDC), ведущей консалтинговой компании, специализирующейся на компьютерной тематике, объём глобальных данных к 2020 году достигнет 45–50 зеттабайт, а рынок программно-аппаратных комплексов для обработки и анализа гигантских объёмов информации вырастет до 150–200 миллиардов долларов.
Львиная доля «пирога» данных будет генерироваться корпоративными участниками. Это вселяет надежды на некоторую систематизацию «сырой» информации. Сам же модный термин Big Data, введённый в оборот в 2008 году редактором журнала Nature Клиффордом Линчем, означает не столько сам объём цифровых данных, а комплекс специализированных методов их обработки. Порогом, за которым наступает необходимость их применять, принят поток не менее 100 гигабайт в сутки.
Из каких же источников формируется эта информационная река? Во-первых, это документы, так или иначе попадающие в сеть. До тех пор, пока служебная записка формата Microsoft Word или Libre Office хранится на вашем персональном компьютере, она является вашей собственностью, но как только вы отправите её по инстанции, она превращается в объект Big Data. Страшно представить, сколько таких докладов, презентаций, отчётов, публикаций, таблиц, диаграмм и модных фотографий ежесекундно пополняет мировой водопад информации!
Второй источник — социальные сети и блоги. Социальная сеть Facebook насчитывает почти 2 миллиарда активных пользователей в месяц: это 6 миллиардов лайков и комментариев, 300 миллионов фотографий.
Следующие по значимости — аудио/видеоисточники. Камеры слежения, регистраторы, коммуникационные и вещательные сети, персональное видео, выложенное на видеохостинги — вот далеко неполный перечень каналов, которые нуждаются в отслеживании. С учётом массового распространения форматов высокого и сверхвысокого разрешения (видео HD и UHD, звук с высоким битрейтом или вообще в lossless) просто принять и сохранить всё это уже непросто.
И, наконец, многочисленные контрольно-измерительные устройства: бесконечные датчики, анализаторы, мониторы и прочая электронная мелочь, непрерывно снабжающие процессоры систем управления цифровой «пищей». В «голове» любого мало-мальски современного предприятия — системы контроля и управления, связанные с внешним миром многочисленными каналами коммуникаций, в том числе и через Интернет. Сюда же можно отнести и научно-исследовательские системы: ускорители элементарных частиц (включая Большой Адронный Коллайдер), астрономические обсерватории, оснащённые ультрасовременными телескопами, химико-биологические лаборатории и многое другое, вносящее свою лепту в цифровой ураган.
Очевидно, что обычные методы обработки информации для такого потока информации не годятся, хотя некоторые классические принципы (например, реляционных баз данных) не потеряли своей актуальности. Прежде всего попробуем разобраться, как изменился сам характер информационных взаимодействий. Поставим простейшую задачу: вы продаёте некий технический товар, который нужно сопровождать сервисом (запасные части, расходные материалы и т. д.), а также время от времени обновлять. Решение несложное — простая база данных, которая заполняется на основе покупательских анкет. Вести её может любой достаточно квалифицированный сотрудник, даже офис-менеджер в перерыве между пасьянсом и чаепитием.
Но вот дела пошли в гору, и теперь за вашим товаром выстраивается очередь. У сотрудника уже не остаётся времени на пасьянсы, и он со злостью 8 часов подряд вбивает данные в базу. А последняя всё разрастается и разрастается, доходит до того, что на обработку простейшего запроса не хватает ресурсов дешёвого компьютера позапрошлого поколения. Ваши действия? Нанять ещё несколько человек с расчётом на работу только с клиентской базой, попутно организовав нечто вроде сервера баз данных (им может стать новый производительный компьютер) и локальных терминалов, на которых будут работать операторы. В терминологии IT-индустрии такое решение получило название масштабирование по вертикали (scale up), оно означает расширение ресурсов вычислительного узла.
А теперь закроем глаза и представим, что под вашим мудрым руководством продажи взлетели до небес и вам теперь нужен полноценный интернет-магазин. Это значит, что теперь масштаб и объём коммуникаций вырастут на порядок, а необходимость оперативной и корректной обработки станет доминирующей. Что делать теперь?
И здесь на сцену выступает горизонтальное масштабирование (scale out), смысл которого — добавление дополнительных вычислительных узлов, которым совершенно необязательно обладать выдающейся производительностью. «Изюминка» — в организации работы! Сотни «слабых» офисных компьютеров, объединённые в кластер, обеспечивают совокупную мощь, сравнимую с возможностями ультрадорогих суперкомпьютеров. А несколько таких кластеров — это и есть та самая цифровая «мельница», которой под силу решение проблем Big Data.
По мнению авторитетного эксперта Дайона Хинчклифа, вице-президента и старшего аналитика компании Constellation Research, при объёме данных в несколько терабайт доступен метод Fast Data, позволяющий детализировать происходящие процессы в рамках существующих теорий. В известной степени результаты применения Fast Data (на этом уровне работают СУБД Oracle Exadata, Verica и др.) мы можем наблюдать на примере контекстной рекламы, досаждающей на поисковых порталах. Стоит вам погуглить, например, про серебряные ложечки, как на вас обрушивается поток рекламы посуды!
ПОДПИСКА НА ВЕБ-САЙТ. ПРЕИМУЩЕСТВА:
Доступ к эксклюзивным статьям на сайте
Приглашение на образовательные лекции и мастер-классы
Возможность просматривать на всех мобильных устройствах и планшетах
Отличная цена: всего 200 тг в месяц!
ПОДПИСКА НА ПЕЧАТНОЕ ИЗДАНИЕ. ПРЕИМУЩЕСТВА:
Самое интересное в научных дисциплинах и технологиях простым языком
Высокое качество печати
Выходит 12 раз в год
Бесплатная доставка до двери по всему Казахстану
Доступ к архиву и новым номерам