В последнее время в различных средствах массовой информации все чаще и чаще встречается термин "Большие Данные" и связанные с ним сообщения о начале "Эры больших данных". Сейчас мы попробуем прояснить что же на самом деле означают вышеупомянутые термины. В настоящий момент все человечество производит около 2.5 квинтиллионов байт информации в день и это слишком много для того, что бы обработать всю информацию силами обычного настольного компьютера. Поэтому добыча "самородков" полезной информации в этой огромной горе информационного мусора является одной из самых больших проблем, стоящих перед современным обществом.
Начиная с 1980-х годов информационная емкость увеличивается в два раза за 40 месяцев в пересчете на душу населения земного шара. В настоящее время совсем не трудно собрать и накопить огромные количества данных, их можно брать из любых доступных источников, из средств массовой информации, из Интернета, из квитанций онлайн-продаж и даже от считывателей RFID-идентификаторов. К примеру, сеть супермаркетов Walmart генерирует ежедневно записи о 1 миллионе продаж, известный сервис Twitter генерирует в сутки 12 терабайт информации, а эксперименты, проведенные на Большом Адронном Коллайдере (БАК) за 2010, стали источником 13 петабайт данных. И вот именно такие действительно громадные наборы разнообразных данных подразумеваются под универсальным термином "Большие Данные".
С "Большими Данными" вроде разобрались, теперь обратимся к проблеме, которую создает само их существование. Любые данные могут стать полезными лишь в том случае, если ими можно воспользоваться. Но для больших данных не подходят традиционные методы обработки информации, для них недостаточно вычислительных мощностей обычных компьютеров и функций потребительского программного обеспечения. Для того, что бы проанализировать огромный поток информации и отследить некоторые быстрые явления, такие как появление бозона Хиггса или мошенничество на кассе супермаркета явно недостаточно возможностей программ MS Access и MS Excel.
Для манипуляции наборами больших данных, для управления явлением "Больших Данных", помимо места для их хранения и коммуникационных каналов с огромной пропускной способностью, требуются аналитические инструменты нового поколения, опирающиеся на огромные вычислительные мощности, в том числе и на современные суперкомпьютеры. Примером этому может служить набор аналитического программного обеспечения Apache Hadoop Big Data Platform, который может работать на кластерах, состоящих из сотен и тысяч мощнейших серверов, реализующих модель широкомасштабной параллельной обработки и анализа баз данных.
Появление суперкомпьютеров и масштабных вычислительных систем, круглосуточно обрабатывающих огромные массивы информации, делая ее доступной восприятию и пониманию людьми, подразумевается под началом "эры больших данных". И большинство людей сами не подозревая этого практически каждый день пользуются результатами наступления этой эры, набирая фразу в строке поисковой системы, рассматривая снимки Земли в Google Earth и пользуясь другими многочисленными благами, предоставляемыми эрой цифровых технологий.
Ключевые слова:
Данные,
Информация,
Объем,
Обработка,
Анализ,
Результат,
Программа,
Компьютер,
Вычислительная,
Система,
Мощность,
Суперкомпьютер,
Сервер
Первоисточник
Другие новости по теме:
Объем данных, хранимых в информационном центре CERN, перевалил за отметку в 200 петабайтCERN нуждается в Вашей помощи в деле поисков неуловимого бозона Хиггса.Цифровой мир входит в эпоху Зеттабайта.Кассеты с магнитной лентой - устройства хранения данных будущегоCERN открывает доступ к 300 Тб данных, собранных на Большом Адронном Коллайдере