Что означают термины "Большие Данные" и "Эра больших данных"?

Данные


В последнее время в различных средствах массовой информации все чаще и чаще встречается термин "Большие Данные" и связанные с ним сообщения о начале "Эры больших данных". Сейчас мы попробуем прояснить что же на самом деле означают вышеупомянутые термины. В настоящий момент все человечество производит около 2.5 квинтиллионов байт информации в день и это слишком много для того, что бы обработать всю информацию силами обычного настольного компьютера. Поэтому добыча "самородков" полезной информации в этой огромной горе информационного мусора является одной из самых больших проблем, стоящих перед современным обществом.

Начиная с 1980-х годов информационная емкость увеличивается в два раза за 40 месяцев в пересчете на душу населения земного шара. В настоящее время совсем не трудно собрать и накопить огромные количества данных, их можно брать из любых доступных источников, из средств массовой информации, из Интернета, из квитанций онлайн-продаж и даже от считывателей RFID-идентификаторов. К примеру, сеть супермаркетов Walmart генерирует ежедневно записи о 1 миллионе продаж, известный сервис Twitter генерирует в сутки 12 терабайт информации, а эксперименты, проведенные на Большом Адронном Коллайдере (БАК) за 2010, стали источником 13 петабайт данных. И вот именно такие действительно громадные наборы разнообразных данных подразумеваются под универсальным термином "Большие Данные".

С "Большими Данными" вроде разобрались, теперь обратимся к проблеме, которую создает само их существование. Любые данные могут стать полезными лишь в том случае, если ими можно воспользоваться. Но для больших данных не подходят традиционные методы обработки информации, для них недостаточно вычислительных мощностей обычных компьютеров и функций потребительского программного обеспечения. Для того, что бы проанализировать огромный поток информации и отследить некоторые быстрые явления, такие как появление бозона Хиггса или мошенничество на кассе супермаркета явно недостаточно возможностей программ MS Access и MS Excel.

Для манипуляции наборами больших данных, для управления явлением "Больших Данных", помимо места для их хранения и коммуникационных каналов с огромной пропускной способностью, требуются аналитические инструменты нового поколения, опирающиеся на огромные вычислительные мощности, в том числе и на современные суперкомпьютеры. Примером этому может служить набор аналитического программного обеспечения Apache Hadoop Big Data Platform, который может работать на кластерах, состоящих из сотен и тысяч мощнейших серверов, реализующих модель широкомасштабной параллельной обработки и анализа баз данных.

Появление суперкомпьютеров и масштабных вычислительных систем, круглосуточно обрабатывающих огромные массивы информации, делая ее доступной восприятию и пониманию людьми, подразумевается под началом "эры больших данных". И большинство людей сами не подозревая этого практически каждый день пользуются результатами наступления этой эры, набирая фразу в строке поисковой системы, рассматривая снимки Земли в Google Earth и пользуясь другими многочисленными благами, предоставляемыми эрой цифровых технологий.



Ключевые слова:
Данные, Информация, Объем, Обработка, Анализ, Результат, Программа, Компьютер, Вычислительная, Система, Мощность, Суперкомпьютер, Сервер

Первоисточник

Другие новости по теме:
  • Объем данных, хранимых в информационном центре CERN, перевалил за отметку в 200 петабайт
  • CERN нуждается в Вашей помощи в деле поисков неуловимого бозона Хиггса.
  • Цифровой мир входит в эпоху Зеттабайта.
  • Кассеты с магнитной лентой - устройства хранения данных будущего
  • CERN открывает доступ к 300 Тб данных, собранных на Большом Адронном Коллайдере




  • 7 декабря 2012 12:28
    #1 Написал: EduardLt

    Публикаций: 0
    Комментариев: 0
    Проблемы быть не должно, если изначально будут определены кластеры данных по их типу и тематике. Все что не будет подходить критериям, можно будет удалить в любой момент. Никто не будет читать все данный, люди всегда определяют свою линию отбора и следуют ей всю жизнь.
        
    7 декабря 2012 14:20
    #2 Написал: Saboteur

    Публикаций: 0
    Комментариев: 0
    А как определить, что не подходит критериям? Для этого его нужно получить, прочитать, обработать и затем уже отбросить. А если от того же БАК поступает количество информации гораздо большее, чем влазит в гигабитный канал? Или оно поступает гораздо быстрее, чем идет проверка на ваши критерии?

    Проблема есть, и растет.
        
    20 декабря 2012 06:50
    #3 Написал: fuchs

    Публикаций: 0
    Комментариев: 0
    Ставьте информационную защиту в мозг) файерволл и тд.
        

    Информация

    Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.