« Август 2022 »
Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

| 7 декабря 2012 | Информационные технологии

Что означают термины "Большие Данные" и "Эра больших данных"?

В последнее время в различных средствах массовой информации все чаще и чаще встречается термин "Большие Данные" и связанные с ним сообщения о начале "Эры больших данных". Сейчас мы попробуем прояснить что же на самом деле означают вышеупомянутые термины. В настоящий момент все человечество производит около 2.5 квинтиллионов байт информации в день и это слишком много для того, что бы обработать всю информацию силами обычного настольного компьютера. Поэтому добыча "самородков" полезной информации в этой огромной горе информационного мусора является одной из самых больших проблем, стоящих перед современным обществом.

Начиная с 1980-х годов информационная емкость увеличивается в два раза за 40 месяцев в пересчете на душу населения земного шара. В настоящее время совсем не трудно собрать и накопить огромные количества данных, их можно брать из любых доступных источников, из средств массовой информации, из Интернета, из квитанций онлайн-продаж и даже от считывателей RFID-идентификаторов. К примеру, сеть супермаркетов Walmart генерирует ежедневно записи о 1 миллионе продаж, известный сервис Twitter генерирует в сутки 12 терабайт информации, а эксперименты, проведенные на Большом Адронном Коллайдере (БАК) за 2010, стали источником 13 петабайт данных. И вот именно такие действительно громадные наборы разнообразных данных подразумеваются под универсальным термином "Большие Данные".

С "Большими Данными" вроде разобрались, теперь обратимся к проблеме, которую создает само их существование. Любые данные могут стать полезными лишь в том случае, если ими можно воспользоваться. Но для больших данных не подходят традиционные методы обработки информации, для них недостаточно вычислительных мощностей обычных компьютеров и функций потребительского программного обеспечения. Для того, что бы проанализировать огромный поток информации и отследить некоторые быстрые явления, такие как появление бозона Хиггса или мошенничество на кассе супермаркета явно недостаточно возможностей программ MS Access и MS Excel.

Для манипуляции наборами больших данных, для управления явлением "Больших Данных", помимо места для их хранения и коммуникационных каналов с огромной пропускной способностью, требуются аналитические инструменты нового поколения, опирающиеся на огромные вычислительные мощности, в том числе и на современные суперкомпьютеры. Примером этому может служить набор аналитического программного обеспечения Apache Hadoop Big Data Platform, который может работать на кластерах, состоящих из сотен и тысяч мощнейших серверов, реализующих модель широкомасштабной параллельной обработки и анализа баз данных.

Появление суперкомпьютеров и масштабных вычислительных систем, круглосуточно обрабатывающих огромные массивы информации, делая ее доступной восприятию и пониманию людьми, подразумевается под началом "эры больших данных". И большинство людей сами не подозревая этого практически каждый день пользуются результатами наступления этой эры, набирая фразу в строке поисковой системы, рассматривая снимки Земли в Google Earth и пользуясь другими многочисленными благами, предоставляемыми эрой цифровых технологий.

Ключевые слова:
Данные, Информация, Объем, Обработка, Анализ, Результат, Программа, Компьютер, Вычислительная, Система, Мощность, Суперкомпьютер, Сервер

Первоисточник

Другие новости по теме:

Объем данных, хранимых в информационном центре CERN, перевалил за отметку в 200 петабайт

CERN нуждается в Вашей помощи в деле поисков неуловимого бозона Хиггса.

Цифровой мир входит в эпоху Зеттабайта.

Кассеты с магнитной лентой - устройства хранения данных будущего

CERN открывает доступ к 300 Тб данных, собранных на Большом Адронном Коллайдере

| Комментарии: 3 |

7 декабря 2012 12:28

#1 Написал: EduardLt

Публикаций: 0
Комментариев: 0

Проблемы быть не должно, если изначально будут определены кластеры данных по их типу и тематике. Все что не будет подходить критериям, можно будет удалить в любой момент. Никто не будет читать все данный, люди всегда определяют свою линию отбора и следуют ей всю жизнь.

7 декабря 2012 14:20

#2 Написал: Saboteur

Публикаций: 0
Комментариев: 0

А как определить, что не подходит критериям? Для этого его нужно получить, прочитать, обработать и затем уже отбросить. А если от того же БАК поступает количество информации гораздо большее, чем влазит в гигабитный канал? Или оно поступает гораздо быстрее, чем идет проверка на ваши критерии?

Проблема есть, и растет.

20 декабря 2012 06:50

#3 Написал: fuchs

Публикаций: 0
Комментариев: 0

Ставьте информационную защиту в мозг) файерволл и тд.

Информация

Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.

Навигация

Мы в Сети

Календарь

Популярное

Облако тегов

Архивы

Счетчики

Что означают термины "Большие Данные" и "Эра больших данных"?

Информация