Большие данные имеют безграничный потенциал развития. Давайте выясним, что такое большие данные и три причины, почему они стали популярными только в 2010 году.


В какой-то момент мы начали сталкиваться с незнакомым словом «большие данные» в различных средствах массовой информации. Прошло всего несколько лет с тех пор, как эти слова вошли в обиход. Однако в последнее время средства массовой информации настолько злоупотребляют этим понятием, что такие выражения, как «маркетинг с использованием больших данных», теперь кажутся нам скучными. Так что же такого особенного в больших данных и интеллектуальном анализе данных, что делает их такими популярными?

Большие данные буквально означают огромный набор данных. Любые данные, которые можно хранить на носителе, от простых чисел до сложных изображений камер видеонаблюдения, могут стать большими данными, если собрать их вместе в набор, независимо от формата. Другими словами, с формальной стороны данных нет никакой разницы между предыдущими данными и большими данными. Однако если большие данные — это просто данные большого размера, они должны были бы быть такими же популярными, как сейчас, в конце 1990-х — начале 2000-х годов, когда компьютерные технологии быстро развивались. Однако есть три причины, по которым большие данные стали популярны только в 2010-х годах:

Прежде всего, главная причина — это смена парадигмы в разработке процессоров. ЦП (центральный процессор) — это мозг компьютера, выполняющий вычислительные задачи. В прошлом темпы развития были настолько быстрыми, что широкое признание получил закон Мура, гласящий, что производительность процессора удваивается каждые 18 месяцев. Однако в 2004 году развитие процессоров достигло предела, получившего название «стена 4 ГГц». Раньше направлением развития ЦП было увеличение быстродействия одного процессора за счет увеличения количества транзисторов (вычислительных элементов), вставляемых в одно ядро ​​(вычислительный блок). Однако у этого метода была серьезная проблема с нагревом, поскольку по мере увеличения интеграции транзисторов площадь рассеивания тепла для каждого транзистора уменьшалась. Производителям процессоров в конечном итоге не удалось решить эту проблему с нагревом. В результате интеграция транзисторов не превысила определенного уровня, а частота работы одного ядра осталась на отметке 4 ГГц. Однако вместо увеличения количества транзисторов в ядре производители процессоров нашли другие способы решения проблемы нагрева. Новый прорыв был достигнут путем разработки многоядерного процессора, который включал в себя несколько ядер внутри процессора. В то время как существующие одноядерные процессоры обрабатывают несколько задач по порядку с помощью одного ядра, многоядерные процессоры увеличивают скорость обработки за счет разделения и распараллеливания нескольких задач на несколько ядер и их одновременной обработки. Эти многоядерные процессоры становятся все более популярными, и развивается технология параллельных вычислений, которая одновременно обрабатывает данные. В результате теперь можно быстрее и проще обрабатывать огромные объемы данных, которые раньше было невозможно обработать из-за ограничений скорости вычислений.

Не только популяризация многоядерных процессоров, но и развитие носителей информации сыграли большую роль в открытии эры больших данных. В случае жестких дисков, типичных носителей данных, данные хранятся на металлических пластинах, называемых пластинами. Были разработаны такие технологии, как улучшенная интеграция магнитных записей и многоядерные процессоры для вставки нескольких пластин в один жесткий диск. Благодаря этому емкость хранилища резко возросла до такой степени, что в 2023-х годах стали популярны продукты с объемом памяти 8 ТБ, тогда как в 1990-х годах он составлял всего 1 ГБ. Кроме того, в отличие от относительно медленного жесткого диска, появились новые носители данных с высокой скоростью, такие как SSD (твердотельный накопитель). Стало проще использовать большие объемы данных, которые раньше нельзя было сохранить из-за недостаточного места для хранения или которые было трудно обработать из-за низкой скорости чтения и записи, даже если они были сохранены.

Достижения в области ЦП и средств хранения данных позволили использовать большие объемы данных, которые ранее невозможно было вычислить или сохранить. Однако фундаментальное различие между сегодняшними большими данными и прошлыми большими данными заключается в способе сбора данных. Смарт-устройства и социальные сети, которые стали быстро популярными в 2010-х годах, изменили парадигму сбора данных. Интеллектуальные устройства, прямо или косвенно подключенные к сети, собирают пользовательские данные с помощью различных датчиков, таких как камеры, GPS (система глобального позиционирования) и NFC (связь ближнего радиуса действия). И эти данные постоянно загружаются в сеть. Кроме того, пользователи социальных сетей, таких как Facebook и Twitter, постоянно загружают в сеть свою различную личную информацию. Раньше сбор данных осуществлялся для получения только конкретных целевых данных, которые субъект сбора данных считал важными. Однако текущий сбор данных неизбирательно собирает огромные объемы данных, проходящих через сеть через интеллектуальные устройства и социальные сети. Кроме того, по мере постепенного развития сетевых технологий увеличивается количество типов объектов, подключенных к сети. Другими словами, с появлением Интернета вещей (IOT) область сбора данных расширяется еще больше.

Таким образом, концепция больших данных возникла благодаря гармоничному сочетанию развития многоядерных процессоров, развития носителей информации и расширения сферы сбора данных. В настоящее время многочисленные компании, правительства и другие группы изучают собранные ими большие данные в поисках сокровищ, а различные средства массовой информации подчеркивают важность больших данных. Но самое главное, что нам нужно учитывать в отношении больших данных, так это то, что нынешние большие данные — это только начало. В будущем будут развиваться многоядерные процессоры, которые смогут выполнять более быстрые вычисления одновременно, а носители данных будут развиваться, чтобы иметь возможность быстрее хранить больше данных. И все больше и больше вещей будут подключаться к сети и отправлять в сеть собранные ими данные. Нынешние большие данные, которые мы сейчас воспринимаем как большие, возможно, вообще не будут такими большими в наступающую эпоху больших данных.