Что такое большие данные? Большие данные — это комбинация структурированных, полуструктурированных и неструктурированных данных, собранных организациями, которые можно извлечь для получения информации и использовать в проектах машинного обучения, прогнозном моделировании и других передовых аналитических приложениях.
Системы, обрабатывающие и хранящие большие данные, стали распространенным компонентом архитектур управления в организациях в сочетании с инструментами, поддерживающими использование аналитики больших данных. Большие данные характеризуются тремя V:
Эти характеристики больших данных впервые определены в 2001 году Дугом Лейни, в то время аналитиком консалтинговой фирмы Meta Group Inc. Gartner еще больше популяризировала их после приобретения Meta Group в 2005 году. Недавно к описаниям больших данных добавлен ряд других V, включая достоверность (veracity), ценность (value) и изменчивость (variability).
Биг дата это развертывание больших данных, включающих в себя терабайты, петабайты и даже эксабайты информации, созданной и собранной с течением времени.
Многие компании используют неструктурированные данные в системах для улучшения операционной деятельности, повышения клиентского сервиса, создания таргетированных маркетинговых кампаний и принятия других мер, которые помогают увеличить доходы и прибыль. Организации, использующие ИТ, обладают конкурентным преимуществом перед компаниями, которые игнорируют технический прогресс, так как способны принимать скоростные и обоснованные бизнес-решения.
Например, Big Data предоставляют информацию о клиентах, которую руководители фирм могут использовать для совершенствования маркетинга, рекламы и рекламных акций с целью повышения вовлеченности клиентов и коэффициента конверсии. Как исторические, так и данные в реальном времени могут быть проанализированы для оценки меняющихся предпочтений потребителей или корпоративных покупателей, что позволяет компаниям чутко реагировать на желания и потребности клиентов.
Технологии Big Data также используются медицинскими исследователями для выявления признаков болезней и факторов риска, а также врачами для диагностики. Комбинация сведений из электронных медицинских карт, сайтов социальных сетей и других источников предоставляет организациям здравоохранения и государственным учреждениям информацию об угрозах или вспышках инфекционных заболеваний.
Еще примеры того, где используется Big Data:
Источники больших данных — это базы клиентов, документы, email-ы, медицинские записи, журналы кликов в Интернете, мобильные приложения и социальные сети. Это могут быть данные, сгенерированные машиной, такие как файлы журналов сети и сервера, а также показания с датчиков на производственных машинах, промышленном оборудовании и устройствах Интернета вещей.
В дополнение к информации из внутренних систем, среды больших данных часто включают внешние показатели о потребителях, финансовых рынках, погодных и дорожных условиях, географической информации, научных исследованиях и проч. Изображения, видео и аудиофайлы — также формы больших данных, и ряд приложений включает потоковые данные, которые обрабатываются и собираются на постоянной основе.
Объем - часто упоминаемая характеристика больших данных. Методы обработки больших данных позволяют не содержать большой объем информации, но большинство из них содержат их из-за характера собираемых и хранимых в них сведений. Потоки кликов, системные журналы и системы потоковой обработки относятся к числу источников, которые на постоянной основе производят огромные массивы информации.
Big Data также охватывают расширенный спектр типов информации, включая следующие:
Способы хранения информации в базах данных позволяют организовать совместное хранение и управление различными их типами. Кроме того, приложения для работы с базами часто включают в себя информационные наборы, которые могут не быть интегрированы заранее. Например, проект по анализу больших данных может попытаться спрогнозировать продажи продукта путем сопоставления данных о прошлых продажах, возвратах, онлайн-отзывах и звонках в службу поддержки клиентов.
Немало зависит от скорости, с которой генерируются данные, которые должны быть обработаны и проанализированы. Очень часто Big Data обновляются в режиме реального или почти реального времени вместо ежедневных, еженедельных или ежемесячных обновлений, выполняемых в традиционных хранилищах. Управление скоростью передачи данных также важно, поскольку анализ Big Data расширяется до машинного обучения и искусственного интеллекта (ИИ), где аналитические процессы автоматически находят закономерности в данных и используют их для получения информации.
Заглядывая за рамки первоначальных трех V, вот подробная информация о некоторых других, которые теперь часто ассоциируются с большими данными:
Работа с большими данными сильно зависит от того, как они будут сохранены. Большие данные часто хранятся в озере данных (DataLake). Хранилища строятся на основе реляционных баз и содержат только структурированные файлы, озера данных могут поддерживать различные типы данных и, как правило, основаны на кластерах Hadoop, облачных службах хранения объектов, базах данных NoSQL или других платформах больших данных.
Часто среды больших данных объединяют несколько систем в распределенной архитектуре, где хранить данные. К примеру, центральное озеро данных может быть интегрировано с другими платформами, включая реляционные базы или хранилище данных. Информация в системах больших данных может быть оставлена в необработанном виде, а затем отфильтрована и организована по мере необходимости для конкретных аналитических целей. В других случаях она предварительно обрабатывается с помощью инструментов интеллектуального анализа и программного обеспечения для подготовки данных, поэтому готова для приложений, которые регулярно запускаются.
Обработка больших данных предъявляет высокие требования к базовой вычислительной инфраструктуре. Требуемая вычислительная мощность часто обеспечивается кластерными системами, которые распределяют рабочие нагрузки по обработке на сотнях или тысячах товарных серверов, используя такие технологии, как Hadoop и механизм обработки Spark. Каждая технология хранения информации совершенствуется со временем.
Получение производственных мощностей экономически эффективным способом является сложной задачей. В результате облако является популярным местом для систем больших данных. Организации могут развертывать свои собственные облачные системы или использовать управляемые приложения «большие данные как услуга» от облачных провайдеров (Big Data компании), например платформу timeweb.cloud. Пользователи могут увеличить необходимое количество серверов ровно настолько, чтобы завершить проекты по анализу больших данных. Бизнес платит только за используемое им время хранения и вычислений.
Чтобы получать достоверные и релевантные результаты из приложений проводится анализ больших данных. Специалисты по обработке данных должны иметь четкое представление о доступных данных и понимать, что такое инструменты Big Data. Это делает подготовку данных, которая включает профилирование, очистку, проверку и преобразование наборов данных, первым шагом в процессе аналитики.
Как только нужная информация собрана и подготовлена, в дело вступают приложения с использованием инструментов, обеспечивающих функции и возможности анализа Big Data. Методы анализа больших данных включают машинное обучение, прогнозное моделирование, интеллектуальный анализ данных, статистический анализ, интеллектуальный анализ текста и т. д. Относится сюда и потоковая аналитика Big Data.
Используя информацию клиентов в качестве примера, разделы аналитики, которые можно выполнять с наборами больших данных, включают следующее:
Hadoop, платформа распределенной обработки с открытым исходным кодом, выпущенная в 2006 году, изначально находилась в центре большинства Big Data технологий. Развитие Spark и других движков обработки данных отодвинуло MapReduce, движок, встроенный в Hadoop, в сторону. Результатом является технология больших данных, используемых для разных приложений, но часто развертываются вместе.
Платформы больших данных и управляемые сервисы, предлагаемые ИТ-поставщиками, объединяют многие из этих технологий в одном пакете, в первую очередь для использования в облаке. Рассмотрим эти предложения, перечисленные в алфавитном порядке:
Для компании, которые хотят самостоятельно развертывать системы больших данных, будь то локально или в облаке, технологии, доступные им в дополнение к Hadoop и Spark, включают следующие категории инструментов:
Хотя эксперты по обработке данных стараются улучшить качество данных и сделать аналитические алгоритмы надежнее (невосприимчивыми к проблемам), анализ больших данных не идеален. Пока невозможно решить некоторые проблемы:
В организации создание стратегии больших данных требует понимания бизнес-целей и информации, которая доступна для использования, а также оценки потребности в дополнительных данных для достижения целей. Шаги, которые необходимо предпринять, включают следующее:
Для того чтобы наборы Big Data были чистыми, согласованными и использовались нужным образом, программы и процессы управления качеством данных также должны быть приоритетными. Другие методы управления и анализа больших данных включают сосредоточение внимания на потребностях бизнеса в информации с использованием доступных технологий и использование визуализации больших данных для облегчения поиска и анализа.