Big Data: что это, как искать, хранить и использовать

Что такое большие данные? Большие данные — это комбинация структурированных, полуструктурированных и неструктурированных данных, собранных организациями, которые можно извлечь для получения информации и использовать в проектах машинного обучения, прогнозном моделировании и других передовых аналитических приложениях.

Что Такое Big Data Как Искать, Хранить И Использовать

Системы, обрабатывающие и хранящие большие данные, стали распространенным компонентом архитектур управления в организациях в сочетании с инструментами, поддерживающими использование аналитики больших данных. Большие данные характеризуются тремя V:

большой объем (volume) данных во многих средах;
разнообразие (variety) типов данных, часто хранящихся в системах больших данных;
скорость (velocity), с которой большая часть данных генерируется, собирается и обрабатывается.

Эти характеристики больших данных впервые определены в 2001 году Дугом Лейни, в то время аналитиком консалтинговой фирмы Meta Group Inc. Gartner еще больше популяризировала их после приобретения Meta Group в 2005 году. Недавно к описаниям больших данных добавлен ряд других V, включая достоверность (veracity), ценность (value) и изменчивость (variability).

Биг дата это развертывание больших данных, включающих в себя терабайты, петабайты и даже эксабайты информации, созданной и собранной с течением времени.

Почему важны большие данные?

Многие компании используют неструктурированные данные в системах для улучшения операционной деятельности, повышения клиентского сервиса, создания таргетированных маркетинговых кампаний и принятия других мер, которые помогают увеличить доходы и прибыль. Организации, использующие ИТ, обладают конкурентным преимуществом перед компаниями, которые игнорируют технический прогресс, так как способны принимать скоростные и обоснованные бизнес-решения.

Например, Big Data предоставляют информацию о клиентах, которую руководители фирм могут использовать для совершенствования маркетинга, рекламы и рекламных акций с целью повышения вовлеченности клиентов и коэффициента конверсии. Как исторические, так и данные в реальном времени могут быть проанализированы для оценки меняющихся предпочтений потребителей или корпоративных покупателей, что позволяет компаниям чутко реагировать на желания и потребности клиентов.

Технологии Big Data также используются медицинскими исследователями для выявления признаков болезней и факторов риска, а также врачами для диагностики. Комбинация сведений из электронных медицинских карт, сайтов социальных сетей и других источников предоставляет организациям здравоохранения и государственным учреждениям информацию об угрозах или вспышках инфекционных заболеваний.

Еще примеры того, где используется Big Data:

В энергетической отрасли большие данные помогают нефтегазовым компаниям определять места бурения и контролировать работу трубопроводов; аналогичным образом, коммунальные службы используют их для отслеживания электрических сетей.
Фирмы, предоставляющие финансовые услуги, используют системы Big Data для управления рисками и анализа рынка в режиме Real-time.
Производители и транспортные компании полагаются на большие данные для управления цепочками поставок и оптимизации маршрутов доставки.
Другие виды использования правительством включают реагирование на чрезвычайные ситуации, предупреждение преступности и инициативы «умного города»

Каковы примеры больших данных?

Источники больших данных — это базы клиентов, документы, email-ы, медицинские записи, журналы кликов в Интернете, мобильные приложения и социальные сети. Это могут быть данные, сгенерированные машиной, такие как файлы журналов сети и сервера, а также показания с датчиков на производственных машинах, промышленном оборудовании и устройствах Интернета вещей.

В дополнение к информации из внутренних систем, среды больших данных часто включают внешние показатели о потребителях, финансовых рынках, погодных и дорожных условиях, географической информации, научных исследованиях и проч. Изображения, видео и аудиофайлы — также формы больших данных, и ряд приложений включает потоковые данные, которые обрабатываются и собираются на постоянной основе.

Разбивка V-х больших данных

Объем - часто упоминаемая характеристика больших данных. Методы обработки больших данных позволяют не содержать большой объем информации, но большинство из них содержат их из-за характера собираемых и хранимых в них сведений. Потоки кликов, системные журналы и системы потоковой обработки относятся к числу источников, которые на постоянной основе производят огромные массивы информации.

Big Data также охватывают расширенный спектр типов информации, включая следующие:

структурированные — транзакции и финансовые отчеты;
неструктурированные — текст, документы и мультимедийные файлы;
полуструктурированные — журналы веб-сервера и потоковые данные с датчиков.

Способы хранения информации в базах данных позволяют организовать совместное хранение и управление различными их типами. Кроме того, приложения для работы с базами часто включают в себя информационные наборы, которые могут не быть интегрированы заранее. Например, проект по анализу больших данных может попытаться спрогнозировать продажи продукта путем сопоставления данных о прошлых продажах, возвратах, онлайн-отзывах и звонках в службу поддержки клиентов.

Немало зависит от скорости, с которой генерируются данные, которые должны быть обработаны и проанализированы. Очень часто Big Data обновляются в режиме реального или почти реального времени вместо ежедневных, еженедельных или ежемесячных обновлений, выполняемых в традиционных хранилищах. Управление скоростью передачи данных также важно, поскольку анализ Big Data расширяется до машинного обучения и искусственного интеллекта (ИИ), где аналитические процессы автоматически находят закономерности в данных и используют их для получения информации.

Дополнительные характеристики больших данных

Заглядывая за рамки первоначальных трех V, вот подробная информация о некоторых других, которые теперь часто ассоциируются с большими данными:

Достоверность относится к степени точности наборов данных и их надежности. Необработанная информация, собранная из различных источников, может вызвать проблемы с качеством файлов, которые трудно определить. Если они не устраняются с помощью процессов очистки, то приводят к ошибкам анализа, которые могут подорвать ценность инициатив в области бизнес-аналитики. Команды управления базами и аналитики также должны убедиться, что у них хватит точных данных для получения достоверных результатов.
Некоторые эксперты по обработке массивов также добавляют ценность в список характеристик больших данных. Не все собранные данные имеют деловую ценность или преимущества. В результате организациям необходимо подтвердить, что собранная информация относится к соответствующим бизнес-вопросам, прежде чем они будут использоваться в проектах по анализу Big Data.
Вариативность также часто применяется к наборам больших данных, которые могут иметь несколько значений или быть по-разному отформатированы в отдельных источниках информации-факторы, которые еще больше усложняют управление большими данными и аналитику.

Как хранятся и обрабатываются большие данные?

Работа с большими данными сильно зависит от того, как они будут сохранены. Большие данные часто хранятся в озере данных (DataLake). Хранилища строятся на основе реляционных баз и содержат только структурированные файлы, озера данных могут поддерживать различные типы данных и, как правило, основаны на кластерах Hadoop, облачных службах хранения объектов, базах данных NoSQL или других платформах больших данных.

Часто среды больших данных объединяют несколько систем в распределенной архитектуре, где хранить данные. К примеру, центральное озеро данных может быть интегрировано с другими платформами, включая реляционные базы или хранилище данных. Информация в системах больших данных может быть оставлена в необработанном виде, а затем отфильтрована и организована по мере необходимости для конкретных аналитических целей. В других случаях она предварительно обрабатывается с помощью инструментов интеллектуального анализа и программного обеспечения для подготовки данных, поэтому готова для приложений, которые регулярно запускаются.

Обработка больших данных предъявляет высокие требования к базовой вычислительной инфраструктуре. Требуемая вычислительная мощность часто обеспечивается кластерными системами, которые распределяют рабочие нагрузки по обработке на сотнях или тысячах товарных серверов, используя такие технологии, как Hadoop и механизм обработки Spark. Каждая технология хранения информации совершенствуется со временем.

Получение производственных мощностей экономически эффективным способом является сложной задачей. В результате облако является популярным местом для систем больших данных. Организации могут развертывать свои собственные облачные системы или использовать управляемые приложения «большие данные как услуга» от облачных провайдеров (Big Data компании), например платформу timeweb.cloud. Пользователи могут увеличить необходимое количество серверов ровно настолько, чтобы завершить проекты по анализу больших данных. Бизнес платит только за используемое им время хранения и вычислений.

Как работает аналитика больших данных

Чтобы получать достоверные и релевантные результаты из приложений проводится анализ больших данных. Специалисты по обработке данных должны иметь четкое представление о доступных данных и понимать, что такое инструменты Big Data. Это делает подготовку данных, которая включает профилирование, очистку, проверку и преобразование наборов данных, первым шагом в процессе аналитики.

Как только нужная информация собрана и подготовлена, в дело вступают приложения с использованием инструментов, обеспечивающих функции и возможности анализа Big Data. Методы анализа больших данных включают машинное обучение, прогнозное моделирование, интеллектуальный анализ данных, статистический анализ, интеллектуальный анализ текста и т. д. Относится сюда и потоковая аналитика Big Data.

Используя информацию клиентов в качестве примера, разделы аналитики, которые можно выполнять с наборами больших данных, включают следующее:

Сравнительный анализ. При этом анализируются показатели поведения клиентов и взаимодействие с ними в режиме реального времени, чтобы сравнить продукты, услуги и брендинг компании и ее конкурентов.
Прослушивание в социальных сетях. Это анализ того, что люди говорят в социальных сетях о бизнесе или продукте, что может помочь определить потенциальные проблемы и целевую аудиторию для маркетинговых кампаний.
Маркетинговая аналитика. Это обработка информации, которая может быть использована для улучшения маркетинговых кампаний и рекламных предложений для продуктов, услуг и бизнес-инициатив.
Анализ настроений. Информация, собранная о клиентах, может быть проанализирована, чтобы выявить их отношение к компании или бренду, уровень удовлетворенности клиентов, проблемы и способы улучшения обслуживания.

Технологии управления большими данными

Hadoop, платформа распределенной обработки с открытым исходным кодом, выпущенная в 2006 году, изначально находилась в центре большинства Big Data технологий. Развитие Spark и других движков обработки данных отодвинуло MapReduce, движок, встроенный в Hadoop, в сторону. Результатом является технология больших данных, используемых для разных приложений, но часто развертываются вместе.

Платформы больших данных и управляемые сервисы, предлагаемые ИТ-поставщиками, объединяют многие из этих технологий в одном пакете, в первую очередь для использования в облаке. Рассмотрим эти предложения, перечисленные в алфавитном порядке:

Amazon EMR (эластичный MapReduce)
Платформа Cloudera
Google Cloud Dataproc
Структура данных HPE Ezmeral (платформа MapR)
Microsoft Azure HDInsight

Для компании, которые хотят самостоятельно развертывать системы больших данных, будь то локально или в облаке, технологии, доступные им в дополнение к Hadoop и Spark, включают следующие категории инструментов:

хранилища, как основной инструмент сбора хранения и переработки информации — файловая система Hadoop (HDFS) и облачные службы хранения объектов, которые включают службу Amazon Simple Storage Service (S3), облачное хранилище Google и хранилище больших двоичных объектов Azure;
структуры управления кластерами, такие как Kubernetes, Mesos и YARN, встроенный менеджер ресурсов и планировщик заданий Hadoop, который означает еще один переговорщик по ресурсам, но обычно известен только под аббревиатурой;
механизмы потоковой обработки: Flink, Hudi, Kafka, Samza, Storm, а также модули потоковой передачи и структурированной потоковой передачи, встроенные в Spark;
базы данных NoSQL, включающие Cassandra и Couchbase, CouchDB и HBase. Также — центр обработки данных MarkLogic, MongoDB, Neo4j, Redis и другие технологии;
озеро данных и платформы хранилища больших данных, в том числе Amazon Redshift, Delta Lake, Google BigQuery, Kylin и Snowflake;
механизмы SQL-запросов, такие как Drill, Hive, Impala, Presto и Trino.

Проблемы с большими данными

Хотя эксперты по обработке данных стараются улучшить качество данных и сделать аналитические алгоритмы надежнее (невосприимчивыми к проблемам), анализ больших данных не идеален. Пока невозможно решить некоторые проблемы:

Несовершенная аналитика
Поспешное технологическое развитие
Техно-неопределенность
Нехватка экспертов
Негативное социальное воздействие

Ключи к эффективной стратегии больших данных

В организации создание стратегии больших данных требует понимания бизнес-целей и информации, которая доступна для использования, а также оценки потребности в дополнительных данных для достижения целей. Шаги, которые необходимо предпринять, включают следующее:

определение приоритетов запланированных вариантов использования и приложений;
определение новых систем и инструментов, которые необходимы;
создание дорожной карты развертывания;
оценка внутренних навыков, чтобы определить, требуется ли переподготовка или прием на работу.

Для того чтобы наборы Big Data были чистыми, согласованными и использовались нужным образом, программы и процессы управления качеством данных также должны быть приоритетными. Другие методы управления и анализа больших данных включают сосредоточение внимания на потребностях бизнеса в информации с использованием доступных технологий и использование визуализации больших данных для облегчения поиска и анализа.

09 февраля 2022 г.

4396

12 минут чтения

Вход / Регистрация

Что такое Big Data: как искать, хранить и использовать

Почему важны большие данные?

Каковы примеры больших данных?

Разбивка V-х больших данных

Дополнительные характеристики больших данных

Как хранятся и обрабатываются большие данные?

Как работает аналитика больших данных

Технологии управления большими данными

Проблемы с большими данными

Ключи к эффективной стратегии больших данных

Сервисы

Решения

Инструменты

Партнерам

Техподдержка

Компания