Как переплыть озеро данных и не утонуть

От проблем к решению, от решения — к новым проблемам

Эта бесконечная спираль не обошла и Big Data. Какие горизонты открывались на первых порах! Ознакомившись с теорией, бизнес приготовился превращать горы мусора, то есть потоки неструктурированных данных, в слитки золота. Самая ничтожная информация, собранная в огромные массивы и проанализированная, обещала подарить ценные знания, которые помогут бизнесу нарастить обороты и стать эффективнее, чем вчера. И ведь казалось, что эти знания могут быть получены просто, почти даром, ведь количество данных у современной компании растет в геометрической прогрессии. Но нельзя перерыть горы данных вручную. Нужна «лопата», а точнее, целый парк инструментов и работников, которые смогут применить инструмент правильно.

Сначала оказалось, что все эти мелкие данные: сведения о транзакциях, логи действий, пользователи, метаданные, сведения о состоянии машин и систем, персональная информация и так далее — годятся в дело, но, как и настоящий мусор, они должны быть сначала очищены, унифицированы, рассортированы, размечены. И это только первый шаг. Отделы аналитики данных столкнулся с тем, что их работа — это долго и дорого, тогда как бизнесу их выводы нужны «ещё вчера».

Это та же самая проблема, на которую до исследователей данных напоролись разработчики ПО. Пока они доводили до ума программное обеспечение, бизнесу требовалась новая функция, в то время как третья сторона процесса — отдел, который занимается развертыванием и внедрением систем в тело корпорации, и вовсе не горел желанием внедрять новшества. Как известно, лучший принцип, которым руководствуется как инженер, так и системный администратор, такой: «работает — не трогай». Однако конечных пользователей этот подход устроить не мог.

Восстановить связь между исследователями данных и бизнесом, сократить время между анализом неструктурированных данных и тем моментом, когда пользователь сможет вкусить плод нового знания, была призвана методология — DataOps.

Чем отличается методология от технологии?

В данном случае тем, что она меняет культуру работы в компании. Вернее, связь тут обратная. Компания должна изменить культуру своей работы, чтобы достичь целей. В случае с Big Data цель — максимально раскрыть потенциал накопленных данных и сделать так, чтобы они попадали в нужное время нужным людям. Данные не должны храниться в замке с драконом, куда нет доступа никому, кроме аналитиков. Результат анализа не должен быть понятен и доступен только тем, кто его сделал. Каждый сотрудник, которому необходимы эти результаты для достижения лучших показателей в работе должен иметь доступ к единому источнику данных, пользоваться ими с комфортом и при этом — самостоятельно. Для нас естественно, что мы нажимаем кнопку power на системном блоке компьютера самостоятельно, а не с помощью сисадмина. Пользование данными и результатами их анализа должно выглядеть похожим образом: просто и без посторонней помощи.

На бумаге это звучит чарующе просто. Нажми на кнопку — получишь результат. В реальности, чтобы организовать такой «трубопровод», по которым результаты работы с данными будут литься из своего озера данных (Data Lake) к конечному пользователю с легкостью воды из крана, профильтрованной, очищенной и подготовленной — задача не столько сложная, сколько многоступенчатая.

Интеграция подхода REST API в платформу хранения данных помогает сократить нагрузку на ИТ-отдел и ошибки при выполнении рутинных операций вручную, а также оптимизировать ресурсы компании.

Строишь замок? Начни с сарая

Необходимо, чтобы в компании была создана соответствующая инфраструктура, которая будет поддерживать сервис самообслуживания и при этом соблюдать все требования безопасности, при котором сведения могут использовать только уполномоченные сотрудники, а не все подряд. При этом система должна хорошо масштабироваться и давать контроль и возможность прозрачного управления потоками данных.

Хорошая новость заключается в том, что инфраструктура, как и всё остальное вокруг нас, становится «умнее». В конце апреля 2020 г. компания Hitachi представила свой флагманский продукт Hitachi Virtual Storage Platform (VSP) E 990. Ключевой особенностью этой платформы для хранения данных стали технологии искусственного интеллекта и машинного обучения, призванные снизить сложность доступа к ресурсам и уменьшить время, необходимое для развертывания соответствующих ИТ-услуг. В конечном счете, ИИ, интегрированный в платформу хранения данных, разгрузит ИТ-отделы, освободив их от тяжелой рутинной работы, позволит вкладывать таланты сотрудников в развитие методологии DataOps.

Золотой ключик

Нет смысла заводить себе умное хранилище данных, если вы не можете подключиться к этому «уму» снаружи. Чтобы использовать интеллектуальные возможности платформы и интегрировать ее с системами управления данных необходим REST API, который встроен непосредственно в контроллеры хранения Virtual Storage Platform. Под REST («передача объективного состояния») подразумевается такой архитектурный подход, который определяет, как будет выглядеть API. API, созданные в соответствии с архитектурными стандартами REST, не имеют состояния, что означает, что ни компьютер, взаимодействующий с ресурсами, хранящимися на сервере, ни сам сервер не отслеживают состояния друг друга.

Компоненты без состояния не зависят один от другого, поэтому могут быть свободно перераспределены в случае сбоя или масштабированы с учетом изменений нагрузки. «Мы увеличили память и процессор в контроллере специально для поддержки REST API, работающего в контроллере, — прокомментировали в компании Hitachi. — Это дает нам возможность не только соединяться со стеками управления других поставщиков, но также применять аналитику, машинное обучение и автоматизировать развертывание ресурсов через API REST».

Вот несколько примеров того, как подобный подход с API поможет выстроить в компании единый «умный» дата-центр, которые необходимо сформировать, если организация планирует быть компанией, работающей на основе решений, выуживаемых из Big Data.

Анализ инфраструктуры

В Hitachi Vantara был разработан специальный инструмент — Hitachi Ops Center Analyzer — которым можно анализировать данные телеметрии с серверов, устройств хранения, сетевых систем и виртуальных машин. Полученные данные используются, чтобы оптимизировать производительность, устранить неполадки в работе и спрогнозировать необходимость приобретения новых систем хранения. REST API через IP-соединение дает этому инструменту доступ к 77 показателям производительности. На основе анализа всех показателей Ops Center Analyzer определит действия, которые необходимо предпринять, а затем запустит инструмент автоматизации для вызова соответствующих сервисов, которые, в свою очередь, примут все нужные меры.

Автоматизация

Как сократить дни работы до нескольких минут? Ответ один — автоматизация. Инструмент для автоматизации — Hitachi Ops Center Automator — нужен, чтобы быстро справиться с оркестрацией инфраструктуры и упростить работу с повседневными задачами. Способность интегрироваться с первым инструментом — Center Analyzer — как раз через REST API, поможет выбрать правильный шаблон действий из каталога и заполнить его нужными параметрами. Во время работы этому инструменту автоматизации может потребоваться связь со сторонними коммутаторами, виртуальными машинами, контейнерами или публичным облаком через их API. Отсюда видно, сколько утомительных действий пришлось бы произвести, чтобы отослать запросы и использовать все эти хранилища, сети, гипервизоры и приложения, на которых «сидят» тысячи пользователей. Но эти действия производить не придется — они автоматизированы.

Даже на основе этих примеров видно, как интеграция подхода REST API в платформу хранения данных помогает сократить нагрузку ИТ-отдела, и сократить ошибки, которые неминуемо возникают, когда выполняешь большое количество рутинных операций вручную. Использование подобных решений позволит не только оптимизировать ресурсы компании, но даже снизить потребность в квалифицированных ИТ-специалистах, при этом не снижая скорость работы с запросами клиентов. «Все, что у нас есть, основано на API, так что мы можем извлекать информацию из других источников для создания более «умного» решения, — сообщили в Hitachi. — Кроме того, наша цель состоит в том, чтобы обогатить нашу «библиотеку» информации с помощью API сторонних устройств, чтобы мы могли собирать и анализировать данные телеметрии с широкого спектра устройств и взаимодействовать с ними. Наш подход не зависит от вендоров, мы интегрируемся с большим количеством поставщиков и партнеров. DataOps основано на открытой стратегии».

Другие статьи по теме

Как сократить издержки при использовании ИИ

С технологиями машинного обучения искусственный интеллект (ИИ) становиться все умнее – по мере обработки большего объема данных. А недостатка в данных не предвидится: в 2020 г. их объем в мире вырос до 44 зеттабайт. Рассказываем о том, какие новейшие технологии в сфере ИИ разрабатываются прямо сейчас.

Читать полностью

Вызовы, проблемы, решения: какие требования удаленная работа диктует к построению ИТ-инфраструктуры

Задача организации удалённого доступа без снижения эффективности рабочих процессов положительно сказывается на скорости технологических преобразований: больше нет возможности долго размышлять над выбором подходов – необходимо действовать. Разберемся в том, как в условиях нестабильности и киберугроз правильно выстроить инфраструктуру для компании, обратив острый момент в толчок для развития.

Читать полностью

Тренды ИТ-индустрии: на что обратить внимание в 2021 г.

Как и все остальные сферы жизни, ИТ-индустрия значительно трансформировалась из-за пандемии COVID-19. В то же время наряду с новыми тенденциями в тренде будут и хорошо знакомые: например, в 2021 г. на новый виток развития перейдут гиперавтоматизация и разработка ИИ. Конкурентоспособными организациям помогут оставаться распределенное облако, интеллектуальный композиционный бизнес и сеть кибербезопасности.

Читать полностью