近年、企業のDXが進む中、データは企業の重要な資産であり、そのデータを活用することは企業にとって重要な課題となっています。適切なデータ分析基盤を構築することで、組織全体でデータを共有し、高度な分析を行うことが可能になります。本記事では、データ分析基盤の概要と設計のポイント、さらに実装する上での課題について解説します。1、データ分析基盤とは?データ分析基盤は、企業がデータを収集、蓄積、加工、分析するためのシステム基盤の総称です。収集・蓄積したデータを加工・分析し、経営判断や業務改善に活用することが可能になります。(1)データ分析基盤の構成要素本章では、データ分析基盤の構成要素の一例を紹介いたします。データ分析基盤は大きく以下の4つの要素から構成されます。。①データ収集・前処理様々なデータソースからデータを収集し、データの正規化、クレンジングを行う②データ蓄積収集したデータを一元的に統合・管理するためのデータレイクやデータウェアハウスへ蓄積する③データ分析蓄積したデータに対して、クエリでBI分析等といった分析を行う④データ可視化分析結果をレポートやダッシュボード上へ可視化する(2)データ分析基盤の重要性データ分析基盤は、企業が保有するデータを最大限に有効活用するための重要な基盤です。膨大な量のデータをビジネスで有効活用するには、データを価値ある情報へ変換するため、データの収集・蓄積・加工・分析するための基盤環境が必要不可欠です。例えば、データ分析基盤には以下のような特徴があります。データの一元管理による整合性の確保データアクセスの効率化データ活用の促進上記のように、データ分析基盤は企業の経営判断や業務改善をサポートする重要な役割を担っています。2、データ分析を行う手順データ分析は一般的に以下のような順番で行われます。(1)データを集める収集したデータは、データウェアハウスやデータレイクなどの専用の場所に集約・保存することが可能です。データ収集の方法は主に2つあります。組織内のシステムからデータを取得業務システムやWebサイトなどから、必要なデータを抽出します。外部のデータソースからデータを取得オープンデータや購入したデータセットなど、外部のデータを活用することも可能です。収集したデータは生のままでは分析に適していないため、加工する必要があります。データクレンジングや変換、結合などの前処理を行い、分析可能な形式に変換します。このようにデータを収集・加工した後、BIツールやSaaSなどを使ってデータ分析や可視化を行うことが可能です。(2)データを蓄積する集約したデータをデータ仮置き場に蓄積させます。データ仮置き場には以下のようなストレージが利用されることが一般的です。ストレージ特徴RDBMS構造化データの保管に適するNoSQLDB非構造化データの保管に適するデータレイクビッグデータの長期保管に適するこのように、データソースやユースケースに応じて、適切なストレージを選定し、データを蓄積する必要があります。(3)データを加工する蓄積させたデータを基に、データを加工します。以下、加工処理の一例です。売上データや利益データ等といった明細データと、組織データや商品データや取引先データといったマスターデータの統合不備や重複のあるデータの修正や、洗い替えを行うデータクレンジング上記のような加工作業を行うことで、BIツール上で利用できるデータを作成していきます。(4)データを分析・可視化する(BIツールやSaaS)加工したデータを分析・可視化するために、BIツールやSaaSを活用します。 主なBIツール・SaaSとしては、以下のようなものが一般的です。ツール名特徴Tableauデータ可視化に優れたツールPowerBIExcelと連携しやすいツールQuickSightWebベースで使いやすいSaaSこれらのツールを使えば、収集したデータから様々なグラフや分析レポートを自動で作成できます。 直感的な操作性と、高度なデータ処理能力を兼ね備えているため、データ分析の生産性が大幅に向上します。3、データ分析基盤を設計する際のポイント本章では、データ分析基盤を設計する際に、考慮すべきポイントを解説いたします。(1)セキュリティ対策の徹底データ分析基盤を構築する上で、セキュリティ対策は重要です。機密データが外部に漏れることは、大きな損害に繋がります。以下、徹底すべきポイントです。①アクセス制限の徹底 機密データへのアクセスを最小限の権限者に限定することが必要です。ロールベースのアクセス制御を行うことで、ユーザーごとの権限を制御できます。②監視体制の強化 ログ監視やアクセス監視を徹底し、不正な動きがあった場合は、早期に検知できるようにします。上記のように、データ分析基盤におけるセキュリティ対策は多岐にわたります。(2)スケーラビリティの確保データ活用を推進していく上で、扱うデータ量は年々増加していく傾向にあるため、データ分析基盤はデータ量の増加に柔軟に対応できる拡張性が求められます。以下のようなポイントに注意が必要です。ストレージ容量の拡張性コンピューティングリソースの拡張性ネットワーク帯域の拡張性扱うデータ量が増えるということは、加工や分析を行う際の処理負荷も併せて増加していきます。そのため、処理負荷に対応できるようなスケーラビリティの確保が必要です。4、データ分析基盤を実装する上での課題自社でデータ分析基盤を実装する上で、一般的に考えられる課題は以下の通りです。(1)スキルやナレッジ・リソース不足データ分析基盤を構築・運用するには、スキル・ナレッジ・リソースの観点が必要不可欠です。データの収集から加工まで実施できるスキルは大前提として必要ですが、加工したデータをBIツール上で扱うためのスキルや、BIツール上で素早く表示させるため、パフォーマンスを考慮したデータセット設計のナレッジが必要となります。また、データ分析基盤を構築・運用を担うデータサイエンティストやエンジニアのリソースも考慮する必要があります。(2)運用フローにうまく組み込めないデータ分析基盤を構築しても、それが企業の運用フローに上手く組み込めないと、結局活用されなくなってしまいます。例えば、以下のようなケースが考えられます。データの収集や加工処理に手動業務が多くあるため、業務が煩雑化してしまう分析結果を他の業務システムと連携できず、活用の機会が失われるこのように、データ分析基盤を企業の既存の業務フローと結びつけることができないと、いずれ活用が滞ってしまいます。そのため、分析基盤の導入時から運用フローへの組み込みを考慮する必要があります5、AWSのデータ分析基盤を効率的に弊社では、集約したログデータを加工し、ダッシュボード上で一元管理できるよう可視化することで、効率的なログ監視を行うことができる「srest」というサービスを提供しております。また、各インフラサービスのログに対してログデータの加工を行っているため、Amazon Web Services(AWS)をはじめ、Datadog、PagerDuty、Sentry といったインフラ系サービスのイベントログの可視化・一元管理が可能です。(1)複数サービスのイベントログを効率的に検索・管理AWS、Datadog、PagerDutyなどのインフラサービスごとのイベントデータを収集し一元で蓄積しているため、ダッシュボード上で可視化することが可能です。日付指定やフィルタ機能を活用することで、複数サービスを跨いだイベントの横断検索が可能な上、インフラサービスごとの絞り込みも可能なため、監視業務を効率化します。(2)アラートの通知・可視化でイベントの見逃し防止と異常の早期発見各インフラサービスのイベントログを一元的に収集・蓄積しているため、アラートの通知もメールやSlack等、1つのコミュニケーションチャネルに絞ることが可能となり、イベントの見逃しを防止します。ダッシュボード上では、発生中のアラート情報の一覧表示や、一定期間に繰り返し発生したアラート情報を俯瞰的に確認することができるため、異常の早期発見をサポートします。まとめ本記事では、データ分析基盤の概要から、データ分析の手順、データ分析基盤を設計する上で考慮すべきポイントや、実装する上で考えられる課題を紹介させて頂きました。データ分析は膨大なデータを集約し、加工、分析、可視化することで、価値ある情報へ変換します。分析されたデータは経営判断や業績改善を行うための判断材料となるため、データ分析基盤が担う役割は非常に重要です。