Professional-Data-Engineer 試験問題 166

数百万台のコンピューターのCPUとメモリの使用状況を時系列で保存するためのデータベースを選択する必要があります。このデータは1秒間隔でサンプリングして保存する必要があります。アナリストは、このデータベースに対してリアルタイムのアドホック分析を実行することになります。クエリ実行ごとに課金されることを避け、スキーマ設計によってデータセットの将来的な拡張に対応できるようにする必要があります。どのデータベースとデータモデルを選択すべきでしょうか?
  • Professional-Data-Engineer 試験問題 167

    テーブルをBigQueryに移行し、データモデルを変更しています。テーブルには、複数の店舗で行われた購入に関する情報が格納されており、取引の時刻、購入商品、店舗ID、店舗所在地の市区町村などの情報が含まれています。このテーブルに対して頻繁にクエリを実行し、過去30日間に各商品が何個販売されたかを確認したり、市区町村別、店舗別の購入傾向を確認したりしています。このテーブルをモデル化して、クエリ時間とコストを最小限に抑えたいと考えています。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 168

    オンプレミス クラスタから Hadoop ジョブを Dataproc と GCS に移行しました。Spark ジョブは、多数のシャッフィング操作で構成される複雑な分析ワークロードで、初期データは Parquet ファイル(平均 200~400 MB)です。Dataproc への移行後、パフォーマンスに若干の低下が見られるため、最適化を検討しています。組織はコストに非常に敏感であるため、このワークロードでは引き続きプリエンプティブ ワーカー(非プリエンプティブ ワーカー 2 台のみ)で Dataproc を使用する予定です。
    何をすべきでしょうか?
  • Professional-Data-Engineer 試験問題 169

    フローロジスティックのケーススタディ
    会社概要
    Flowlogisticは、物流およびサプライチェーンのリーディングプロバイダーです。世界中の企業のリソース管理と最終目的地への輸送を支援しています。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送など、サービスを拡大しています。
    会社概要
    当社は地域のトラック輸送会社としてスタートし、その後他の物流市場へ拡大しました。
    インフラの更新が遅れているため、注文と出荷の管理・追跡がボトルネックとなっています。Flowlogisticは業務改善のため、荷物レベルでの出荷をリアルタイムに追跡する独自の技術を開発しました。しかし、Apache Kafkaをベースとした既存の技術スタックでは処理量に対応できないため、導入に至っていません。さらに、Flowlogisticは注文と出荷をさらに分析し、最適なリソース配分方法を検討したいと考えています。
    ソリューションコンセプト
    Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
    リアルタイム在庫追跡システムで独自の技術を使用し、在庫の位置を表示します。

    彼らの荷物
    構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析します。

    データを活用することで、最適なリソース配分方法や、どの市場への情報展開を行うべきかを判断できます。また、予測分析を活用して、出荷の遅延を早期に把握したいと考えています。
    既存の技術環境
    Flowlogistic アーキテクチャは単一のデータ センターに存在します。
    データベース

    2つのクラスターに8台の物理サーバー
    - SQL Server - ユーザーデータ、インベントリ、静的データ
    物理サーバー3台
    - Cassandra - メタデータ、メッセージ追跡
    10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
    アプリケーション サーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア

    20台の物理サーバーにまたがる60台の仮想マシン
    - Tomcat - Javaサービス
    - Nginx - 静的コンテンツ
    - バッチサーバー
    ストレージアプライアンス

    - 仮想マシン (VM) ホスト用の iSCSI
    - ファイバーチャネルストレージエリアネットワーク(FC SAN) - SQLサーバーストレージ
    - ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
    Apache Hadoop /Spark サーバー

    - コアデータレイク
    - データ分析ワークロード
    その他サーバー20台

    - Jenkins、監視、要塞ホスト、
    ビジネス要件
    スケールされた生産パンティを備えた信頼性が高く再現可能な環境を構築します。

    分析のために集中管理されたデータレイクにデータを集約する

    過去のデータを使用して将来の出荷の予測分析を実行する

    独自の技術を使用して、世界中のすべての出荷を正確に追跡します

    新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上します。

    クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する

    他のすべての要件が満たされている場合は、クラウドに完全に移行します。

    技術要件
    ストリーミングとバッチデータの両方を処理

    既存のHadoopワークロードを移行する

    企業の変化する要求を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。

    可能な限りマネージドサービスを利用する

    飛行中および保存中のデータを暗号化

    本番データセンターとクラウド環境の間にVPNを接続する

    SEOステートメント
    当社は急速な成長を遂げたため、インフラのアップグレードができず、それがさらなる成長と効率化の妨げとなっています。世界中への貨物輸送は効率的ですが、データの移動は非効率です。
    顧客がどこにいるのか、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
    CTO声明
    ITは当社にとってこれまで優先事項ではありませんでした。そのため、データの増加に伴い、テクノロジーへの投資が不十分になっていました。IT管理を担当する優秀なスタッフはいますが、彼らはインフラ管理に忙殺されており、データの整理、分析機能の構築、CFOのトラッキングテクノロジーの導入方法の検討といった、本当に重要な業務に時間を割くことができません。
    CFO声明
    当社の競争優位性の一つは、出荷・納品の遅延に対して自らペナルティを課すことです。出荷品の現在位置を常に把握することは、当社の収益性と直接的な相関関係にあります。
    さらに、サーバー環境の構築に資本を投入したくありません。
    Flowlogistic社のCEOは、顧客基盤に関する迅速なインサイトを獲得し、営業チームが現場でより的確な情報提供ができるようしたいと考えています。このチームは技術にあまり詳しくないため、BigQueryレポートの作成を簡素化するために可視化ツールを導入しました。しかし、テーブル内の膨大なデータに圧倒され、必要なデータを見つけるためのクエリに多大なコストがかかっています。あなたは、この課題を最も費用対効果の高い方法で解決したいと考えています。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 170

    BigQueryのデータセットを分析に使用しています。サードパーティ企業にも同じデータセットへのアクセスを提供したいと考えています。データ共有コストを抑え、データの最新性を確保する必要があります。どのソリューションを選択すべきでしょうか?