Professional-Data-Engineer 試験問題 91

数百万台のコンピューターの時系列CPUとメモリ使用量を保存するデータベースを選択する必要があります。
このデータを1秒間隔のサンプルに保存する必要があります。アナリストは、データベースに対してリアルタイムのアドホック分析を実行します。実行されるすべてのクエリに対して課金されることを避け、スキーマ設計がデータセットの将来の拡張を可能にすることを確認する必要があります。どのデータベースとデータモデルを選択する必要がありますか?
  • Professional-Data-Engineer 試験問題 92

    フローロジスティックケーススタディ
    会社概要
    Flowlogisticは、主要なロジスティクスおよびサプライチェーンプロバイダーです。これらは、世界中の企業がリソースを管理し、最終目的地に輸送するのに役立ちます。同社は急速に成長し、鉄道、トラック、航空機、および海上輸送を含むように提供を拡大しています。
    会社背景
    同社は地域のトラック会社としてスタートし、その後他のロジスティクス市場に拡大しました。
    インフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。運用を改善するために、Flowlogisticは、小包レベルでリアルタイムに貨物を追跡するための独自のテクノロジーを開発しました。ただし、Apache Kafkaに基づくテクノロジースタックが処理ボリュームをサポートできないため、デプロイできません。さらに、Flowlogisticは、注文と出荷をさらに分析して、リソースを最適に展開する方法を決定したいと考えています。
    ソリューションコンセプト
    Flowlogisticは、クラウドを使用して2つの概念を実装したいと考えています。
    独自の技術をリアルタイムの在庫追跡システムで使用して、

    それらの負荷
    構造化と非構造化の両方を含むすべての注文と出荷ログの分析を実行します

    データ、リソースを展開する最善の方法、情報を拡張する市場を決定するため。また、予測分析を使用して、出荷が遅れる時期を早期に学習したいと考えています。
    既存の技術環境
    フローロジスティックアーキテクチャは、単一のデータセンターに存在します。
    データベース

    2つのクラスターに8台の物理サーバー
    -SQL Server-ユーザーデータ、インベントリ、静的データ
    3台の物理サーバー
    -Cassandra-メタデータ、追跡メッセージ
    10台のKafkaサーバー-メッセージ集約とバッチ挿入の追跡
    アプリケーションサーバー-顧客フロントエンド、注文/税関用ミドルウェア

    20台の物理サーバーにまたがる60台の仮想マシン
    -Tomcat-Javaサービス
    -Nginx-静的コンテンツ
    -バッチサーバー
    ストレージアプライアンス

    -仮想マシン(VM)ホスト用のiSCSI
    -ファイバーチャネルストレージエリアネットワーク(FC SAN)-SQLサーバーストレージ
    -ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
    Apache Hadoop/Sparkサーバー

    -コアデータレイク
    -データ分析のワークロード
    その他のサーバー20台

    -ジェンキンス、監視、要塞ホスト、
    ビジネス要件
    生産のスケーリングされたパンティーで信頼性と再現性のある環境を構築します。

    分析のために一元化されたデータレイクにデータを集約する

    履歴データを使用して、将来の出荷に関する予測分析を実行します

    独自の技術を使用して、世界中のすべての貨物を正確に追跡します

    新しいリソースの迅速なプロビジョニングを通じて、ビジネスの俊敏性とイノベーションのスピードを向上させます

    クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する

    他のすべての要件が満たされている場合は、クラウドに完全に移行します

    技術要件
    ストリーミングデータとバッチデータの両方を処理する

    既存のHadoopワークロードを移行する

    会社の変化する要求を満たすために、アーキテクチャがスケーラブルで弾力性があることを確認します。

    可能な限りマネージドサービスを使用する

    データの飛行と静止を暗号化する

    本番データセンターとクラウド環境の間にVPNを接続します

    SEOステートメント
    私たちは急速に成長したため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率を実際に妨げています。私たちは世界中の貨物を移動するのに効率的ですが、データを移動するのは非効率的です。
    顧客がどこにいて、何を出荷しているのかをより簡単に理解できるように、情報を整理する必要があります。
    CTOステートメント
    ITは私たちにとって優先事項ではなかったため、データが増大するにつれて、テクノロジーに十分な投資をしていません。私にはITを管理する優れたスタッフがいますが、彼らはインフラストラクチャの管理に忙しく、データの整理、分析の構築、CFOの実装方法の理解などの本当に重要なことを彼らに行わせることができません。追跡技術。
    CFOステートメント
    私たちの競争上の利点の一部は、遅れた出荷と配達に対して自分自身にペナルティを課すことです。出荷が常にどこにあるかを知ることは、私たちの収益と収益性に直接的な相関関係があります。
    さらに、サーバー環境の構築に資金を投入したくありません。
    Flowlogisticは、主要な分析システムとしてGoogle BigQueryを使用したいと考えていますが、BigQueryに移行できないApacheHadoopおよびSparkワークロードがまだあります。Flowlogisticは、両方のワークロードに共通のデータを保存する方法を知りません。彼らは何をすべきですか?
  • Professional-Data-Engineer 試験問題 93

    あなたはeコマース会社のバスケット放棄システムを設計しています。システムは、次のルールに基づいてユーザーにメッセージを送信します。
    *サイトでのユーザーによる1時間の対話はありません
    *バスケットに30ドル以上の製品を追加しました
    *トランザクションを完了していません
    Google Cloud Dataflowを使用してデータを処理し、メッセージを送信するかどうかを決定します。パイプラインをどのように設計する必要がありますか?
  • Professional-Data-Engineer 試験問題 94

    フローロジスティックケーススタディ
    会社概要
    Flowlogisticは、主要なロジスティクスおよびサプライチェーンプロバイダーです。これらは、世界中の企業がリソースを管理し、最終目的地に輸送するのに役立ちます。同社は急速に成長し、鉄道、トラック、航空機、および海上輸送を含むように提供を拡大しています。
    会社背景
    同社は地域のトラック会社としてスタートし、その後他のロジスティクス市場に拡大しました。インフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。運用を改善するために、Flowlogisticは、小包レベルでリアルタイムに貨物を追跡するための独自のテクノロジーを開発しました。ただし、Apache Kafkaに基づくテクノロジースタックが処理ボリュームをサポートできないため、デプロイできません。さらに、Flowlogisticは、注文と出荷をさらに分析して、リソースを最適に展開する方法を決定したいと考えています。
    ソリューションコンセプト
    Flowlogisticは、クラウドを使用して2つの概念を実装したいと考えています。
    *荷物の場所を示すリアルタイムの在庫追跡システムで独自のテクノロジーを使用する
    *構造化データと非構造化データの両方を含むすべての注文と出荷ログの分析を実行して、情報を拡張するための市場であるリソースの最適な展開方法を決定します。彼らはまた、予測分析を使用して学習したいと考えていますて、出荷が遅れる時期を早めに学習したいと考えています。
    既存の技術環境
    フローロジスティックアーキテクチャは、単一のデータセンターに存在します。
    *データベース
    -2つのクラスターに8台の物理サーバー
    -SQL Server-ユーザーデータ、インベントリ、静的データ
    -3台の物理サーバー
    -Cassandra-メタデータ、追跡メッセージ
    10台のKafkaサーバー-メッセージ集約とバッチ挿入の追跡
    *アプリケーションサーバー-顧客フロントエンド、注文/税関用ミドルウェア
    -20台の物理サーバーにまたがる60台の仮想マシン
    -Tomcat-Javaサービス
    -Nginx-静的コンテンツ
    -バッチサーバー
    *ストレージアプライアンス
    -仮想マシン(VM)ホスト用のiSCSI
    -ファイバーチャネルストレージエリアネットワーク(FC SAN)-SQLサーバーストレージ
    ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
    *10台のApacheHadoop/Sparkサーバー
    -コアデータレイク
    -データ分析のワークロード
    *20のその他のサーバー
    -ジェンキンス、監視、要塞ホスト、
    ビジネス要件
    *生産のスケーリングされたパンティーを使用して、信頼性と再現性のある環境を構築します。
    *分析のために一元化されたデータレイクにデータを集約する
    *履歴データを使用して、将来の出荷に関する予測分析を実行します
    *独自の技術を使用して、世界中のすべての貨物を正確に追跡します
    *新しいリソースの迅速なプロビジョニングを通じて、ビジネスの俊敏性とイノベーションの速度を向上させます
    *クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する
    *他のすべての要件が満たされている場合は、クラウドに完全に移行します
    技術要件
    *ストリーミングデータとバッチデータの両方を処理します
    *既存のHadoopワークロードを移行する
    *アーキテクチャがスケーラブルで弾力性があり、会社の変化する要求に対応できるようにします。
    *可能な限りマネージドサービスを使用する
    *データの飛行と保存を暗号化する
    本番データセンターとクラウド環境の間にVPNを接続します
    SEOステートメント
    私たちは急速に成長したため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率を実際に妨げています。私たちは世界中の貨物を移動するのに効率的ですが、データを移動するのは非効率的です。
    顧客がどこにいて、何を出荷しているのかをより簡単に理解できるように、情報を整理する必要があります。
    CTOステートメント
    ITは私たちにとって優先事項ではなかったため、データが増大するにつれて、テクノロジーに十分な投資をしていません。私にはITを管理する優れたスタッフがいますが、彼らはインフラストラクチャの管理に忙しく、データの整理、分析の構築、CFOの実装方法の理解などの本当に重要なことを彼らに行わせることができません。追跡技術。
    CFOステートメント
    私たちの競争上の利点の一部は、遅れた出荷と配達に対して自分自身にペナルティを課すことです。出荷が常にどこにあるかを知ることは、私たちの収益と収益性に直接的な相関関係があります。さらに、サーバー環境の構築に資金を投入したくありません。
    Flowlogisticの経営陣は、現在のApacheKafkaサーバーがリアルタイムの在庫追跡システムのデータ量を処理できないと判断しました。Google Cloud Platform(GCP)で、独自の追跡ソフトウェアを提供する新しいシステムを構築する必要があります。システムは、さまざまなグローバルソースからデータを取り込み、リアルタイムで処理およびクエリを実行し、データを確実に保存できる必要があります。GCP製品のどの組み合わせを選択する必要がありますか?
  • Professional-Data-Engineer 試験問題 95

    あなたの金融サービス会社はクラウドテクノロジーに移行しており、50TBの金融時系列データをクラウドに保存したいと考えています。このデータは頻繁に更新され、新しいデータが常にストリーミングされます。あなたの会社はまた、既存のApache Hadoopジョブをクラウドに移動して、このデータへの洞察を得たいと考えています。
    データを保存するためにどの製品を使用する必要がありますか?