Professional-Data-Engineer 試験問題 216

組織のマーケティング チームは、顧客データセットのセグメントの定期的な更新を提供します。
マーケティング チームから、BigQuery で更新する必要がある 100 万件のレコードを含む CSV を受け取りました。BigQuery で UPDATE ステートメントを使用すると、quotaExceeded エラーが発生します。どうすればよいでしょうか。
  • Professional-Data-Engineer 試験問題 217

    フローロジスティックのケーススタディ
    会社概要
    Flowlogistic は、大手の物流およびサプライ チェーン プロバイダーです。同社は、世界中の企業がリソースを管理し、最終目的地まで輸送するのを支援しています。同社は急速に成長し、鉄道、トラック、航空機、海上輸送を含むサービスを拡大しています。
    会社概要
    同社は地域のトラック輸送会社としてスタートし、その後他の物流市場に拡大しました。インフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。業務を改善するために、Flowlogistic は荷物レベルで出荷をリアルタイムで追跡する独自のテクノロジーを開発しました。しかし、Apache Kafka に基づくテクノロジー スタックでは処理量に対応できないため、これを展開することができません。さらに、Flowlogistic は注文と出荷をさらに分析して、リソースを最も効果的に展開する方法を決定したいと考えています。
    ソリューションコンセプト
    Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
    * 荷物の位置を示すリアルタイム在庫追跡システムに独自の技術を使用する
    * 構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析し、リソースを最も効果的に配備する方法、情報を拡張する市場を決定します。また、予測分析を使用して、出荷が遅れる時期を早めに把握したいと考えています。
    既存の技術環境
    Flowlogistic アーキテクチャは単一のデータ センターに存在します。
    * データベース
    * 2 つのクラスターに 8 台の物理サーバー
    * SQL Server - ユーザーデータ、インベントリ、静的データ
    * 物理サーバー 3 台
    * Cassandra - メタデータ、メッセージ追跡
    10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
    * アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア
    * 20台の物理サーバーにまたがる60台の仮想マシン
    * Tomcat - Java サービス
    * Nginx - 静的コンテンツ
    * バッチサーバー
    ストレージ機器
    * 仮想マシン (VM) ホスト用の iSCSI
    * ファイバーチャネルストレージエリアネットワーク (FC SAN) - SQL サーバーストレージ
    * ネットワーク接続ストレージ (NAS) イメージストレージ、ログ、バックアップ
    * 10台のApache Hadoop /Sparkサーバー
    * コアデータレイク
    * データ分析のワークロード
    * その他サーバー 20 台
    * Jenkins、モニタリング、要塞ホスト、
    ビジネス要件
    * スケールされた生産範囲で信頼性が高く再現可能な環境を構築します。
    * 分析のために集中化されたデータレイクにデータを集約する
    * 過去のデータを使用して将来の出荷に関する予測分析を実行する
    * 独自の技術を使用して、世界中のすべての出荷を正確に追跡します
    * 新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上
    * クラウドでのパフォーマンスのためにアーキテクチャを分析し、最適化する
    * 他のすべての要件が満たされている場合は、クラウドに完全に移行します
    技術要件
    * ストリーミングとバッチデータの両方を処理
    * 既存のHadoopワークロードを移行する
    * 会社の変化する需要を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。
    * 可能な限りマネージドサービスを利用する
    * 飛行中および保存中のデータを暗号化
    * 実稼働データセンターとクラウド環境の間に VPN を接続する SEO ステートメント 当社は急速に成長したため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率の妨げになっています。当社は、世界中への出荷は効率的に行っていますが、データの移動は非効率的です。
    顧客がどこにいて、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
    CTO 声明
    IT は当社にとって優先事項ではありませんでした。そのため、データが増えてもテクノロジーに十分な投資ができませんでした。IT を管理する優秀なスタッフがいますが、彼らはインフラストラクチャの管理に忙しく、データの整理、分析の構築、CFO の追跡テクノロジーの実装方法の検討など、本当に重要な作業を行うことができません。
    CFOの声明
    弊社の競争上の優位性の一部は、出荷や配送の遅れに対して自分たちにペナルティを課すことです。出荷品がどこにあるかを常に把握することは、弊社の最終利益と収益性に直接関係しています。また、サーバー環境の構築に資本を投入したくありません。
    Flowlogistic は、リアルタイムの在庫追跡システムを展開しています。追跡デバイスはすべて荷物追跡メッセージを送信しますが、そのメッセージは Apache Kafka クラスタではなく、単一の Google Cloud Pub/Sub トピックに送信されます。その後、サブスクライバー アプリケーションがメッセージを処理してリアルタイム レポートを作成し、履歴分析のために Google BigQuery に保存します。荷物データを時間の経過とともに分析できるようにする必要があります。
    どのようなアプローチを取るべきでしょうか?
  • Professional-Data-Engineer 試験問題 218

    あなたの会社では、独自のシステムを使用して、6 時間ごとに在庫データをクラウドのデータ取り込みサービスに送信しています。送信されるデータには、いくつかのフィールドのペイロードと送信のタイムスタンプが含まれます。送信に関して懸念事項がある場合、システムはデータを再送信します。データを最も効率的に重複排除するにはどうすればよいでしょうか。
  • Professional-Data-Engineer 試験問題 219

    ケーススタディ: 1 - Flowlogistic
    会社概要
    Flowlogistic は、大手の物流およびサプライ チェーン プロバイダーです。同社は、世界中の企業がリソースを管理し、最終目的地まで輸送するのを支援しています。同社は急速に成長し、鉄道、トラック、航空機、海上輸送を含むサービスを拡大しています。
    会社概要
    当社は地域のトラック運送会社としてスタートし、その後他の物流市場へ事業を拡大しました。
    インフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。業務を改善するために、Flowlogistic は荷物レベルで出荷をリアルタイムで追跡する独自のテクノロジーを開発しました。しかし、Apache Kafka に基づくテクノロジー スタックでは処理量に対応できないため、これを導入できません。さらに、Flowlogistic は注文と出荷をさらに分析して、リソースを最適に導入する方法を決定したいと考えています。
    ソリューションコンセプト
    Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
    リアルタイムの在庫追跡システムで自社の独自技術を使用して、荷物の位置を示します。構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析し、リソースを最も効果的に配備する方法、どの市場に情報を展開するかを決定します。また、予測分析を使用して、出荷が遅れる時期を早めに把握したいと考えています。
    既存の技術環境
    Flowlogistic アーキテクチャは単一のデータ センターに存在します。
    データベース
    2 つのクラスターに 8 台の物理サーバー
    SQL Server - ユーザーデータ、インベントリ、静的データ
    物理サーバー 3 台
    Cassandra - メタデータ、メッセージ追跡
    10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
    アプリケーション サーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア 20 台の物理サーバーにわたる 60 台の仮想マシン Tomcat - Java サービス Nginx - 静的コンテンツ バッチ サーバー ストレージ アプライアンス 仮想マシン (VM) ホスト用の iSCSI ファイバー チャネル ストレージ エリア ネットワーク (FC SAN) SQL サーバー ストレージ ネットワーク接続ストレージ (NAS) イメージ ストレージ、ログ、バックアップ Apache Hadoop /Spark サーバー コア データ レイク データ分析ワークロード
    その他サーバー 20 台
    Jenkins、監視、要塞ホスト、
    ビジネス要件
    拡張された生産範囲で、信頼性が高く再現可能な環境を構築します。分析のために集中管理されたデータ レイクにデータを集約します。履歴データを使用して、将来の出荷に関する予測分析を実行します。独自のテクノロジーを使用して、世界中のすべての出荷を正確に追跡します。新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上させます。クラウドでのパフォーマンスのためにアーキテクチャを分析して最適化します。他のすべての要件が満たされている場合は、完全にクラウドに移行します。技術要件 ストリーミング データとバッチ データの両方を処理します。既存の Hadoop ワークロードを移行します。会社の変化する需要を満たすために、アーキテクチャがスケーラブルで柔軟であることを確認します。
    可能な限りマネージドサービスを利用する
    飛行中および保存中のデータを暗号化
    実稼働データ センターとクラウド環境の間に VPN を接続する SEO ステートメント 当社は急速に成長したため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率の妨げになっています。当社は、世界中への出荷の移動は効率的ですが、データの移動は非効率的です。
    顧客がどこにいて、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
    CTO 声明
    IT は当社にとって優先事項ではありませんでした。そのため、データが増えてもテクノロジーに十分な投資ができませんでした。IT を管理する優秀なスタッフがいますが、彼らはインフラストラクチャの管理に忙しく、データの整理、分析の構築、CFO の追跡テクノロジーの実装方法の検討など、本当に重要な作業を行うことができません。
    CFOの声明
    当社の競争上の優位性の一部は、出荷や配達の遅れに対して自らにペナルティを課すことです。出荷品がどこにあるかを常に把握することは、当社の最終利益と収益性に直接関係しています。
    さらに、サーバー環境の構築に資本を投入したくありません。
    Flowlogistic は Google BigQuery を主要な分析システムとして使用したいと考えていますが、Apache Hadoop と Spark のワークロードがまだ存在しており、BigQuery に移行できません。Flowlogistic は、両方のワークロードに共通するデータを保存する方法を知りません。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 220

    特定の条件が満たされた場合に、ウィンドウのコンテンツをいつ出力するかを決定するデータフローの概念は何ですか?