Professional-Data-Engineer 試験問題 276

アナリティクス チームは、いくつかの異なる指標に基づいて、どの顧客が再びあなたの会社と取引する可能性が最も高いかを判断するためのシンプルな統計モデルを構築したいと考えています。チームは、Google Cloud Storage に格納されているデータを使用して Apache Spark でモデルを実行したいと考えています。あなたは、このジョブを実行するために Google Cloud Dataproc を使用することを推奨しました。テストの結果、このワークロードは 15 ノードのクラスタで約 30 分で実行でき、結果を Google BigQuery に出力できることが分かりました。このワークロードを毎週実行する予定です。コストの観点からクラスタを最適化するにはどうすればよいでしょうか。
  • Professional-Data-Engineer 試験問題 277

    Google BigQuery で、ほぼリアルタイムで毎分 10,000 件のメッセージの速度でソーシャル メディアの投稿を保存および分析する必要があります。最初に、個々の投稿にストリーミング挿入を使用するようにアプリケーションを設計します。アプリケーションは、ストリーミング挿入の直後にデータの集計も実行します。ストリーミング挿入後のクエリは強力な一貫性を示さず、クエリからのレポートで実行中のデータが欠落する可能性があることがわかりました。アプリケーション設計をどのように調整すればよいでしょうか。
  • Professional-Data-Engineer 試験問題 278

    You have several Spark jobs that run on a Cloud Dataproc cluster on a schedule. Some of the jobs run in sequence, and some of the jobs run concurrently. You need to automate this process. What should you do?
  • Professional-Data-Engineer 試験問題 279

    あなたは、さまざまなストレージ サービスでそれぞれのデータ所有者によってデータが整理および管理されている医療組織の一員です。この分散型エコシステムの結果、データの検出と管理が困難になっています。組織を支援するために、コストを最適化したソリューションを迅速に特定して実装する必要があります。
    * データの管理と発見
    * データ系統の追跡
    * データ品質の検証
    ソリューションをどのように構築すればよいでしょうか?
  • Professional-Data-Engineer 試験問題 280

    適切に設計された行キーを使用して Cloud Bigtable にデータを書き込むデータ パイプラインがあります。パイプラインを監視して、Cloud Bigtable クラスタのサイズをいつ増やすかを判断します。これを実現するために実行できるアクションはどれですか (2 つ選択してください)。