Professional-Data-Engineer 試験問題 317

ETLパイプラインのメンテナンスを担当しています。Dataflowで実行されているストリーミングパイプラインで、入力データの処理に時間がかかり、出力遅延が発生していることに気づきました。また、パイプライングラフがDataflowによって自動的に最適化され、1つのステップに統合されていることにも気づきました。潜在的なボトルネックが発生している場所を特定したいと考えています。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 318

    Google Cloud で新しいパイプラインを作成し、Cloud Pub/Sub から Cloud Dataflow を経由して BigQuery に IoT データをストリーミングしています。データをプレビューしたところ、約 2% のデータが破損しているようです。
    この破損したデータを除外するには、Cloud Dataflow パイプラインを変更する必要があります。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 319

    あなたの会社は規制の厳しい業界に属しています。要件の一つとして、個々のユーザーが業務遂行に必要な最小限の情報のみにアクセスできるようにすることが挙げられます。Google BigQuery を使ってこの要件を徹底したいと考えています。どのようなアプローチが考えられますか?(3つ選択してください。)
  • Professional-Data-Engineer 試験問題 320

    Apache Spark 3 バッチジョブをオンプレミスから Google Cloud に移行したいと考えています。ジョブが Cloud Storage から読み取り、結果を BigQuery に書き込むように、ジョブに最小限の変更を加える必要があります。ジョブは Spark 向けに最適化されており、各エグゼキュータには 8 個の vCPU と 16 GB のメモリが搭載されています。同様の設定を選択できるようにしたいと考えています。ジョブ実行に必要なインストールと管理の手間を最小限に抑えたいと考えています。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 321

    中規模企業で、業務システムのトランザクションデータをオンプレミスのデータベースからGCPに移行する必要があります。データベースのサイズは約20TBです。どのデータベースを選択すべきでしょうか?