Professional-Data-Engineer 試験問題 1

会社のデータアナリストチームは、Google Cloud プロジェクトで、2,000 スロットを予約したアドホッククエリとスケジュールされた SQL パイプラインに BigQuery を使用しています。しかし、最近、数百個の時間制約のない新しい SQL パイプラインを導入したため、チームは頻繁に割り当てエラーに遭遇しています。ログを調べたところ、ピーク時に約 1,500 件のクエリが同時にトリガーされていることがわかりました。この同時実行の問題を解決する必要があります。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 2

    BigQuery によって処理される列の数を減らすために使用できる SQL キーワードはどれですか?
  • Professional-Data-Engineer 試験問題 3

    オンプレミスのApache Hadoopクラスタで数千ものApache Sparkジョブを実行しています。これらのジョブをGoogle Cloudに移行したいと考えています。長期運用のHadoopクラスタを自社で保守するのではなく、マネージドサービスを利用してジョブを実行したいと考えています。スケジュールが厳しく、コードの変更を最小限に抑えたいと考えています。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 4

    特定の条件が満たされた場合に、ウィンドウのコンテンツをいつ出力するかを決定するデータフロー概念は何ですか?
  • Professional-Data-Engineer 試験問題 5

    Google Cloud で新しいパイプラインを作成し、Cloud Pub/Sub から Cloud Dataflow を経由して BigQuery に IoT データをストリーミングしようとしています。データをプレビューしたところ、約 2% のデータが破損しているようです。この破損データを除外するには、Cloud Dataflow パイプラインを修正する必要があります。
    a. 何をすべきでしょうか?