Professional-Data-Engineer 試験問題 312

テキストファイルを取り込んで変換するDataflowパイプラインをテストしています。ファイルはgzip形式で圧縮され、エラーはデッドレターキューに書き込まれ、データの結合にはSidelnputを使用しています。パイプラインの完了に予想よりも時間がかかっていることに気づきました。Dataflowジョブを高速化するにはどうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 313

    あなたは、Apache Hadoop クラスター上で実行される社内 ETL パイプラインの作成を担当しています。このパイプラインには、チェックポイントとパイプラインの分割機能が必要です。パイプラインの作成にはどのような方法を使用すべきでしょうか?
  • Professional-Data-Engineer 試験問題 314

    Cloud Datastore を使用して車両のテレメトリデータをリアルタイムで取り込むことにしました。長期的なデータ増加に対応しつつ、コストを抑えたストレージシステムを構築したいと考えています。また、ポイントインタイム(PIT)リカバリを実行できるように、定期的にデータのスナップショットを作成したり、別の環境に Cloud Datastore 用のデータのクローンを作成したりしたいと考えています。これらのスナップショットは長期間アーカイブする必要があります。
    これを実現できる 2 つの方法はどれですか? (2 つ選択してください。)
  • Professional-Data-Engineer 試験問題 315

    世界中の数百万台のデバイスからIoTセンサーデータを収集し、BigQueryに保存しています。アクセスパターンは、location_idとdevice_versionで区切られた最新のデータに基づいており、以下のクエリを使用しています。

    コストとパフォーマンスの観点からクエリを最適化したい場合、データをどのように構造化すればよいでしょうか?
  • Professional-Data-Engineer 試験問題 316

    BigQueryデータウェアハウス内の主要な在庫テーブルを読み取る、ほぼリアルタイムの在庫ダッシュボードを作成する必要があります。過去の在庫データは、商品と場所ごとの在庫残高として保存されます。
    毎時数千件の在庫更新が発生しています。ダッシュボードのパフォーマンスを最大化し、データの正確性を確保したいと考えています。どうすればよいでしょうか?