Professional-Data-Engineer 試験問題 26

社内のオンプレミスApache Hadoopサーバーのサポート終了が近づいており、IT部門はクラスタをGoogle Cloud Dataprocに移行することを決定しました。クラスタを同等のシステムで移行するには、ノードごとに50TBのGoogle Persistent Diskが必要になります。CIOは、これだけの量のブロックストレージの使用コストを懸念しています。
移行にかかるストレージコストを最小限に抑えたい場合、どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 27

    数日かけて、カンマ区切り値(CSV)ファイルからGoogle BigQueryのテーブルCLICK_STREAMにデータをロードしました。列DTにはクリックイベントのエポックタイムが格納されています。便宜上、すべてのフィールドをSTRING型として扱うシンプルなスキーマを選択しました。次に、サイトを訪問したユーザーのウェブセッション継続時間を計算し、そのデータ型をTIMESTAMPに変更したいと考えています。将来のクエリの計算コストを高くすることなく、移行の労力を最小限に抑えたいと考えています。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 28

    BigQuery、Cloud Dataflow、Cloud Dataproc 上でデータパイプラインを稼働させています。ヘルスチェックを実施し、パイプラインの動作を監視し、障害が発生した場合はパイプライン管理チームに通知する必要があります。また、複数のプロジェクトにまたがって作業を行う必要もあります。プラットフォームの機能については、マネージドプロダクトの利用を希望しています。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 29

    Dataformを使用してBigQueryでELTソリューションを構築しています。最終テーブルに対して一意性チェックとnull値チェックを実行する必要があります。これらのチェックをパイプラインに効率的に統合するにはどうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 30

    あなたの会社では、GCP を使用したハイブリッド デプロイメントを維持しており、匿名化された顧客データを用いた分析が行われています。データは、GCP 上で稼働するデータ転送サーバーへの並列アップロードを通じて、データセンターから Cloud Storage にインポートされています。経営陣から、毎日の転送に時間がかかりすぎるという報告を受け、問題の解決を依頼されました。転送速度を最大化したいと考えています。どのような対策を講じるべきでしょうか?