Professional-Data-Engineer 試験問題 221
データ パイプラインにセキュリティのベスト プラクティスを実装しています。現在、手動で実行しています
プロジェクトオーナーとしての仕事。あなたは、以下の内容を含むバッチ ファイルを毎晩取得することで、これらのジョブを自動化したいと考えています。
Google Cloud Storage からの公開情報。Google Cloud 上の Spark Scala ジョブで処理します。
Dataproc クラスタを作成し、結果を Google BigQuery に保存します。
このワークロードを安全に実行するにはどうすればよいでしょうか?
プロジェクトオーナーとしての仕事。あなたは、以下の内容を含むバッチ ファイルを毎晩取得することで、これらのジョブを自動化したいと考えています。
Google Cloud Storage からの公開情報。Google Cloud 上の Spark Scala ジョブで処理します。
Dataproc クラスタを作成し、結果を Google BigQuery に保存します。
このワークロードを安全に実行するにはどうすればよいでしょうか?
Professional-Data-Engineer 試験問題 222
あなたはストリーミング Cloud Dataflow パイプラインを操作しています。エンジニアは、異なるウィンドウ処理アルゴリズムとトリガー戦略を備えた新しいバージョンのパイプラインを使用しています。実行中のパイプラインを新しいバージョンで更新したいと考えています。更新中にデータが失われないようにしたいと考えています。あなたは何をするべきか?
Professional-Data-Engineer 試験問題 223
あなたは、スケーラブルな方法でデータを収集する必要がある新しいアプリケーションを構築しています。データは 1 日を通してアプリケーションから継続的に受信され、年末までに 1 日あたり約 150 GB の JSON データが生成されることが予想されます。要件は次のとおりです。
生産者と消費者を切り離す
取り込まれた未加工データを無期限に保存する、スペースとコスト効率の高いストレージ
ほぼリアルタイムの SQL クエリ
少なくとも 2 年間の履歴データを維持し、SQ でクエリを実行します。
これらの要件を満たすにはどのパイプラインを使用する必要がありますか?
生産者と消費者を切り離す
取り込まれた未加工データを無期限に保存する、スペースとコスト効率の高いストレージ
ほぼリアルタイムの SQL クエリ
少なくとも 2 年間の履歴データを維持し、SQ でクエリを実行します。
これらの要件を満たすにはどのパイプラインを使用する必要がありますか?
Professional-Data-Engineer 試験問題 224
時系列指標を集計して Cloud Bigtable に書き込む Cloud Dataflow ジョブを含むデータ パイプラインがあります。このデータは、組織全体の何千人ものユーザーが使用するダッシュボードにフィードされます。追加の同時ユーザーをサポートし、データの書き込みに必要な時間を短縮する必要があります。どの 2 つのアクションを取る必要がありますか? (2つお選びください。)
Professional-Data-Engineer 試験問題 225
あなたは、Google の Dataflow SDK を使用してソフトウェア アプリケーションを開発しており、条件付きループ、for ループ、その他の複雑なプログラミング構造を使用して分岐パイプラインを作成したいと考えています。データ処理操作にはどのコンポーネントが使用されますか?
