[2025-12-29更新,327問] 無料Google Professional-Data-Engineer試験問題集、Professional-Data-Engineer技術内容(ページ 65)

Professional-Data-Engineer 試験問題 317

ETLパイプラインのメンテナンスを担当しています。Dataflowで実行されているストリーミングパイプラインで、入力データの処理に時間がかかり、出力遅延が発生していることに気づきました。また、パイプライングラフがDataflowによって自動的に最適化され、1つのステップに統合されていることにも気づきました。潜在的なボトルネックが発生している場所を特定したいと考えています。どうすればよいでしょうか？

A. 各処理ステップの後に Reshuffle 操作を挿入し、Dataflow コンソールで実行の詳細を監視します。

B. 各 ParDo 関数のデバッグ情報をログに記録し、実行時にログを分析します。

C. 各キー処理ステップの後に出力シンクを挿入し、各ブロックの書き込みスループットを観察します。

D. Dataflow サービスアカウントに、処理されたデータを出力シンクに書き込むための適切な権限があることを確認します。

Professional-Data-Engineer 試験問題 318

Google Cloud で新しいパイプラインを作成し、Cloud Pub/Sub から Cloud Dataflow を経由して BigQuery に IoT データをストリーミングしています。データをプレビューしたところ、約 2% のデータが破損しているようです。
この破損したデータを除外するには、Cloud Dataflow パイプラインを変更する必要があります。どうすればよいでしょうか？

A. 要素が破損している場合にブール値を返す SideInput を追加します。

B. 破損した要素を破棄するには、Cloud Dataflow に ParDo 変換を追加します。

C. Cloud Dataflow にパーティション変換を追加して、有効なデータと破損したデータを分離します。

D. Cloud Dataflow に GroupByKey 変換を追加して、有効なデータをすべてグループ化し、残りを破棄します。

Professional-Data-Engineer 試験問題 319

あなたの会社は規制の厳しい業界に属しています。要件の一つとして、個々のユーザーが業務遂行に必要な最小限の情報のみにアクセスできるようにすることが挙げられます。Google BigQuery を使ってこの要件を徹底したいと考えています。どのようなアプローチが考えられますか？（3つ選択してください。）

A. 特定のテーブルへの書き込みを無効にします。

B. ロールによってテーブルへのアクセスを制限します。

C. データが常に暗号化されていることを確認します。

D. BigQuery API アクセスを承認されたユーザーに制限します。

E. 複数のテーブルまたはデータベースにわたってデータを分離します。

F. Google Stackdriver Audit Logging を使用してポリシー違反を判断します。

Professional-Data-Engineer 試験問題 320

Apache Spark 3 バッチジョブをオンプレミスから Google Cloud に移行したいと考えています。ジョブが Cloud Storage から読み取り、結果を BigQuery に書き込むように、ジョブに最小限の変更を加える必要があります。ジョブは Spark 向けに最適化されており、各エグゼキュータには 8 個の vCPU と 16 GB のメモリが搭載されています。同様の設定を選択できるようにしたいと考えています。ジョブ実行に必要なインストールと管理の手間を最小限に抑えたいと考えています。どうすればよいでしょうか？

A. 新しい Dataproc クラスタでジョブを実行します。

B. Dataproc Serverless ジョブとして実行します。

C. 新しい Google Kubernetes Engine クラスタ内のデプロイメントの一部としてジョブを実行します。

D. 新しい Compute Engine VM からジョブを実行します。

正解: B

主な要件は次のとおりです。
* Spark 3 バッチジョブを移行します。
* ジョブを最小限に変更します (GCS から読み取り、BQ に書き込み - GCP 上の Spark の標準)。
* Spark 向けに最適化されたジョブ (特定のエグゼキューター vCPU/メモリ)。
* 同様の実行者設定を選択する機能。
* インストールと管理の労力を最小限に抑えます。
Dataproc Serverless (オプション A) は、これらのユースケース向けに設計されています。
* Spark 3 のサポート:Dataproc Serverless は、Spark 3 を含むさまざまな Spark ランタイムをサポートしています。
* 最小限の変更：GCS からの読み取りと BigQuery への書き込み（Spark-BigQuery コネクタを使用）を行う Spark ジョブは標準です。通常、最小限のコード変更で済みます。
* カスタマイズ可能なリソース: Dataproc Serverless では、vCPU やメモリなど、ドライバとエグゼキュータのリソースを指定できます。これらのリソースは、オンプレミスの最適化された設定に合わせて構成できます（例: エグゼキュータあたり 8 vCPU、16 GB メモリなど。ただし、利用可能な具体的な構成についてはご確認ください）。
* 最小限のインストールと管理：これが「サーバーレス」の最大のメリットです。クラスタのプロビジョニング、管理、スケーリングは不要です。バッチジョブを送信するだけで、Google Cloud が基盤となるインフラストラクチャを処理します。これにより、運用オーバーヘッドが大幅に削減されます。
他のオプションがあまり適切でない理由を分析してみましょう。
* B (Compute Engine VM): Spark のインストール、設定、依存関係の管理、そして VM 自体の管理を手動で行う必要があります。これは管理の手間がかかります。
* C（Google Kubernetes Engine クラスタ）：Spark を GKE 上で実行することはできますが（たとえば、Spark on Kubernetes オペレーターを使用）、GKE クラスタ、Spark デプロイメント構成、Docker イメージなどの管理が必要になります。これも、Dataproc Serverless よりも大きな管理作業になります。
* D (Dataproc クラスタ): 標準的な Dataproc クラスタはサーバーレスクラスタよりも制御性に優れていますが、管理（クラスタの作成、スケーリング、ライフサイクル管理）もより複雑になります。Dataproc Serverless は、バッチジョブにおけるこうした管理作業を最小限に抑えるように特別に設計されています。「インストールと管理の手間を最小限に抑える」という要件を考慮すると、ジョブのニーズを満たす場合、サーバーレスクラスタはマネージドクラスタよりも優先されます。
参照：
Google Cloud ドキュメント: Dataproc Serverless > 概要。「Spark 用 Dataproc Serverless を使用すると、独自のクラスタをプロビジョニングおよび管理することなく、Spark バッチワークロードを実行できます。Spark ワークロードを Dataproc Serverless サービスに送信します。このサービスは、マネージドコンピューティングインフラストラクチャ上でワークロードを実行し、必要に応じてリソースを自動スケーリングします。」Google Cloud ドキュメント: Dataproc Serverless > Spark バッチワークロードの送信 > Spark バッチワークロードのプロパティ。このドキュメントでは、ドライバとエグゼキュータのコア（spark.driver.cores、spark.executor.cores）およびメモリ（spark.driver.memory、spark.executor.memory）のプロパティを指定する方法について説明します。これにより、既存の最適化されたジョブと同様の設定を選択できます。

Professional-Data-Engineer 試験問題 321

中規模企業で、業務システムのトランザクションデータをオンプレミスのデータベースからGCPに移行する必要があります。データベースのサイズは約20TBです。どのデータベースを選択すべきでしょうか？

A. クラウドSQL

B. クラウドビッグテーブル

C. クラウドスパナー

D. クラウドデータストア

他のバージョン: 1455Google.Professional-Data-Engineer.v2025-01-13.q310; 1483Google.Professional-Data-Engineer.v2024-06-07.q281; 1237Google.Professional-Data-Engineer.v2023-09-15.q214; 1699Google.Professional-Data-Engineer.v2022-11-23.q197

最新アップロード: 150Google.Professional-Data-Engineer.v2025-12-29.q327; 112SAP.C_ARP2P_2508.v2025-12-29.q29; 110Appian.ACD201.v2025-12-29.q36; 226ServiceNow.CIS-HAM.v2025-12-27.q212; 160Pegasystems.PEGACPBA24V1.v2025-12-27.q118; 151Microsoft.DP-700.v2025-12-27.q84; 114EXIN.CITM.v2025-12-26.q18; 119Microsoft.GH-100.v2025-12-26.q24; 139PennsylvaniaRealEstateCommission.RePA_Sales_S.v2025-12-26.q37; 117SAP.C_BCBTM_2502.v2025-12-25.q10

Professional-Data-Engineer 試験問題 317

Professional-Data-Engineer 試験問題 318

Professional-Data-Engineer 試験問題 319

Professional-Data-Engineer 試験問題 320

Professional-Data-Engineer 試験問題 321

PDFファイルをダウンロード