[2025-12-29更新,327問] 無料Google Professional-Data-Engineer試験問題集、Professional-Data-Engineer技術内容(ページ 44)

Professional-Data-Engineer 試験問題 211

既存のオンプレミスデータの一部をGoogle Cloud上のBigQueryにロードする予定です。ユースケースに応じて、ストリーミングまたはバッチロードのいずれかでデータをロードしたいと考えています。さらに、BigQueryにロードする前に、一部の機密データをマスキングしたいと考えています。コストを最小限に抑えながら、プログラム的にこれを実現する必要があります。どうすればよいでしょうか？

A. BigQuery Data Transfer Service を使用して移行をスケジュールします。BigQuery にデータが取り込まれたら、Cloud Data Loss Prevention {Cloud DLP} API への接続を使用して必要なデータを匿名化します。

B. Apache Beam SDK for Python を介して Dataflow でパイプラインを作成し、コード内でストリーミングバッチ処理用の個別のオプションをカスタマイズし、Cloud DLP でデータシンクとして BigQuery を選択します。

C. Cloud Data Fusion を使用してパイプラインを設計し、Cloud DLP プラグインを使用してパイプライン内のデータを匿名化してから、データを BigQuery に移動します。

D. オンプレミスのデータを BigQuery に複製するように Datastream を設定します。

正解: B

機密データをマスキングしながらオンプレミスデータをBigQueryにロードするには、ストリーミングとバッチ処理の両方に柔軟性があり、データマスキング機能も備えたソリューションが必要です。オプションBが最適な選択肢である理由を詳しく説明します。
Apache Beam と Dataflow:
Apache Beam SDK は、バッチデータ処理とストリームデータ処理の両方に統合されたプログラミングモデルを提供します。
Google Cloud Dataflow は、Apache Beam パイプラインを実行するためのフルマネージドサービスであり、スケーラビリティと使いやすさを提供します。
さまざまなユースケースに合わせたカスタマイズ:
Apache Beam SDK を使用すると、同じフレームワーク内でストリーミングとバッチ処理の両方を処理できるカスタムパイプラインを作成できます。
これにより、データパイプラインのコアロジックを変更することなく、ユースケースに基づいてストリーミングモードとバッチモードを切り替えることができます。
Cloud DLP によるデータマスキング:
Google Cloud Data Loss Prevention (DLP) API を Apache Beam パイプラインに統合すると、機密データを BigQuery に読み込む前にプログラムで匿名化してマスクすることができます。
これにより、機密データが安全に処理され、プライバシー要件に準拠することが保証されます。
コスト効率:
Dataflow は完全に管理されたサービスであるため、独自のインフラストラクチャの管理に関連する運用上のオーバーヘッドが削減され、コスト効率が向上します。
従量課金モデルでは、消費したリソースに対してのみ料金を支払うため、コストを抑えることができます。
実装手順:
Apache Beam Pipeline をセットアップします。
オンプレミスのストレージからデータを読み取る Apache Beam SDK for Python を使用してパイプラインを作成します。
データマスキングのための Cloud DLP との統合を含む、データ処理用の変換を追加します。
データフローを構成する:
Google Cloud Dataflow に Apache Beam パイプラインをデプロイします。
ストリーミングとバッチの両方のユースケースに合わせてパイプラインオプションをカスタマイズします。
BigQuery にデータをロードします。
Apache Beam パイプラインのデータのシンクとして BigQuery を設定します。
処理およびマスクされたデータが適切な BigQuery テーブルに読み込まれていることを確認します。
参考リンク:
Apache Beam ドキュメント
Google Cloud Dataflow ドキュメント
Google Cloud DLP ドキュメント
BigQuery ドキュメント

Professional-Data-Engineer 試験問題 212

BigQueryにあるあなたの会社のcustomer_orderテーブルには、1,000万人の顧客の注文履歴が保存されており、テーブルサイズは10PBです。サポートチームが注文履歴を閲覧するためのダッシュボードを作成する必要があります。ダッシュボードには、countrynameとusernameという2つのフィルターがあります。どちらもBigQueryテーブルの文字列データ型です。フィルターが適用されると、ダッシュボードはテーブルから注文履歴を取得し、クエリ結果を表示します。
ただし、次のクエリにフィルターを適用すると、ダッシュボードに結果が表示されるまでに時間がかかります。

より高速なアクセスをサポートするには、BigQuery テーブルをどのように再設計すればよいでしょうか?

A. テーブルを国フィールドでクラスタ化し、ユーザー名フィールドでパーティション化します。

B. 国とユーザー名のフィールドごとにテーブルをパーティション分割します。

C. 国とユーザー名のフィールドごとにテーブルをクラスタ化する

D. _PARTITIONTIME でテーブルをパーティション分割します。

正解: C

国名とユーザー名のフィルターを適用した大規模なBigQueryテーブルへのクエリパフォーマンスを向上させるには、これらのフィールドでテーブルをクラスタリングするのが最も効果的なアプローチです。オプションCが最適な選択肢である理由は次のとおりです。
* BigQuery でのクラスタリング:
* クラスタリングは、指定された列の値に基づいてデータを整理します。これにより、クエリ実行中にスキャンされるデータ量が削減され、クエリのパフォーマンスが大幅に向上します。
* 国名とユーザー名によるクラスタリングは、データがこれらのフィールドに基づいて物理的に分類され、一緒に保存されることを意味します。これにより、BigQuery はこれらのフィルタを使用して、クエリに関連するデータのみをすばやく見つけて読み取ることができます。
* フィルター効率:
* テーブルが countryname と username でクラスター化されているため、これらの列でフィルターするクエリでは、効率的なデータ取得のメリットが得られ、処理されるデータの量が削減され、クエリの実行が高速化されます。
* これにより、これらのフィールドにフィルターを適用するダッシュボードクエリのパフォーマンスの問題が直接解決されます。
実装手順:
* テーブルを再設計する:
* countryname と username をクラスタリングした新しいテーブルを作成します。
テーブル project.dataset.new_table を作成します。
国名、ユーザー名によるクラスター
project.dataset.customer_order から * を選択します。
* データの移行:
* 元のテーブルから新しいクラスター化テーブルに既存のデータを転送します。
* 更新クエリ:
* 新しいクラスター化テーブルを参照するようにダッシュボードクエリを変更します。
参考リンク:
* BigQuery クラスタリングのドキュメント
* クエリパフォーマンスの最適化

Professional-Data-Engineer 試験問題 213

あなたはeコマース企業向けのカート放棄システムを設計しています。このシステムは、以下のルールに基づいてユーザーにメッセージを送信します。
1時間、サイト上でユーザーによるインタラクションがない

30ドル以上の商品をカートに追加した

取引
Google Cloud Dataflow を使用してデータを処理し、メッセージを送信するかどうかを決定します。パイプラインはどのように設計すればよいでしょうか？

A. 60 分間の固定時間ウィンドウを使用します。

B. 期間が 60 分のスライディングタイムウィンドウを使用します。

C. 60 分の遅延を持つ時間ベースのトリガーでグローバルウィンドウを使用します。

D. ギャップ時間が 60 分のセッションウィンドウを使用します。

Professional-Data-Engineer 試験問題 214

組織内の各分析チームは、それぞれのプロジェクトでBigQueryジョブを実行しています。各チームがプロジェクト内のスロット使用状況を監視できるようにしたいと考えています。どうすればよいでしょうか？

A. BigQuery メトリック query/scanned_bytes に基づいて Stackdriver Monitoring ダッシュボードを作成する

B. 各プロジェクトのログエクスポートを作成し、BigQuery ジョブ実行ログをキャプチャし、totalSlotMs に基づいてカスタム指標を作成し、カスタム指標に基づいて Stackdriver Monitoring ダッシュボードを作成します。

C. BigQuery メトリック slots/allocated_for_project に基づいて Stackdriver Monitoring ダッシュボードを作成する

D. 組織レベルで集約されたログエクスポートを作成し、BigQuery ジョブ実行ログをキャプチャし、totalSlotMs に基づいてカスタム指標を作成し、カスタム指標に基づいて Stackdriver Monitoring ダッシュボードを作成します。

Professional-Data-Engineer 試験問題 215

ペタバイト規模の分析データがあり、それを保存するストレージおよび処理プラットフォームを設計する必要があります。Google Cloud 上のデータに対してデータウェアハウス形式の分析を実行し、データセットをファイルとして他のクラウドプロバイダのバッチ分析ツールに公開する必要があります。どうすればよいでしょうか？

A. データセット全体を Cloud Bigtable に保存して処理します。

B. ウォームデータをファイルとして Cloud Storage に保存し、アクティブデータを BigQuery に保存します。この比率は、ウォームデータ 80%、アクティブデータ 20% に維持します。

C. データセット全体を BigQuery に保存して処理します。

D. 完全なデータセットを BigQuery に保存し、データの圧縮コピーを Cloud Storage バケットに保存します。

Professional-Data-Engineer プレミアム問題集

365日無料更新
専門家プレゼンツ
403 問題と解答
Windows / Mac / Android / iOS　などをサポート

最新 Google Professional-Data-Engineer 試験問題集は GoShiken.com のサポートで Professional-Data-Engineer 試験を合格させます！

(40%OFF 特別割引: JPNPDF)

今すぐダウンロード

他のバージョン: 579Google.Professional-Data-Engineer.v2026-05-11.q113; 2315Google.Professional-Data-Engineer.v2025-01-13.q310; 2353Google.Professional-Data-Engineer.v2024-06-07.q281; 1884Google.Professional-Data-Engineer.v2023-09-15.q214; 2279Google.Professional-Data-Engineer.v2022-11-23.q197

最新アップロード: 120Scrum.PSM-III.v2026-06-18.q13; 134Oracle.1z0-1033-25.v2026-06-18.q45; 127Salesforce.Mule-101.v2026-06-17.q19; 144Citrix.1Y0-204.v2026-06-17.q142; 178CrowdStrike.CCCS-203b.v2026-06-16.q114; 142WGU.Operations-Management.v2026-06-16.q23; 202EC-COUNCIL.312-49v11.v2026-06-16.q204; 259Microsoft.PL-300.v2026-06-16.q439; 152Fortinet.FCSS_LED_AR-7.6.v2026-06-16.q43; 212CheckPoint.156-215.82.v2026-06-15.q106