[2025-01-13更新,310問] 無料Google Professional-Data-Engineer試験問題集、Professional-Data-Engineer日本語関連対策(ページ 45)

Professional-Data-Engineer 試験問題 216

組織のマーケティングチームは、顧客データセットのセグメントの定期的な更新を提供します。
マーケティングチームから、BigQuery で更新する必要がある 100 万件のレコードを含む CSV を受け取りました。BigQuery で UPDATE ステートメントを使用すると、quotaExceeded エラーが発生します。どうすればよいでしょうか。

A. BigQuery UPDATE DML ステートメントの制限内に収まるように、毎日更新されるレコードの数を減らします。

B. Google Cloud Platform Console の割り当て管理セクションで、BigQuery UPDATE DML ステートメントの制限を増やします。

C. ソース CSV ファイルを Cloud Storage 内の小さな CSV ファイルに分割して、BigQuery ジョブあたりの BigQuery UPDATE DML ステートメントの数を減らします。

D. CSV ファイルから新しいレコードを新しい BigQuery テーブルにインポートします。新しいレコードを既存のレコードとマージし、結果を新しい BigQuery テーブルに書き込む BigQuery ジョブを作成します。

Professional-Data-Engineer 試験問題 217

フローロジスティックのケーススタディ
会社概要
Flowlogistic は、大手の物流およびサプライチェーンプロバイダーです。同社は、世界中の企業がリソースを管理し、最終目的地まで輸送するのを支援しています。同社は急速に成長し、鉄道、トラック、航空機、海上輸送を含むサービスを拡大しています。
会社概要
同社は地域のトラック輸送会社としてスタートし、その後他の物流市場に拡大しました。インフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。業務を改善するために、Flowlogistic は荷物レベルで出荷をリアルタイムで追跡する独自のテクノロジーを開発しました。しかし、Apache Kafka に基づくテクノロジースタックでは処理量に対応できないため、これを展開することができません。さらに、Flowlogistic は注文と出荷をさらに分析して、リソースを最も効果的に展開する方法を決定したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
* 荷物の位置を示すリアルタイム在庫追跡システムに独自の技術を使用する
* 構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析し、リソースを最も効果的に配備する方法、情報を拡張する市場を決定します。また、予測分析を使用して、出荷が遅れる時期を早めに把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータセンターに存在します。
* データベース
* 2 つのクラスターに 8 台の物理サーバー
* SQL Server - ユーザーデータ、インベントリ、静的データ
* 物理サーバー 3 台
* Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
* アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア
* 20台の物理サーバーにまたがる60台の仮想マシン
* Tomcat - Java サービス
* Nginx - 静的コンテンツ
* バッチサーバー
ストレージ機器
* 仮想マシン (VM) ホスト用の iSCSI
* ファイバーチャネルストレージエリアネットワーク (FC SAN) - SQL サーバーストレージ
* ネットワーク接続ストレージ (NAS) イメージストレージ、ログ、バックアップ
* 10台のApache Hadoop /Sparkサーバー
* コアデータレイク
* データ分析のワークロード
* その他サーバー 20 台
* Jenkins、モニタリング、要塞ホスト、
ビジネス要件
* スケールされた生産範囲で信頼性が高く再現可能な環境を構築します。
* 分析のために集中化されたデータレイクにデータを集約する
* 過去のデータを使用して将来の出荷に関する予測分析を実行する
* 独自の技術を使用して、世界中のすべての出荷を正確に追跡します
* 新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上
* クラウドでのパフォーマンスのためにアーキテクチャを分析し、最適化する
* 他のすべての要件が満たされている場合は、クラウドに完全に移行します
技術要件
* ストリーミングとバッチデータの両方を処理
* 既存のHadoopワークロードを移行する
* 会社の変化する需要を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。
* 可能な限りマネージドサービスを利用する
* 飛行中および保存中のデータを暗号化
* 実稼働データセンターとクラウド環境の間に VPN を接続する SEO ステートメント当社は急速に成長したため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率の妨げになっています。当社は、世界中への出荷は効率的に行っていますが、データの移動は非効率的です。
顧客がどこにいて、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO 声明
IT は当社にとって優先事項ではありませんでした。そのため、データが増えてもテクノロジーに十分な投資ができませんでした。IT を管理する優秀なスタッフがいますが、彼らはインフラストラクチャの管理に忙しく、データの整理、分析の構築、CFO の追跡テクノロジーの実装方法の検討など、本当に重要な作業を行うことができません。
CFOの声明
弊社の競争上の優位性の一部は、出荷や配送の遅れに対して自分たちにペナルティを課すことです。出荷品がどこにあるかを常に把握することは、弊社の最終利益と収益性に直接関係しています。また、サーバー環境の構築に資本を投入したくありません。
Flowlogistic は、リアルタイムの在庫追跡システムを展開しています。追跡デバイスはすべて荷物追跡メッセージを送信しますが、そのメッセージは Apache Kafka クラスタではなく、単一の Google Cloud Pub/Sub トピックに送信されます。その後、サブスクライバーアプリケーションがメッセージを処理してリアルタイムレポートを作成し、履歴分析のために Google BigQuery に保存します。荷物データを時間の経過とともに分析できるようにする必要があります。
どのようなアプローチを取るべきでしょうか?

A. Cloud Pub/Sub サブスクライバーアプリケーションで受信される各メッセージにタイムスタンプを添付します。

B. BigQuery の NOW () 関数を使用して、イベントの時間を記録します。

C. 各パブリッシャーデバイスから Clod Pub/Sub に送信される送信メッセージに、タイムスタンプとパッケージ ID を添付します。

D. Cloud Pub/Sub から自動的に生成されたタイムスタンプを使用してデータを順序付けます。

Professional-Data-Engineer 試験問題 218

あなたの会社では、独自のシステムを使用して、6 時間ごとに在庫データをクラウドのデータ取り込みサービスに送信しています。送信されるデータには、いくつかのフィールドのペイロードと送信のタイムスタンプが含まれます。送信に関して懸念事項がある場合、システムはデータを再送信します。データを最も効率的に重複排除するにはどうすればよいでしょうか。

A. 各データエントリにグローバル一意識別子 (GUID) を割り当てます。

B. 各データエントリのハッシュ値を計算し、それをすべての履歴データと比較します。

C. 各データエントリを個別のデータベースの主キーとして保存し、インデックスを適用します。

D. 各データエントリのハッシュ値やその他のメタデータを格納するデータベーステーブルを維持します。

Professional-Data-Engineer 試験問題 219

ケーススタディ: 1 - Flowlogistic
会社概要
Flowlogistic は、大手の物流およびサプライチェーンプロバイダーです。同社は、世界中の企業がリソースを管理し、最終目的地まで輸送するのを支援しています。同社は急速に成長し、鉄道、トラック、航空機、海上輸送を含むサービスを拡大しています。
会社概要
当社は地域のトラック運送会社としてスタートし、その後他の物流市場へ事業を拡大しました。
インフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。業務を改善するために、Flowlogistic は荷物レベルで出荷をリアルタイムで追跡する独自のテクノロジーを開発しました。しかし、Apache Kafka に基づくテクノロジースタックでは処理量に対応できないため、これを導入できません。さらに、Flowlogistic は注文と出荷をさらに分析して、リソースを最適に導入する方法を決定したいと考えています。
ソリューションコンセプト
Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
リアルタイムの在庫追跡システムで自社の独自技術を使用して、荷物の位置を示します。構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析し、リソースを最も効果的に配備する方法、どの市場に情報を展開するかを決定します。また、予測分析を使用して、出荷が遅れる時期を早めに把握したいと考えています。
既存の技術環境
Flowlogistic アーキテクチャは単一のデータセンターに存在します。
データベース
2 つのクラスターに 8 台の物理サーバー
SQL Server - ユーザーデータ、インベントリ、静的データ
物理サーバー 3 台
Cassandra - メタデータ、メッセージ追跡
10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア 20 台の物理サーバーにわたる 60 台の仮想マシン Tomcat - Java サービス Nginx - 静的コンテンツバッチサーバーストレージアプライアンス仮想マシン (VM) ホスト用の iSCSI ファイバーチャネルストレージエリアネットワーク (FC SAN) SQL サーバーストレージネットワーク接続ストレージ (NAS) イメージストレージ、ログ、バックアップ Apache Hadoop /Spark サーバーコアデータレイクデータ分析ワークロード
その他サーバー 20 台
Jenkins、監視、要塞ホスト、
ビジネス要件
拡張された生産範囲で、信頼性が高く再現可能な環境を構築します。分析のために集中管理されたデータレイクにデータを集約します。履歴データを使用して、将来の出荷に関する予測分析を実行します。独自のテクノロジーを使用して、世界中のすべての出荷を正確に追跡します。新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上させます。クラウドでのパフォーマンスのためにアーキテクチャを分析して最適化します。他のすべての要件が満たされている場合は、完全にクラウドに移行します。技術要件ストリーミングデータとバッチデータの両方を処理します。既存の Hadoop ワークロードを移行します。会社の変化する需要を満たすために、アーキテクチャがスケーラブルで柔軟であることを確認します。
可能な限りマネージドサービスを利用する
飛行中および保存中のデータを暗号化
実稼働データセンターとクラウド環境の間に VPN を接続する SEO ステートメント当社は急速に成長したため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率の妨げになっています。当社は、世界中への出荷の移動は効率的ですが、データの移動は非効率的です。
顧客がどこにいて、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTO 声明
IT は当社にとって優先事項ではありませんでした。そのため、データが増えてもテクノロジーに十分な投資ができませんでした。IT を管理する優秀なスタッフがいますが、彼らはインフラストラクチャの管理に忙しく、データの整理、分析の構築、CFO の追跡テクノロジーの実装方法の検討など、本当に重要な作業を行うことができません。
CFOの声明
当社の競争上の優位性の一部は、出荷や配達の遅れに対して自らにペナルティを課すことです。出荷品がどこにあるかを常に把握することは、当社の最終利益と収益性に直接関係しています。
さらに、サーバー環境の構築に資本を投入したくありません。
Flowlogistic は Google BigQuery を主要な分析システムとして使用したいと考えていますが、Apache Hadoop と Spark のワークロードがまだ存在しており、BigQuery に移行できません。Flowlogistic は、両方のワークロードに共通するデータを保存する方法を知りません。どうすればよいでしょうか?

A. 共通データを BigQuery に保存し、承認済みビューを公開します。

B. 共通データをパーティション分割されたテーブルとして BigQuery に保存します。

C. Google Cloud Dataproc クラスタの HDFS ストレージに共通データを保存します。

D. Avro としてエンコードされた共通データを Google Cloud Storage に保存します。

Professional-Data-Engineer 試験問題 220

特定の条件が満たされた場合に、ウィンドウのコンテンツをいつ出力するかを決定するデータフローの概念は何ですか?

A. セッション

B. 出力基準

C. ウィンドウ

D. トリガー

他のバージョン: 557Google.Professional-Data-Engineer.v2026-05-11.q113; 890Google.Professional-Data-Engineer.v2025-12-29.q327; 2329Google.Professional-Data-Engineer.v2024-06-07.q281; 1867Google.Professional-Data-Engineer.v2023-09-15.q214; 2265Google.Professional-Data-Engineer.v2022-11-23.q197

最新アップロード: 105CrowdStrike.CCCS-203b.v2026-06-16.q114; 105WGU.Operations-Management.v2026-06-16.q23; 136EC-COUNCIL.312-49v11.v2026-06-16.q204; 103Microsoft.PL-300.v2026-06-16.q439; 116Fortinet.FCSS_LED_AR-7.6.v2026-06-16.q43; 160CheckPoint.156-215.82.v2026-06-15.q106; 120Salesforce.AP-215.v2026-06-15.q22; 134Nutanix.NCP-MCI-6.10.v2026-06-15.q88; 161CompTIA.CV0-004.v2026-06-15.q237; 166Microsoft.MS-102.v2026-06-15.q316

Professional-Data-Engineer 試験問題 216

Professional-Data-Engineer 試験問題 217

Professional-Data-Engineer 試験問題 218

Professional-Data-Engineer 試験問題 219

Professional-Data-Engineer 試験問題 220

PDFファイルをダウンロード