[2024-06-07更新,281問] 無料Google Professional-Data-Engineer試験問題集、Professional-Data-Engineer試験情報(ページ 12)

Professional-Data-Engineer 試験問題 51

あなたは、複数の異なるデータエンジニアリングチームがデータプロダクトを構築しながら、Google Cloud 上でデータメッシュを設計しています。一般的なデータキュレーションの設計パターンは、ファイルを Cloud Storage に配置し、Cloud Storage と BigQuery データセットで生データを変換することで構成されます。各チームがデータプロダクトの構築に必要なアセットのみにアクセスできるように、Dataplex を構成する必要があります。また、チームが厳選されたデータ製品を簡単に共有できるようにする必要もあります。あなたは何をするべきか？

A. 1 単一の Dataplex 仮想レイクを作成し、未加工の着陸を含む単一のゾーンを作成します。そして厳選されたデータ。
2 各データエンジニアリングチームに仮想レイクへのアクセスを提供します。

B. 1 単一の Dataplex 仮想レイクを作成し、未加工の着陸を含む単一のゾーンを作成します。そして厳選されたデータ。
2 ゾーン内のデータ製品ごとに個別のアセットを構築します。
3. ゾーンレベルでデータエンジニアリングチームに権限を割り当てます。

C. 1 データ製品ごとに Dataplex 仮想レイクを作成し、ランディングデータ、生データ、キュレーションデータを含む単一のゾーンを作成します。
2. データエンジニアリングチームに、データ製品に割り当てられた仮想レイクへのフルアクセスを提供します。

D. 1 データ製品ごとに Dataplex 仮想レイクを作成し、未加工のランディング用の複数のゾーンを作成します。そして厳選されたデータ。
2. データエンジニアリングチームに、データ製品に割り当てられた仮想レイクへのフルアクセスを提供します。

正解: D

このオプションは、各データエンジニアリングチームがデータ製品を完全に所有し制御できると同時に、組織全体で厳選されたデータを簡単に検出して共有できるため、データメッシュアーキテクチャ向けに Dataplex を構成する最適な方法です12。データ製品ごとに Dataplex 仮想レイクを作成することで、データ資産とリソースをドメインごとに分離し、異なるチーム間の競合や依存関係を回避できます3。ランディングデータ、生データ、およびキュレーションデータ用に複数のゾーンを作成することで、データキュレーションプロセスの各段階に異なるセキュリティポリシーとガバナンスポリシーを適用し、承認されたユーザーのみがデータ資産にアクセスできるようにすることができます45。データエンジニアリングチームに、データ製品に割り当てられた仮想レイクへのフルアクセスを提供することで、データ製品を管理および監視し、タグ付け、品質、リネージなどの Dataplex 機能を活用できるようになります。
オプション A は、データメッシュに単一障害点とボトルネックを作成し、さまざまなデータ製品に対するきめ細かいアクセス制御とガバナンスを実現できないため、適切ではありません2。オプション B も、データ製品ごとにデータ資産とリソースを分離せず、ゾーンレベルで権限を割り当てるため、適切ではありません。これは、データエンジニアリングチームのさまざまな役割と責任を反映していない可能性があります34。オプション C はオプション A および B よりも優れていますが、ランディングデータ、生データ、および厳選されたデータ用の複数のゾーンが作成されないため、データ製品のセキュリティと品質が損なわれる可能性があります5。参考文献:
*1: BigQuery と Dataplex を使用して Google Cloud 上にデータメッシュを構築 | Google クラウドブログ
* 2: データメッシュ - 始めるための 7 つの効果的なプラクティス - Confluent
* 3: ベストプラクティス | データプレックス | グーグルクラウド
* 4: 湖を確保する | データプレックス | グーグルクラウド
* 5: ゾーン | データプレックス | グーグルクラウド
* [6]: Dataplex を使用したデータメッシュの管理 - ROI トレーニング

Professional-Data-Engineer 試験問題 52

BigQuery データウェアハウス内のメインの在庫テーブルを読み取る、ほぼリアルタイムの在庫ダッシュボードを作成する必要があります。過去の在庫データは、品目別および場所別の在庫残高として保存されます。インベントリには 1 時間ごとに数千件の更新が行われます。ダッシュボードのパフォーマンスを最大化し、データが正確であることを確認したいと考えています。あなたは何をするべきか？

A. BigQuery バルクローダーを使用して、在庫の変更を毎日の在庫移動テーブルにバッチ読み込みします。
過去の在庫残高テーブルに結合するビューで残高を計算します。在庫残高表を毎晩更新します。

B. BigQuery ストリーミングを使用して、ストリームを毎日の在庫移動テーブルに変更します。過去の在庫残高テーブルに結合するビューで残高を計算します。在庫残高表を毎晩更新します。

C. 在庫残高テーブルを品目ごとに分割して、在庫更新ごとにスキャンされるデータの量を削減します。

D. BigQuery UPDATE ステートメントを利用して、在庫残高の変化に応じて更新します。

Professional-Data-Engineer 試験問題 53

あなたは、3 つの診療所の数百人の患者を対象とするパイロットプロジェクトとして、患者記録のデータベースを設計しました。設計では、単一のデータベーステーブルを使用してすべての患者とその訪問を表し、自己結合を使用してレポートを生成しました。サーバーのリソース使用率は 50% でした。それ以来、プロジェクトの範囲は拡大しました。データベースには 100 倍以上の患者記録を保存する必要があります。時間がかかりすぎるか、コンピューティングリソースが不十分なためにエラーが発生するため、レポートを実行できなくなります。データベース設計をどのように調整すればよいでしょうか?

A. マスター患者記録テーブルを患者テーブルと訪問テーブルに正規化し、自己結合を避けるために他の必要なテーブルを作成します。

B. 日付範囲に基づいてテーブルをより小さなテーブルに分割し、事前に指定された日付範囲を持つレポートのみを生成します。

C. データベースサーバーに容量 (メモリとディスク領域) を 200 単位で追加します。

D. テーブルを小さなテーブルに分割し、診療所ごとに 1 つずつ割り当てます。小さいテーブルのペアに対してクエリを実行し、統合レポートにユニオンを使用します。

Professional-Data-Engineer 試験問題 54

カンマ区切り値 (CSV) ファイルから Google にデータをロードするのに数日を費やしました。
BigQuery テーブル CLICK_STREAM。列 DT には、クリックイベントのエポック時間が格納されます。便宜上、
すべてのフィールドが STRINGtype として扱われる単純なスキーマを選択しました。さて、計算したいのは
サイトを訪問するユーザーの Web セッション継続時間に応じて、そのデータタイプを
タイムスタンプ。今後の計算クエリを作成せずに移行作業を最小限に抑えたい
高い。あなたは何をするべきか？

A. テーブル CLICK_STREAM を削除し、TIMESTAMP の列 DTi になるようにテーブルを再作成します。
タイプ。データをリロードします。

B. テーブル CLICK STREAM に 2 つの列を追加します: TIMESTAMP タイプの TS とタイプの IS_NEW
ブール型。すべてのデータを追加モードでリロードします。追加された各行について、IS_NEW の値を次のように設定します。
真実。今後のクエリでは、WHERE 句を使用して列 DT の代わりに列 TS を参照します。
IS_NEW の値が true であることを確認する必要があります。

C. ビュー CLICK_STREAM_V を作成します。ここで、列 DT の文字列が TIMESTAMP 値にキャストされます。
今後は、テーブル CLICK_STREAM の代わりにビュー CLICK_STREAM_V を参照します。

D. TIMESTAMP タイプの列 TS をテーブル CLICK_STREAM に追加し、数値を入力します。
各行の TS 列の値。これからは DT 列の代わりに TS 列を参照します
の上。

E. 組み込み関数を使用してテーブル CLICK_STREAM のすべての行を返すクエリを構築します。
列 DTin の文字列を TIMESTAMP 値にキャストします。宛先テーブルにクエリを実行します。
NEW_CLICK_STREAM。列 TS は TIMESTAMP タイプです。表を参照
今後は、テーブル CLICK_STREAM の代わりに NEW_CLICK_STREAM が使用されます。今後、新しいデータは、
テーブル NEW_CLICK_STREAM にロードされます。

Professional-Data-Engineer 試験問題 55

ケーススタディ: 2 - MJTelco
会社概要
MJTelco は、急速に成長している世界中の十分なサービスが提供されていない市場にネットワークを構築することを計画している新興企業です。同社は革新的な光通信ハードウェアに関する特許を取得しています。これらの特許に基づいて、安価なハードウェアを使用して信頼性の高い高速バックボーンリンクを多数作成できます。
会社背景
経験豊富な通信会社幹部によって設立された MJTelco は、もともと宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。運用の基礎として、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データインフラストラクチャを作成する必要があります。同社のハードウェアは安価であるため、場所の可用性とコストに対する動的な地域政治の影響を考慮して、ネットワークを過剰に展開することを計画しています。同社の管理および運用チームは世界中に配置されており、システム内のデータ利用者と提供の間に多対多の関係を構築しています。慎重に検討した結果、パブリッククラウドがニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelco は、自社の研究所で概念実証 (PoC) プロジェクトを成功させています。彼らには 2 つの主要なニーズがあります。
インストール数が 50,000 を超えた場合に生成される大幅に多くのデータフローをサポートするために、PoC を拡張および強化します。
機械学習サイクルを改良して、トポロジー定義の制御に使用する動的モデルを検証および改善します。
MJTelco はまた、開発/テスト、ステージング、本番という 3 つの異なるオペレーティング環境を使用します。
実験の実行、新機能の導入、運用顧客へのサービスのニーズを満たすために。
ビジネス要件
最小限のコストで運用環境をスケールアップし、予測不可能な分散型通信ユーザーコミュニティで必要なときに必要な場所でリソースをインスタンス化します。独自のデータのセキュリティを確保して、最先端の機械学習と分析を保護します。
分散した研究員から分析用データへの信頼性が高く、タイムリーなアクセスを提供します。顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする隔離された環境を維持します。
技術的要件
テレメトリデータの安全かつ効率的な転送と保存を確保します。インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ～ 100,000 のデータプロバイダーをサポートします。
約 2 年間保存されているデータを追跡するデータテーブルに対する分析とプレゼンテーションが可能
100m記録/日
テレメトリフローと実稼働学習サイクルの両方におけるデータパイプラインの問題の認識に重点を置いたモニタリングインフラストラクチャの迅速な反復をサポートします。
CEOの声明
当社のビジネスモデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されているため、コスト面でのメリットが得られます。信頼性と容量の約束を満たすために、大規模な分散データパイプラインを迅速に安定させる必要があります。
CTO ステートメント
当社のパブリッククラウドサービスは、宣伝どおりに動作する必要があります。データを拡張し、安全に保つためのリソースが必要です。データサイエンティストがモデルを注意深く研究し、迅速に適応できる環境も必要です。私たちは自動化に依存してデータを処理しているため、反復中に機能する開発環境とテスト環境も必要です。
CFO ステートメント
プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持できません。
また、非常に多くのデータフィードを監視するための運用チームに人員を配置する余裕はないため、自動化とインフラストラクチャに依存することになります。Google Cloud の機械学習により、定量的研究者はデータパイプラインの問題ではなく、価値の高い問題に取り組むことができるようになります。
次の要件を満たす運用チーム向けのビジュアライゼーションを作成する必要があります。
テレメトリには、最近 6 週間の 50,000 件のインストールすべてからのデータが含まれている必要があります (1 分ごとにサンプリング)。レポートはライブデータから 3 時間以上遅れてはなりません。実用的なレポートには、最適ではないリンクのみが表示される必要があります。
最適ではないリンクのほとんどは先頭に並べ替える必要があります。
最適ではないリンクは、地域ごとにグループ化してフィルタリングできます。レポートをロードするためのユーザーの応答時間は 5 秒未満である必要があります。過去 6 週間のデータを保存するデータソースを作成し、複数の日付範囲、個別の地理的地域、および固有のインストールタイプを表示できるビジュアライゼーションを作成します。
ビジュアライゼーションを変更することなく、常に最新のデータを表示できます。毎月新しいビジュアライゼーションを作成および更新することは避けたいと考えています。あなたは何をするべきか？

A. データをスプレッドシートにエクスポートし、考えられる基準の組み合わせごとに 1 つずつ一連のグラフと表を作成し、複数のタブに分散します。

B. 現在のデータを調べて、値の選択を可能にする基準フィルターにバインドされた一般化されたグラフと表の小さなセットを作成します。

C. 現在のデータを調べて、考えられる条件の組み合わせごとに 1 つずつ、一連のグラフと表を作成します。

D. データをリレーショナルデータベーステーブルに読み込み、すべての行をクエリし、各基準にわたってデータを要約し、Google チャートと視覚化 API を使用して結果を表示する Google App Engine アプリケーションを作成します。

Professional-Data-Engineer プレミアム問題集

365日無料更新
専門家プレゼンツ
403 問題と解答
Windows / Mac / Android / iOS　などをサポート

最新 Google Professional-Data-Engineer 試験問題集は GoShiken.com のサポートで Professional-Data-Engineer 試験を合格させます！

(40%OFF 特別割引: JPNPDF)

今すぐダウンロード

他のバージョン: 471Google.Professional-Data-Engineer.v2026-05-11.q113; 815Google.Professional-Data-Engineer.v2025-12-29.q327; 2209Google.Professional-Data-Engineer.v2025-01-13.q310; 1796Google.Professional-Data-Engineer.v2023-09-15.q214; 2239Google.Professional-Data-Engineer.v2022-11-23.q197

最新アップロード: 103Oracle.1z0-1057-25.v2026-06-04.q45; 104Amazon.AWS-Certified-Developer-Associate.v2026-06-04.q323; 106Fortinet.FCSS_SDW_AR-7.4.v2026-06-04.q76; 131SAP.C_THR88_2505.v2026-06-03.q76; 149WGU.Web-Development-Applications.v2026-06-03.q73; 130Salesforce.Mule-Dev-301.v2026-06-02.q22; 181CISI.IFC.v2026-06-02.q111; 192Huawei.H13-611_V5.0.v2026-06-01.q113; 224Cisco.200-201.v2026-06-01.q230; 184Huawei.H35-211_V2.5.v2026-06-01.q109