[2024-06-10更新,315問] 無料Microsoft DP-203試験問題集、DP-203専門知識内容(ページ 33)

DP-203 試験問題 156

Azure Databricks 上の Delta Lake のテーブルを使用する 2 つのソリューションを設計しています。
以下の実行にかかる時間を最小限に抑える必要があります。
*パーティション化されていないテーブルに対するクエリ
* パーティション化されていない列での結合
ソリューションに含めるべき 2 つのオプションはどれですか? それぞれの正解は、解決策の一部を示しています。
(正解を選択し、Microsoft Azure 上のデータエンジニアリングに基づいて答えを裏付ける説明と参照を提供します)

A. Z オーダー

B. Apache Spark キャッシュ

C. 動的ファイルプルーニング (DFP)

D. クローンコマンド

正解: A,C

説明
Web で見つけた情報によると、パーティション化されていないテーブルでのクエリと結合の実行にかかる時間を最小限に抑えるために、ソリューションに含める必要がある 2 つのオプションは次のとおりです。
* Z オーダー: これは、関連する情報を同じファイルセット内に配置する手法です。この共局性は、Delta Lake のデータスキップアルゴリズムで自動的に使用されます。この動作により、
* Azure Databricks 上の Delta Lake が読み取る必要があるデータの量123。
* Apache Spark キャッシュ: これは、アクセスを高速化するためにデータをメモリまたはディスクにキャッシュできる機能です。キャッシュにより、同じデータに対する繰り返しのクエリと結合のパフォーマンスが向上します。CACHE TABLE または CACHE LAZY コマンドを使用して、デルタテーブルをキャッシュできます。
Azure Databricks の Delta Lake で、パーティション化されていないテーブルに対するクエリとパーティション化されていない列の結合を実行するのにかかる時間を最小限に抑えるには、ソリューションに次のオプションを含める必要があります。
A: Z-Ordering: Z-Ordering は、同じ物理パーティション内で同じ列値を共有するデータを同じ場所に配置することにより、クエリのパフォーマンスを向上させます。これにより、クエリの実行中にノード間でデータをシャッフルする必要性が軽減されます。Z オーダーを使用すると、テーブル全体のスキャンを回避し、処理されるデータ量を減らすことができます。
B: Apache Spark キャッシュ: データをメモリにキャッシュすると、ディスクから読み取られるデータの量が減り、クエリのパフォーマンスが向上します。これは、同じデータにアクセスする必要がある後続のクエリを高速化するのに役立ちます。テーブルをキャッシュすると、データがデータソースから読み取られてメモリに保存されます。後続のクエリではメモリからデータを読み取ることができるため、ディスクから読み取るよりもはるかに高速です。
参考文献:
* Databricks のデルタレイク: https://docs.databricks.com/delta/index.html
* デルタ湖のベストプラクティス
Databricks: https://databricks.com/blog/2020/05/14/best-practices-for-delta-lake-on-databricks.html

DP-203 試験問題 157

Azure Synapse Analytics でエンタープライズデータウェアハウスを管理します。
ユーザーは、よく使用されるクエリを実行するとパフォーマンスが遅いと報告します。ユーザーは、使用頻度が低いクエリのパフォーマンスの変化を報告しません。
パフォーマンスの問題の原因を特定するには、リソースの使用率を監視する必要があります。
どの指標を監視する必要がありますか?

A. データ IO の割合

B. キャッシュ使用率

C. ローカル tempdb の割合

D. DWU パーセンテージ

DP-203 試験問題 158

Azure databricks を使用して Purchases という名前のデータセットを開発する予定です。 Purchases には次の列が含まれます。
* 製品番号
* 商品価格
* line合計
* 量
* ストアID
* 分
* 月
* 時間
* 年
* 日
StoreID ごとに異なる時間ごとの増分ロードパイプラインをサポートするには、データを保存する必要があります。ソリューションではストレージコストを最小限に抑える必要があります。どのようにライドを完了する必要がありますか? 回答するには、回答領域で適切なオプションを選択します。
注: 正しく選択するたびに 1 ポイントの価値があります。

DP-203 試験問題 159

ADFdev と ADFprod という名前の 2 つの Azure Data Factory インスタンスがあります。ADFdev は Azure DevOps Git リポジトリに接続します。
変更を Git リポジトリのメインブランチから ADFdev に公開します。
アーティファクトをADFdevからADFprodにデプロイする必要があります。
まず何をすべきでしょうか?

A. ADFdev から、Git 構成を変更します。

B. ADFdev から、リンクされたサービスを作成します。

C. Azure DevOps から、リリースパイプラインを作成します。

D. Azure DevOps から、メインブランチを更新します。

DP-203 試験問題 160

ADF1 という名前の Azure Data Factory インスタンスと、WS1 および WS2 という名前の 2 つの Azure Synapse Analytics ワークスペースがあります。
ADF1 には次のパイプラインが含まれています。
* P1: コピーアクティビティを使用して、WS1 の専用 SQL プール内のパーティション分割されていないテーブルから Azure Data Lake Storage Gen2 アカウントにデータをコピーします。
* P2: コピーアクティビティを使用して、Azure Data Lake Storage Gen2 アカウント内のテキスト区切りファイルから WS2 の専用 SQL プール内のパーティション分割されていないテーブルにデータをコピーします。並列処理とパフォーマンスを最大化するには、P1 と P2 を構成する必要があります。
各パイプラインの場合、コピーアクティビティに対してどのデータセット設定を構成する必要がありますか? 回答するには、回答領域で適切なオプションを選択してください。
注: 正しく選択するたびに 1 ポイントの価値があります。

他のバージョン: 1130Microsoft.DP-203.v2025-03-26.q204; 894Microsoft.DP-203.v2024-12-16.q109; 2599Microsoft.DP-203.v2023-10-14.q313; 2307Microsoft.DP-203.v2022-11-14.q191

最新アップロード: 103Databricks.Databricks-Certified-Professional-Data-Engineer.v2026-06-22.q208; 120Oracle.1z0-1054-25.v2026-06-22.q64; 105Fortinet.NSE5_FSW_AD-7.6.v2026-06-22.q41; 104Salesforce.MC-202.v2026-06-22.q57; 107Nutanix.NCA-6.10.v2026-06-22.q43; 132Workday.Workday-Pro-Talent-and-Performance.v2026-06-20.q18; 158Fortinet.NSE4_FGT_AD-7.6.v2026-06-20.q64; 146EMC.D-ISM-FN-01.v2026-06-20.q22; 154F5.F5CAB5.v2026-06-19.q20; 154SAP.C_P2W52_2410.v2026-06-19.q29

DP-203 試験問題 156

DP-203 試験問題 157

DP-203 試験問題 158

DP-203 試験問題 159

DP-203 試験問題 160

PDFファイルをダウンロード