Associate-Developer-Apache-Spark-3.5 試験問題 56

Spark エンジニアは、Spark ジョブに適切なデプロイメント モードを選択する必要があります。
Apache Spark™ でクラスターモードを使用する利点は何ですか?
  • Associate-Developer-Apache-Spark-3.5 試験問題 57

    データエンジニアは、上流チームから毎晩配信されるParquetファイル群の取り込みパイプラインを構築するよう依頼されています。データは「/path/events/data」をベースパスとするディレクトリ構造に保存されています。上流チームは、年/月/日の規則に従って、日次データを下位のサブディレクトリにドロップします。
    ディレクトリ構造の例をいくつか挙げます。

    次のコード スニペットのうち、ディレクトリ構造内のすべてのデータを読み取るものはどれですか。
  • Associate-Developer-Apache-Spark-3.5 試験問題 58

    開発者は、次のような小さな Parquet テーブルに保存されたデータを使用して Python 辞書を作成する必要があります。

    結果の Python 辞書には、最小の 3 つの region_id 値を含む region -> region id のマッピングが含まれている必要があります。
    どのコードフラグメントが要件を満たしていますか?
    A)

    B)

    C)

    ダ)

    結果の Python 辞書には、最小の 3 つの region_id 値に対する region -> region_id のマッピングが含まれている必要があります。
    どのコードフラグメントが要件を満たしていますか?
  • Associate-Developer-Apache-Spark-3.5 試験問題 59

    55 件中 27 件目。
    データ エンジニアは、1 つのテーブルのすべての行を別のテーブルのすべての行に追加する必要がありますが、最初のテーブルのすべての列が 2 番目のテーブルに存在するわけではありません。
    エラーメッセージは次のとおりです:
    AnalysisException: UNION は同じ数の列を持つテーブルでのみ実行できます。
    既存のコードは次のとおりです。
    au_df.union(nz_df)
    DataFrame au_df には、DataFrame nz_df には存在しない 1 つの列がありますが、それ以外は両方の DataFrame の列名とデータ型は同じです。
    結合された DataFrame が期待どおりに生成されるようにするには、データ エンジニアはコードのどこを修正する必要がありますか?
  • Associate-Developer-Apache-Spark-3.5 試験問題 60

    55 件中 11 件目。
    どの Spark 構成が、エグゼキュータ上で並列実行できるタスクの数を制御しますか?