[2022-10-31更新,63問] 無料Databricks Associate-Developer-Apache-Spark試験問題集、Associate-Developer-Apache-Spark日本語対策(ページ 7)

Associate-Developer-Apache-Spark 試験問題 26

次のコードブロックのどれが、列productIdの値が一意であるDataFrametransactionsDfからの行のみを返しますか？

A. transactionsDf.distinct（ "productId"）

B. transactionsDf.dropDuplicates（subset = ["productId"]）

C. transactionsDf.drop_duplicates（subset = "productId"）

D. transactionsDf.unique（ "productId"）

E. transactionsDf.dropDuplicates（subset = "productId"）

Associate-Developer-Apache-Spark 試験問題 27

それぞれ列productIdとitemIdのDataFrametransactionsDfとitemsDfの内部結合の結果として、DataFrameの列値で空ではないレコードの数を返すために、以下に示すコードブロックをどの順序で実行する必要がありますか？
1. .filter（〜isnull（col（'value'）））
2. .count（）
3.transactionsDf.join（itemsDf、col（ "transactionsDf.productId"）== col（ "itemsDf.itemId"））
4.transactionsDf.join（itemsDf、transactionsDf.productId == itemsDf.itemId、how ='inner'）
5. .filter（col（'value'）。isnotnull（））
6. .sum（col（'value'））

A. 4、1、2

B. 3、1、6

C. 3、1、2

D. 3、5、2

E. 4、6

Associate-Developer-Apache-Spark 試験問題 28

以下に表示されるコードブロックには、1つ以上のエラーが含まれています。コードブロックは、filePathの場所にある寄木細工のファイルをDataFrameにロードし、以前に変更されたファイルのみをロードする必要があります。
2029-03-2005:44:46。Sparkは、以下に示すスキーマに従ってスキーマを適用する必要があります。エラーを見つけます。
スキーマ：
1.root
2. |-itemId：整数（null許容= true）
3. |-属性：配列（nullable = true）
4. | |-要素：文字列（containsNull = true）
5. |-サプライヤ：文字列（null許容= true）
コードブロック：
1.schema = StructType（[
2. StructType（ "itemId"、IntegerType（）、True）、
3. StructType（ "attributes"、ArrayType（StringType（）、True）、True）、
4. StructType（ "supplier"、StringType（）、True）
5.]）
6.6。
7.spark.read.options（ "modifiedBefore"、 "2029-03-20T05：44：46"）。schema（schema）.load（filePath）

A. 属性配列が正しく指定されておらず、Sparkがファイル形式を識別できず、SparkのDataFrameReaderの呼び出しの構文が正しくありません。

B. スキーマ定義の列が間違ったオブジェクトタイプを使用しており、SparkのDataFrameReaderの呼び出しの構文が正しくありません。

C. スキーマのデータ型がschema（）演算子と互換性がなく、変更日のしきい値が正しく指定されていません。

D. スキーマ定義の列が間違ったオブジェクトタイプを使用し、変更日のしきい値が正しく指定されておらず、Sparkがファイル形式を識別できません。

E. スキーマの列が空の値を処理できず、変更日のしきい値が正しく指定されていません。

正解: D

説明
正しいコードブロック：
スキーマ=StructType（[
StructField（ "itemId"、IntegerType（）、True）、
StructField（ "attributes"、ArrayType（StringType（）、True）、True）、
StructField（ "supplier"、StringType（）、True）
]）
spark.read.options（modifiedBefore = "2029-03-20T05：44：46"）。schema（schema）.parquet（filePath）この質問は、試験で出会う質問よりも難しいです。試験では、この質問タイプの場合、質問のように「1つまたは複数」ではなく、1つのエラーのみを識別する必要があります。
スキーマ定義の列が間違ったオブジェクトタイプを使用し、変更日のしきい値が正しく指定されておらず、Sparkがファイル形式を識別できません。
正しい！スキーマ定義の列は、StructFieldタイプを使用する必要があります。ここではStructTypeやStructFieldなどのクラスを使用して、pyspark.sql.typesからスキーマを構築することは、Sparkでスキーマを表現する複数の方法の1つです。StructTypeには、常にStructFieldsのリストが含まれています（以下にリンクされているドキュメントを参照してください）。したがって、質問に示されているようにStructTypeとStructTypeをネストするのは間違っています。
変更日のしきい値は、options（modifiedBefore = "2029-03-20T05：44：46"）のようなキーワード引数で指定する必要があり、元のコードブロックのように2つの連続する非キーワード引数では指定しないでください（以下のリンク先のドキュメントを参照）。
Sparkは、DataFrameReader.format（）を使用してDataFrameReader.load（）の引数として指定するか、DataFrameReader.parquet（）などを直接呼び出す必要があるため、ファイル形式を正しく識別できません。
スキーマの列は空の値を処理できず、変更日のしきい値が正しく指定されていません。
いいえ。StructTypeの代わりにStructFieldが列に使用される場合（上記を参照）、3番目の引数は列がNULL可能かどうかを指定しました。元のスキーマは、列がnull許容であることを示しており、これは、コードブロックのスキーマで3番目の引数がTrueであることによって正しく指定されています。
ただし、変更日のしきい値が正しく指定されていないのは正しいことです（上記を参照）。
属性配列が正しく指定されておらず、Sparkがファイル形式を識別できず、SparkのDataFrameReaderの呼び出しの構文が正しくありません。
違う。属性配列は、ArrayTypeの構文に従って正しく指定されています（以下のリンクされたドキュメントを参照）。Sparkがファイル形式が正しいことを識別できない場合は、上記の正解を参照してください。さらに、DataFrameReaderはSparkSessionsparkを介して正しく呼び出されます。
スキーマ定義の列が間違ったオブジェクトタイプを使用しており、SparkのDataFrameReaderの呼び出しの構文が正しくありません。
正しくない場合、スキーマ定義のオブジェクトタイプは正しく、SparkのDataFrameReaderの呼び出しの構文は正しいです。
スキーマのデータ型はschema（）演算子と互換性がなく、変更日のしきい値が正しく指定されていません。
間違い。スキーマのデータ型はStructTypeであり、DataFrameReader.schema（）メソッドで受け入れられるデータ型です。ただし、変更日のしきい値が正しく指定されていないのは正しいです（上記の正解を参照）。

Associate-Developer-Apache-Spark 試験問題 29

次のうち、狭い変換について説明しているのはどれですか？

A. ナロートランスフォーメーションは、データがパーティション間で交換される操作です。

B. ナロートランスフォーメーションは、複数のRDDからのデータが使用されるプロセスです。

C. ナロー変換は、32ビットのfloat変数が16ビットや8ビットのfloat変数などのより小さなfloat変数にキャストされるプロセスです。

D. ナロートランスフォーメーションは、クラスター全体でデータが交換される操作です。

E. ナロートランスフォーメーションは、クラスター間でデータが交換されない操作です。

正解: E

説明
ナロートランスフォーメーションは、クラスター間でデータが交換されない操作です。
正しい！狭い変換では、適用されるパーティションの外部からのデータを必要としないため、クラスター全体でデータが交換されることはありません。典型的な狭い変換には、フィルター、ドロップ、および合体が含まれます。
ナロートランスフォーメーションは、データがパーティション間で交換される操作です。
いいえ、それは広い変換の1つの定義ですが、狭い変換の定義ではありません。ワイド変換は通常、データがパーティション、エグゼキュータ、およびクラスタ間で交換されるシャッフルを引き起こします。
ナロートランスフォーメーションは、クラスター全体でデータが交換される操作です。
いいえ、このすぐ上の説明を参照してください。
ナロートランスフォーメーションは、32ビットのfloat変数が次のような小さなfloat変数にキャストされるプロセスです。
16ビットまたは8ビットのfloat変数。
いいえ、型変換はSparkの狭い変換とは何の関係もありません。
ナロートランスフォーメーションは、複数のRDDからのデータが使用されるプロセスです。
いいえ。復元力のある分散データセット（RDD）は、パーティションのコレクションとして説明できます。狭い変換では、パーティション間でデータが交換されません。したがって、RDD間でデータが交換されることはありません。
ただし、狭い変換、実際には変換を行うと、新しいRDDが作成されると言えます。これは、変換によって既存のRDDが変更されるためです（RDDは、DataFrameなどの他のSparkデータ構造の基盤です）。ただし、RDDは不変であるため、変換によって引き起こされた変更を反映するために、新しいRDDを作成する必要があります。
詳細：スパークトランスフォーメーションとアクション：詳細| ミスバ・ウディン CodeX | 中くらい

Associate-Developer-Apache-Spark 試験問題 30

以下に示すコードブロックは、filePathの場所に保存されているCSVファイルの列数を返す必要があります。
CSVファイルからは、＃文字で始まらない行のみを読み取る必要があります。これを実現するには、コードブロックの空白を正しく埋める答えを選択してください。
コードブロック：
__1 __（__ 2 __.__ 3 __。csv（filePath、__4 __）.__ 5__）

A. 1。サイズ
2.スパーク
3. read（）
4.エスケープ='＃'
5.列

B. 1. DataFrame
2.スパーク
3. read（）
4.エスケープ='＃'
5. shape [0]

C. 1. len
2.pyspark
3. DataFrameReader
4.コメント='＃'
5.列

D. 1。サイズ
2.pyspark
3. DataFrameReader
4.コメント='＃'
5.列

E. 1. len
2.スパーク
3.読む
4.コメント='＃'
5.列

正解: E

説明
正しいコードブロック：
len（spark.read.csv（filePath、comment ='＃'）。columns）
これは、DataFrameとDataFrameReaderの境界という、通常とは異なる状況では困難を伴う難しい質問です。この難易度の問題が試験に出題される可能性はほとんどありません。ただし、それを解決することで、試験で扱わなければならない可能性のある主題であるDataFrameReaderをより快適に使用できるようになります。
内側の括弧を処理する前に、外側の括弧、ギャップ1と5を理解する方が簡単です。コードブロックが与えられると、ギャップ5のオブジェクトは、ギャップ1のオブジェクトによって評価され、次の列の数が返されます。読み込まれたCSV。1つの回答オプションには、ギャップ1のDataFrameとギャップ2のshape[0]が含まれます。DataFrameを使用してshape[0]を評価することはできないため、この回答オプションを破棄できます。
他の回答オプションには、ギャップ1のサイズが含まれます。size（）は組み込みのPythonコマンドではないため、これを使用する場合は、別の場所から取得する必要があります。pyspark.sql.functionsにはsize（）メソッドが含まれていますが、このメソッドは、列内に格納されている配列またはマップの長さのみを返します（以下にリンクされているドキュメント）。
したがって、size（）メソッドを使用することはここではオプションではありません。これにより、2つの潜在的に有効な答えが残ります。
spark.readまたはpyspark.DataFrameReaderであるギャップ2と3の間で選択する必要があります。ドキュメント（以下にリンク）を見ると、DataFrameReaderは実際にはpyspark.sqlの子クラスです。つまり、pyspark.DataFrameReaderを使用してインポートすることはできません。さらに、Spark.readは、Databricksではsparkが現在のSparkセッション（pyspark.sql.SparkSession）を参照し、spark.readがDataFrameReaderを返すため（以下のドキュメントも参照）、意味があります。最後に、正解の選択肢は1つだけ残っています。
より詳しい情報：
--pyspark.sql.functions.size--PySpark3.1.2ドキュメント
--pyspark.sql.DataFrameReader.csv--PySpark3.1.2ドキュメント
--pyspark.sql.SparkSession.read--PySpark3.1.2ドキュメント
静的ノートブック| ダイナミックノートブック：テスト3を参照