Databricks-Certified-Professional-Data-Engineer 試験問題 1
AUTO LOADER を使用しているときに、ロードの一部として推論された列のほとんどが、整数であるはずの列を含む文字列データ型であることに気づきました。これを修正するにはどうすればよいでしょうか?
Databricks-Certified-Professional-Data-Engineer 試験問題 2
データ アーキテクトは、Lakehouse 内のすべてのテーブルを外部 (「アンマネージド」とも呼ばれる) Delta Lake テーブルとして構成することを義務付けています。
この要件を確実に満たせるのはどのアプローチですか?
この要件を確実に満たせるのはどのアプローチですか?
Databricks-Certified-Professional-Data-Engineer 試験問題 3
各ビジュアライゼーションには入力するデータが大量に含まれているため、ブラウザーへの読み込みに時間がかかるダッシュボードに取り組んでいます。この問題に対処するには、次のどのアプローチを使用できますか?
Databricks-Certified-Professional-Data-Engineer 試験問題 4
ユーザーからのコンテンツ投稿に関するメタデータを表す Delta Lake テーブルには、次のスキーマがあります。
user_id LONG、post_text STRING、post_id STRING、経度 FLOAT、緯度 FLOAT、post_time TIMESTAMP、date DATE このテーブルは日付列によってパーティション化されています。クエリは次のフィルターを使用して実行されます。
経度 < 20 & 経度 > -20
データがどのようにフィルタリングされるかを説明するステートメントはどれですか?
user_id LONG、post_text STRING、post_id STRING、経度 FLOAT、緯度 FLOAT、post_time TIMESTAMP、date DATE このテーブルは日付列によってパーティション化されています。クエリは次のフィルターを使用して実行されます。
経度 < 20 & 経度 > -20
データがどのようにフィルタリングされるかを説明するステートメントはどれですか?
Databricks-Certified-Professional-Data-Engineer 試験問題 5
データ サイエンス チームは、ユーザー レビューからの自由形式テキストに対するクエリを高速化するための支援を要求しました。
データは現在、以下のスキーマを使用して Parquet に保存されています。
item_id INT、user_id INT、review_id INT、評価 FLOAT、レビュー STRING
レビュー欄には、ユーザーが残したレビューの全文が表示されます。具体的には、データ サイエンス チームは、この分野に 30 のキーワードのいずれかが存在するかどうかを特定しようとしています。
若手のデータ エンジニアは、このデータを Delta Lake に変換するとクエリのパフォーマンスが向上すると提案しています。
ジュニア データ エンジニアの提案に対する正しい回答はどれですか?
データは現在、以下のスキーマを使用して Parquet に保存されています。
item_id INT、user_id INT、review_id INT、評価 FLOAT、レビュー STRING
レビュー欄には、ユーザーが残したレビューの全文が表示されます。具体的には、データ サイエンス チームは、この分野に 30 のキーワードのいずれかが存在するかどうかを特定しようとしています。
若手のデータ エンジニアは、このデータを Delta Lake に変換するとクエリのパフォーマンスが向上すると提案しています。
ジュニア データ エンジニアの提案に対する正しい回答はどれですか?