[2022-05-19更新,47問] 無料Databricks Databricks-Certified-Professional-Data-Scientist試験問題集、Databricks-Certified-Professional-Data-Scientistテスト参考書(ページ 9)

Databricks-Certified-Professional-Data-Scientist 試験問題 36

ロジスティック回帰に適用される正しいステートメントを選択してください

A. 精度が低い可能性があります

B. 数値を処理します

C. 計算が安価で、実装が簡単で、解釈が簡単な知識表現

Databricks-Certified-Professional-Data-Scientist 試験問題 37

L2正則化に適用される正しいオプションを選択してください

A. 分析ソリューションがあるため、計算効率が高い

B. 非スパース出力

C. 特徴選択なし

Databricks-Certified-Professional-Data-Scientist 試験問題 38

5000個の変数（多くの列、それほど多くの行ではない）を使用して、画像に示されているのと同様の非常に高次元のデータセットから分類器を構築しています。密な入力と疎な入力の両方を処理できます。どの手法が最も適していますか、またその理由は何ですか？

A. 過剰適合を防ぐためのL1正則化によるロジスティック回帰

B. ベイズ法は正規化器として機能するため、ナイーブベイズ

C. 例を分類するためにローカル近傍を使用するため、k最近傍

D. アンサンブル法であるためランダムフォレスト

正解: A

説明
ロジスティック回帰は、分類問題の機械学習で広く使用されています。特にトレーニング例の数が少ない場合、または学習するパラメーターの数が多い場合は、過剰適合を回避するために正則化が必要であることはよく知られています。特に、L1正則化ロジスティック回帰は、特徴選択によく使用され、多くの無関係な特徴が存在する場合に優れた一般化パフォーマンスを示すことが示されています。（Ng 2004; Goodman 2004）非正規化ロジスティック回帰は、目的関数を継続的に微分する制約のない凸最適化問題です。結果として、ニュートン法や共役勾配法などの標準的な凸最適化法を使用すると、かなり効率的に解くことができます。でも、L1正則化を追加すると、最適化問題の解決に計算コストがかかります。L1正則化がparameLogistic回帰のL1ノルム制約によって適用される場合、分類器であり、L1正則化は、予測できない入力の次元を無視するモデルを生成する傾向があります。これは、入力に多くの次元が含まれている場合に特に役立ちます。k最近傍分類も分類手法ですが、距離の概念に依存しています。高次元空間では、ほとんどすべてのデータポイントが他のデータポイントから「遠い」（次元の呪い）ため、これらの手法は機能しなくなります。ナイーブベイズは本質的に正則化されていません。ランダムフォレストは、アンサンブル手法を表しています。ただし、アンサンブル法は必ずしも高次元データに適しているとは限りません。L1正則化がparameLogistic回帰のL1ノルム制約によって適用される場合、分類器であり、L1正則化は、予測できない入力の次元を無視するモデルを生成する傾向があります。これは、入力に多くの次元が含まれている場合に特に役立ちます。k最近傍分類も分類手法ですが、距離の概念に依存しています。高次元空間では、ほとんどすべてのデータポイントが他のデータポイントから「遠い」（次元の呪い）ため、これらの手法は機能しなくなります。ナイーブベイズは本質的に正則化されていません。ランダムフォレストは、アンサンブル手法を表しています。ただし、アンサンブル法は必ずしも高次元データに適しているとは限りません。L1正則化がparameLogistic回帰のL1ノルム制約によって適用される場合、分類器であり、L1正則化は、予測できない入力の次元を無視するモデルを生成する傾向があります。これは、入力に多くの次元が含まれている場合に特に役立ちます。k最近傍分類も分類手法ですが、距離の概念に依存しています。高次元空間では、ほとんどすべてのデータポイントが他のデータポイントから「遠い」（次元の呪い）ため、これらの手法は機能しなくなります。ナイーブベイズは本質的に正則化されていません。ランダムフォレストは、アンサンブル手法を表しています。ただし、アンサンブル法は必ずしも高次元データに適しているとは限りません。
実際には、正則化の最大の理由は、1）スパースな予測子に対して高係数を生成しないことによって過剰適合を回避することだと思います。2）特にデータに共線性がある場合に、推定値を安定させるため。
1）正則化フレームワークに固有のものです。目的関数には2つの力が互いに引っ張られているため、意味のある損失の削減がない場合、正則化項からのペナルティの増加は、目的関数全体を改善しません。多くのノイズがモデルから自動的に除外されるため、これは優れたプロパティです。2）の例を示すと、同じ値を持つ2つの予測子がある場合、データマトリックスが特異であるために回帰アルゴリズムを実行すると、ストレートマトリックス反転を実行しようとするとベータ係数はInfになります。ただし、非常に小さな正則化ラムダを追加すると、係数値が同等の2つの変数間で均等に分割された安定したベータ係数が得られます。L1とL2の違いについては、次のグラフは、L2が非常に洗練された分析ソリューションを備えており、計算が非常に簡単であるため、人々がL1を気にする理由を示しています。正則化された回帰は、制約付き回帰問題として表すこともできます（ラグランジアンと同等であるため）。これが意味することは、L1正則化によってスパース推定が得られるということです。つまり、高次元空間では、ほとんどがゼロで、少数の非ゼロ係数が得られます。これは、モデリングの問題に変数選択を組み込んでいるため、非常に大きなものです。さらに、モデルで大きなサンプルをスコアリングする必要がある場合、係数が0の特徴（予測子）を計算する必要がないため、計算量を大幅に節約できます。個人的には、L1正則化が最も重要なものの1つだと思います。機械学習と凸最適化の美しいもの。

Databricks-Certified-Professional-Data-Scientist 試験問題 39

質問3：機械学習では、（カーネルトリックに類似した）ハッシュトリックとも呼ばれる特徴ハッシュは、特徴（言語の単語など）をベクトル化するための高速でスペース効率の高い方法です。ベクトルまたは行列のインデックスへの任意の特徴。これは、ハッシュ関数を特徴に適用し、連想配列でインデックスを検索するのではなく、特徴の数を法とするハッシュ値をインデックスとして直接使用することで機能します。では、分類子を構築するためのハッシュトリックの主な理由は何ですか？

A. 小さいモデルを作成します

B. モデルの係数を保存するために必要なメモリが少なくて済みます

C. 句読点などの重要でない機能を減らします

D. ノイズの多い機能が削除されました

Databricks-Certified-Professional-Data-Scientist 試験問題 40

k-meansクラスタリングを使用して、病院の心臓病患者を分類しています。指標として患者の性別、身長、体重、年齢、収入を選択し、3つのクラスターを使用しました。クラスターのペアワイズプロットを作成すると、クラスター間にかなりの重複があることに気付きます。あなたは何をするべきか？

A. 分析に追加する追加のメジャーを特定します

B. メジャーの1つを削除します

C. クラスターの数を増やす

D. クラスターの数を減らす

最新アップロード: 126SAP.C-TS412-2021.v2025-09-06.q90; 148Microsoft.MB-700.v2025-09-06.q281; 142Docker.DCA.v2025-09-06.q175; 113SAP.C-BCFIN-2502.v2025-09-05.q12; 123Avaya.77201X.v2025-09-05.q58; 109Oracle.1Z0-1079-24.v2025-09-05.q19; 112NBMTM.BCMTMS.v2025-09-05.q33; 109Huawei.H19-423_V1.0.v2025-09-04.q138; 115Nokia.4A0-113.v2025-09-04.q69; 137Microsoft.PL-200.v2025-09-04.q112

Databricks-Certified-Professional-Data-Scientist 試験問題 36

Databricks-Certified-Professional-Data-Scientist 試験問題 37

Databricks-Certified-Professional-Data-Scientist 試験問題 38

Databricks-Certified-Professional-Data-Scientist 試験問題 39

Databricks-Certified-Professional-Data-Scientist 試験問題 40

PDFファイルをダウンロード