Professional-Data-Engineer 試験問題 76
CSV ファイルを Cloud Storage から BigQuery にロードしています。これらのファイルには、同じ列内の STRINGS と INT64 などのデータ型の不一致や、電話番号や住所などの値の形式の不一致など、既知のデータ品質の問題があります。データの品質を維持し、必要なクレンジングと変換を実行するには、データ パイプラインを作成する必要があります。あなたは何をするべきか?
Professional-Data-Engineer 試験問題 77
データ パイプラインにセキュリティのベスト プラクティスを実装しています。現在、あなたはプロジェクト所有者としてジョブを手動で実行しています。あなたは、Google Cloud Storage から非公開情報を含むバッチ ファイルを夜間に取得し、Google Cloud Dataproc クラスタ上の Spark Scala ジョブで処理し、結果を Google BigQuery に保存することで、これらのジョブを自動化したいと考えています。
このワークロードを安全に実行するにはどうすればよいでしょうか?
このワークロードを安全に実行するにはどうすればよいでしょうか?
Professional-Data-Engineer 試験問題 78
以下の図に示すようなデータがあります。2 つの次元は X と Y で、各ドットの影はそれがどのクラスであるかを表します。線形アルゴリズムを使用して、このデータを正確に分類したいと考えています。

これを行うには、合成機能を追加する必要があります。その機能の価値は何であるべきでしょうか?

これを行うには、合成機能を追加する必要があります。その機能の価値は何であるべきでしょうか?
Professional-Data-Engineer 試験問題 79
あなたの会社は、ホリデー シーズン中にリアルタイム データを分析してさまざまなオファーを提供する、最初の動的キャンペーンを実行しています。データ サイエンティストは、30 日間のキャンペーン中に 1 時間ごとに急速に増加するテラバイト規模のデータを収集しています。Google Cloud Dataflow を使用してデータを前処理し、Google Cloud Bigtable の機械学習モデルに必要な特徴 (シグナル) データを収集しています。
チームは、10 TB のデータの初期ロードの読み取りおよび書き込みで、次善のパフォーマンスを観察しています。
彼らはコストを最小限に抑えながらこのパフォーマンスを向上させたいと考えています。彼らは何をすべきでしょうか?
チームは、10 TB のデータの初期ロードの読み取りおよび書き込みで、次善のパフォーマンスを観察しています。
彼らはコストを最小限に抑えながらこのパフォーマンスを向上させたいと考えています。彼らは何をすべきでしょうか?
Professional-Data-Engineer 試験問題 80
あなたはプライベートユーザーデータを含む機密性の高いプロジェクトに取り組んでいます
