Professional-Data-Engineer 試験問題 256
あなたの会社では、1 時間あたり 20,000 個のファイルが作成されます。各データ ファイルは、4 KB 未満のカンマ区切り値 (CSV) ファイルとしてフォーマットされます。すべてのファイルは、処理する前に Google Cloud Platform に取り込まれる必要があります。会社のサイトの Google Cloud へのレイテンシは 200 ミリ秒で、インターネット接続の帯域幅は 50 Mbps に制限されています。現在、Google Compute Engine の仮想マシンにデータ取り込みポイントとして安全な FTP (SFTP) サーバーをデプロイしています。ローカルの SFTP クライアントは専用マシン上で動作し、CSV ファイルをそのまま送信します。目標は、前日のデータを含むレポートを幹部が利用できるようにすることです。
毎日午前10時。この設計は、帯域幅使用率がかなり低いにもかかわらず、かろうじて現在の量に追いつくことができます。
季節性により、会社ではファイル数が今後 3 か月間で 2 倍になると予想されていると言われています。どの 2 つのアクションを取る必要がありますか? (2つお選びください。)
毎日午前10時。この設計は、帯域幅使用率がかなり低いにもかかわらず、かろうじて現在の量に追いつくことができます。
季節性により、会社ではファイル数が今後 3 か月間で 2 倍になると予想されていると言われています。どの 2 つのアクションを取る必要がありますか? (2つお選びください。)
Professional-Data-Engineer 試験問題 257
5 年間のログ データを Cloud Storage にアップロードしました。ユーザーから、ログ データ内の一部のデータ ポイントが予想範囲外であると報告されました。これはエラーを示しています。この問題に対処し、今後プロセスを再度実行できるようにする必要があります。コンプライアンス上の理由から元のデータを保持します。あなたは何をするべきか?
Professional-Data-Engineer 試験問題 258
あなたの会社の経営者は、銀行取引のデータベースをあなたに提供しました。各行には、
ユーザーID、取引タイプ、取引場所、取引金額。彼らはあなたに何を調査するように求めます
タイプの機械学習をデータに適用できます。機械学習アプリケーションを 3 つ選択できますか?
使用?(3つお選びください。)
ユーザーID、取引タイプ、取引場所、取引金額。彼らはあなたに何を調査するように求めます
タイプの機械学習をデータに適用できます。機械学習アプリケーションを 3 つ選択できますか?
使用?(3つお選びください。)
Professional-Data-Engineer 試験問題 259
あなたの組織は 6 か月間、Google BigQuery でデータを収集して分析してきました。分析されたデータの大部分は、events_partitioned という名前の時間分割テーブルに配置されます。クエリのコストを削減するために、組織は、過去 14 日間のデータのみをクエリするイベントと呼ばれるビューを作成しました。
a.ビューはレガシー SQL で記述されます。来月、既存のアプリケーションは BigQuery に接続し、ODBC 接続経由でイベント データを読み取る予定です。アプリケーションが接続できることを確認する必要があります。どの 2 つのアクションを取る必要がありますか? (2つお選びください。)
a.ビューはレガシー SQL で記述されます。来月、既存のアプリケーションは BigQuery に接続し、ODBC 接続経由でイベント データを読み取る予定です。アプリケーションが接続できることを確認する必要があります。どの 2 つのアクションを取る必要がありますか? (2つお選びください。)
Professional-Data-Engineer 試験問題 260
会社のデータ プラットフォームは、予約データとユーザー プロフィール データの CSV ファイル ダンプを上流のソースから Cloud Storage に取り込みます。データ アナリスト チームは、分析を実行するために、両方のデータセットで利用可能な電子メール フィールドでこれらのデータセットを結合したいと考えています。ただし、個人を特定できる情報 (PII) にはアナリストがアクセスできないようにする必要があります。アナリストのために BigQuery にデータセットを読み込む前に、両方のデータセットのメール フィールドを匿名化する必要があります。あなたは何をするべきか?
