Professional-Data-Engineer 試験問題 292

あなたの会社では、毎時2万件のファイルが生成されます。各データファイルは4KB未満のカンマ区切り値(CSV)ファイルとしてフォーマットされています。すべてのファイルは、処理前にGoogle Cloud Platformに取り込まれる必要があります。会社のサイトからGoogle Cloudへのレイテンシは200ミリ秒で、インターネット接続の帯域幅は50Mbpsに制限されています。現在、データの取り込みポイントとして、Google Compute Engineの仮想マシン上にセキュアFTP(SFTP)サーバーをデプロイしています。ローカルSFTPクライアントは専用マシン上で実行され、CSVファイルをそのまま送信します。目標は、前日のデータを含むレポートを、経営陣が24時間以内に利用できるようにすることです。
毎日午前10時。この設計では、帯域幅の使用率はかなり低いものの、現状のトラフィック量にほとんど対応できていません。
季節性により、今後3ヶ月間でファイル数が倍増すると予想されています。どのような対策を講じるべきですか?(2つ選択してください。)
  • Professional-Data-Engineer 試験問題 293

    あなたはグローバルな海運会社で働いています。40TBのデータを使ってモデルをトレーニングし、特定の日に各地域でどの船舶が配送遅延を引き起こす可能性が高いかを予測したいと考えています。このモデルは、複数のソースから収集された複数の属性に基づいています。GeoJSON形式の位置情報を含むテレメトリデータは、各船舶から取得され、1時間ごとにロードされます。ある地域内で遅延を引き起こす可能性のある船舶の数と種類を示すダッシュボードを作成したいと考えています。予測と地理空間処理のためのネイティブ機能を備えたストレージソリューションを使用したいと考えています。どのストレージソリューションを使用すべきでしょうか?
  • Professional-Data-Engineer 試験問題 294

    サードパーティから毎月CSV形式のデータファイルを受け取ります。このデータをクレンジングする必要がありますが、ファイルのスキーマは3ヶ月ごとに変更されます。これらの変換を実装するための要件は次のとおりです。
    スケジュールに従って変換を実行する
    開発者以外のアナリストが変換を変更できるようにする
    変換を設計するためのグラフィカルツールの提供
    何をすべきでしょうか?
  • Professional-Data-Engineer 試験問題 295

    組織では、従業員情報をBigQueryデータセットに保存しています。人事(HR)管理チームはデータへのフルアクセスが必要ですが、HRアナリストチームは個人を特定できる情報(PII)にアクセスすることなく給与分析を行う必要があります。Dataplexで管理される役割に応じて、ユーザーに適切なレベルのアクセス権限を付与しつつ、データの重複を削減したいと考えています。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 296

    貴社では、カンマ区切り値(CSV)ファイルをGoogle BigQueryにロードしています。データは完全に正常にインポートされていますが、インポートされたデータがソースファイルとバイト単位で一致していません。この問題の原因として最も考えられるものは何でしょうか?