Professional-Data-Engineer 試験問題 161

生放送のテレビ番組で、視聴者に携帯電話を使った投票をお願いしています。このイベントでは、3分間で大量のデータが生成されます。あなたは投票システムの再構築*を担当し、プラットフォームが負荷に対応し、すべての投票が処理されるよう保証する必要があります。部分的な結果を表示し、「投票受付中」と表示する必要があります。
投票後、コストを最適化するために、投票を正確に1回だけ数える必要があります。どうすればいいでしょうか?
  • Professional-Data-Engineer 試験問題 162

    Flowlogistic はリアルタイム在庫追跡システムを展開しています。追跡デバイスはすべて荷物追跡メッセージを送信しますが、これらのメッセージは Apache Kafka クラスタではなく、単一の Google Cloud Pub/Sub トピックに送信されます。その後、サブスクライバーアプリケーションがメッセージを処理し、リアルタイムレポートを作成し、Google BigQuery に保存して履歴分析を行います。荷物データを時系列で分析できるようにしたいと考えています。
    どのようなアプローチを取るべきでしょうか?
  • Professional-Data-Engineer 試験問題 163

    航空会社で働いており、BigQueryテーブルに気象データを保存する必要があります。気象データは機械学習モデルの入力データとして使用されます。モデルは過去30日間の気象データのみを使用します。不要なデータの保存を避け、コストを最小限に抑えたいと考えています。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 164

    会社では毎時 20,000 個のファイルが生成されます。各データファイルは 4 KB 未満のカンマ区切り値(CSV)ファイルとしてフォーマットされています。すべてのファイルは、処理前に Google Cloud Platform に取り込まれる必要があります。会社のサイトから Google Cloud へのレイテンシは 200 ミリ秒で、インターネット接続の帯域幅は 50 Mbps に制限されています。現在、データの取り込みポイントとして、Google Compute Engine の仮想マシンにセキュア FTP(SFTP)サーバーをデプロイしています。ローカル SFTP クライアントは専用マシン上で実行され、CSV ファイルをそのまま送信します。目標は、前日のデータを含むレポートを毎日午前 10 時までに経営陣に提供することです。この設計では、帯域幅の使用率が低いにもかかわらず、現在のボリュームにほとんど対応できません。
    季節性により、今後3ヶ月間でファイル数が倍増すると予想されています。どのような対策を講じるべきですか?(2つ選択してください。)
  • Professional-Data-Engineer 試験問題 165

    住宅価格を予測するモデルを作成しています。予算の制約により、リソースが限られた単一の仮想マシンで実行する必要があります。どの学習アルゴリズムを使用すべきでしょうか?