Professional-Data-Engineer 試験問題 256

データ処理パイプラインを設計しています。パイプラインは負荷の増加に応じて自動的にスケーリングできる必要があります。メッセージは少なくとも1回処理され、1時間以内に順序付けされる必要があります。
ソリューションをどのように設計すればよいでしょうか?
  • Professional-Data-Engineer 試験問題 257

    時系列トランザクションデータをコピーするデータパイプラインを作成し、データサイエンスチームがBigQuery内からクエリを実行して分析できるようにする必要があります。1時間ごとに数千のトランザクションが新しいステータスで更新されます。初期データセットのサイズは1.5PBで、1日あたり3TBずつ増加します。データは高度に構造化されており、データサイエンスチームはこのデータに基づいて機械学習モデルを構築します。データサイエンスチームのパフォーマンスとユーザビリティを最大化したいと考えています。採用すべき2つの戦略はどれでしょうか?
    2つの回答を選択してください。
  • Professional-Data-Engineer 試験問題 258

    ある運送会社では、リアルタイムでApache Kafkaストリームに送信される荷物追跡データを保有しています。このデータはその後、BigQueryに読み込まれます。社内のアナリストは、荷物のライフサイクルにおける地理空間の傾向を分析するために、BigQueryの追跡データに対してクエリを実行したいと考えています。このテーブルは、元々は取り込み日によるパーティショニングで作成されていました。
    時間の経過とともに、クエリ処理時間が増加しています。BigQuery のクエリパフォーマンスを向上させる変更を実装する必要があります。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 259

    あなたの会社は、Google Cloud Storage と Google Compute Engine 上の Cassandra クラスタに保存されている大規模なデータセットを対象に、複雑な分析を実行したいと考えている新しいデータサイエンティストを採用しました。サイエンティストは主に、機械学習プロジェクト用のラベル付きデータセットの作成と、いくつかの可視化タスクを希望しています。
    彼女は、ノートパソコンの性能が足りず、作業が遅くなっていると言っています。あなたは彼女の作業を手伝いたいと思っています。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 260

    Dataproc クラスタには多くの構成ファイルが含まれています。これらのファイルを更新するには、--properties オプションを使用する必要があります。オプションの形式は、file_prefix:property=_____ です。