Professional-Data-Engineer 試験問題 166

あなたの会社では、Google Cloud Dataflow の学習アルゴリズムのデータ前処理を実行しています。
このステップでは多数のデータ ログが生成されるため、チームはそれらを分析したいと考えています。
キャンペーンの動的な性質により、データは毎時間指数関数的に増加しています。
データ サイエンティストは、ログ内の新しい主要な特徴のデータを読み取るために次のコードを作成しました。
BigQueryIO.読み取り
.named("ログデータの読み取り")
.from("clouddataflow-readonly:samples.log_data")
このデータ読み取りのパフォーマンスを改善したいのですが、どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 167

    レガシー SQL と標準 SQL に関する次の記述のうち、正しくないものはどれですか。
  • Professional-Data-Engineer 試験問題 168

    Cloud Machine Learning Engine の CUSTOM 層では、どのタイプのクラスタ ノードの数を指定できますか?
  • Professional-Data-Engineer 試験問題 169

    Google Cloud Pub/Sub サブスクリプションをソースとして、Google Cloud Dataflow ストリーミング パイプラインを実行しています。コードを更新して、新しい Cloud Dataflow パイプラインを現在のバージョンと互換性のないものにする必要があります。この更新を行う際にデータを失いたくはありません。どうすればよいでしょうか。
  • Professional-Data-Engineer 試験問題 170

    Google Cloud で構造化データのバッチ パイプラインを再構築したい PySpark を使用して大規模なデータ変換を行っていますが、パイプラインの実行に 12 時間以上かかります 開発とパイプラインの実行時間を短縮するために、サーバーレス ツールと SQL 構文を使用したい 生データをすでに Cloud Storage に移動しています 速度と処理の要件を満たしながら、Google Cloud でパイプラインを構築するにはどうすればよいでしょうか。