Professional-Data-Engineer 試験問題 171
社内のETLの開発と保守を担当するチームがあります。入力データにエラーがあるため、Dataflowジョブの1つが失敗しており、パイプラインの信頼性(パイプラインの信頼性を含む)を向上させる必要があります。
失敗したデータをすべて再処理できるようになります。
何をすべきでしょうか?
失敗したデータをすべて再処理できるようになります。
何をすべきでしょうか?
Professional-Data-Engineer 試験問題 172
ストリーミング API を介してデータが BigQuery にストリーミングされるレポート専用のデータ ウェアハウスを構築しています。Google のベスト プラクティスに従い、データ用のステージング テーブルと本番環境テーブルの両方があります。取り込み部分とレポート部分のいずれのパフォーマンスにも影響を与えずに、マスター データセットが 1 つだけになるようにするには、データの読み込みをどのように設計すればよいですか。
Professional-Data-Engineer 試験問題 173
Cloud Bigtable ノードに障害が発生すると、____ が失われます。
Professional-Data-Engineer 試験問題 174
数日かけて、カンマ区切り値(CSV)ファイルからGoogle BigQueryのテーブルCLICK_STREAMにデータをロードしました。DT列にはクリックイベントのエポックタイムが格納されています。便宜上、すべてのフィールドをSTRING型として扱うシンプルなスキーマを選択しました。次に、サイトを訪問したユーザーのウェブセッション継続時間を計算し、そのデータ型をTIMESTAMPに変更したいと考えています。将来のクエリの計算コストを高くすることなく、移行の労力を最小限に抑えたいと考えています。どうすればよいでしょうか?
Professional-Data-Engineer 試験問題 175
最高のパフォーマンスを得るために、Compute Engine インスタンスと Cloud Bigtable インスタンスに推奨されるゾーンは何ですか。
