Professional-Data-Engineer 試験問題 226

BigQuery テーブル内の特定のパーティションをクエリするにはどうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 227

    あなたはeコマース会社向けのカート放棄システムを設計しています。システムは
    次のルールに基づいてユーザーにメッセージを送信します。
    1時間、サイト上でユーザーによる操作がない

    30ドル以上の商品をカートに追加しました

    取引が完了していない

    Google Cloud Dataflowを使用してデータを処理し、メッセージを送信するかどうかを決定します。
    パイプラインを設計しますか?
  • Professional-Data-Engineer 試験問題 228

    ケーススタディ: 2 - MJTelco
    会社概要
    MJTelco は、世界中で急成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。同社は革新的な光通信ハードウェアの特許を保有しています。これらの特許に基づいて、同社は安価なハードウェアで信頼性の高い高速バックボーン リンクを多数構築できます。
    会社概要
    経験豊富な通信会社の幹部によって設立された MJTelco は、宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。同社の業務の基盤となるのは、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データ インフラストラクチャを作成することです。ハードウェアは安価であるため、同社はネットワークを過剰に展開して、地域政治が場所の可用性とコストに与える影響を考慮に入れることを計画しています。同社の管理および運用チームは世界中に配置されており、システム内のデータ コンシューマーとデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、同社はパブリック クラウドがニーズをサポートするのに最適な環境であると判断しました。
    ソリューションコンセプト
    MJTelco は、自社のラボで概念実証 (PoC) プロジェクトを成功させています。同社には主に 2 つのニーズがあります。
    インストール数が 50,000 を超えると、生成されるデータ フローが大幅に増加するため、PoC を拡張して強化します。
    機械学習サイクルを改良して、トポロジ定義を制御するために使用する動的モデルを検証および改善します。
    MJTelco は、開発/テスト、ステージング、本番という 3 つの個別の運用環境も使用します。
    実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすためです。
    ビジネス要件
    予測不可能な分散型通信ユーザー コミュニティで必要なときに必要な場所でリソースをインスタンス化し、最小限のコストで実稼働環境を拡張します。独自のデータのセキュリティを確保して、最先端の機械学習と分析を保護します。
    分散した研究員からの分析用データへの信頼性が高くタイムリーなアクセスを提供し、顧客に影響を与えることなく機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
    技術要件
    テレメトリ データの安全で効率的な転送と保存を確保し、インスタンスを迅速に拡張して、それぞれ複数のフローを持つ 10,000 ~ 100,000 のデータ プロバイダーをサポートします。
    約2年分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。
    1日あたり1億件のレコード
    テレメトリ フローと実稼働学習サイクルの両方でのデータ パイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートします。
    CEOの声明
    当社のビジネス モデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されており、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データ パイプラインを迅速に安定化する必要があります。
    CTO 声明
    当社のパブリック クラウド サービスは、宣伝どおりに機能する必要があります。拡張可能で、データを安全に保つリソースが必要です。また、データ サイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。当社はデータの処理を自動化に依存しているため、反復しながら機能する開発環境とテスト環境も必要です。
    CFOの声明
    プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
    また、膨大なデータ フィードを監視するために運用チームを配置する余裕はないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、当社の定量研究者はデータ パイプラインの問題ではなく、価値の高い問題に取り組むことができます。
    Google Data Studio 360 で、大規模なチーム向けの新しいレポートを作成します。レポートでは、データ ソースとして Google BigQuery を使用します。会社のポリシーでは、従業員が自分の地域に関連付けられたデータのみを表示できるようにする必要があるため、地域ごとにテーブルを作成して入力します。データに対する地域アクセス ポリシーを適用する必要があります。
    取るべき行動はどれですか? (2 つ選択してください。)
  • Professional-Data-Engineer 試験問題 229

    Cloud Storage をデータ レイク ソリューションの基盤として使用することを計画しています。Cloud Storage バケットには、外部システムから取り込まれたオブジェクトが含まれます。各オブジェクトは 1 回取り込まれ、個々のオブジェクトへのアクセス パターンはランダムになります。これらのオブジェクトの保存と取得にかかるコストを最小限に抑える必要があります。コスト最適化の取り組みがユーザーとアプリケーションに対して透過的になるようにする必要があります。どうすればよいでしょうか。
  • Professional-Data-Engineer 試験問題 230

    インフラストラクチャには、一連の YouTube チャンネルが含まれています。YouTube チャンネルのデータを分析のために Google Cloud に送信するプロセスを作成するというタスクが与えられています。世界中のマーケティング チームが最新の YouTube チャンネル ログ データに対して ANSI SQL やその他のタイプの分析を実行できるソリューションを設計したいと考えています。Google Cloud へのログ データ転送をどのように設定すればよいでしょうか。