Professional-Data-Engineer 試験問題 106

あなたは、ハンドヘルド スキャナーを使用して配送ラベルを読み取る配送会社で働いています。会社には厳格なデータ プライバシー標準があり、スキャナーは受信者の個人情報 (PII) のみを分析システムに送信することを求めていますが、これはユーザーのプライバシー ルールに違反しています。クラウド ネイティブのマネージド サービスを使用してスケーラブルなソリューションを迅速に構築し、PII が分析システムに公開されるのを防ぎたいと考えています。どうすればよいですか?
  • Professional-Data-Engineer 試験問題 107

    BigQuery と Data Studio を使用して、大量の集計データを表示する顧客向けダッシュボードを設計しています。同時ユーザー数が多くなることが予想されます。最小限のレイテンシで迅速な視覚化を提供するには、ダッシュボードを最適化する必要があります。どうすればよいでしょうか。
  • Professional-Data-Engineer 試験問題 108

    MJTelco のケーススタディ
    会社概要
    MJTelco は、世界中で急成長しているがサービスが行き届いていない市場にネットワークを構築することを計画しているスタートアップ企業です。同社は革新的な光通信ハードウェアの特許を保有しています。これらの特許に基づいて、同社は安価なハードウェアで信頼性の高い高速バックボーン リンクを多数構築できます。
    会社概要
    経験豊富な通信会社の幹部によって設立された MJTelco は、宇宙での通信の課題を克服するために開発されたテクノロジーを使用しています。同社の業務の基盤となるのは、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データ インフラストラクチャを作成することです。ハードウェアは安価であるため、同社はネットワークを過剰に展開して、地域政治の変動が場所の可用性とコストに与える影響を考慮に入れることを計画しています。
    同社の管理および運用チームは世界中に配置されており、システム内のデータ コンシューマーとデータ提供者の間に多対多の関係を構築しています。慎重に検討した結果、パブリック クラウドがニーズをサポートするのに最適な環境であると判断しました。
    ソリューションコンセプト
    MJTelco は、自社のラボで概念実証 (PoC) プロジェクトを成功させています。同社には主に 2 つのニーズがあります。
    より多くのデータフローが生成される場合に、PoCを拡張して強化することで、

    50,000 以上のインストール。
    機械学習サイクルを改良して、制御に使用する動的モデルを検証し、改善する

    トポロジの定義。
    MJTelcoは、開発/テスト、ステージング、本番の3つの独立した運用環境も使用します。
    - 実験の実行、新機能の導入、実稼働顧客へのサービス提供のニーズを満たすため。
    ビジネス要件
    最小限のコストで生産環境を拡張し、いつでもどこでもリソースをインスタンス化します。

    予測不可能な分散型通信ユーザーコミュニティで必要とされます。
    最先端の機械学習と分析を保護するために、独自データのセキュリティを確保します。

    分散した研究員に分析用のデータへの信頼性とタイムリーなアクセスを提供する

    機械学習モデルの迅速な反復をサポートする隔離された環境を維持する

    顧客に影響を与えます。
    技術要件
    テレメトリデータの安全かつ効率的な転送と保存を確保する

    複数のフローを持つ10,000~100,000のデータプロバイダーをサポートするためにインスタンスを迅速に拡張します。

    それぞれ。
    約2年分のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。

    1日あたり1億件のレコード
    データパイプラインの問題を認識することに重点を置いた監視インフラストラクチャの迅速な反復をサポートする

    テレメトリフローと実稼働学習サイクルの両方で。
    CEOの声明
    当社のビジネス モデルは、特許、分析、動的機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されており、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データ パイプラインを迅速に安定化する必要があります。
    CTO 声明
    当社のパブリック クラウド サービスは、宣伝どおりに機能する必要があります。拡張可能で、データを安全に保つリソースが必要です。また、データ サイエンティストがモデルを慎重に研究し、迅速に適応できる環境も必要です。当社はデータの処理を自動化に依存しているため、反復しながら機能する開発環境とテスト環境も必要です。
    CFOの声明
    プロジェクトが大きすぎるため、データと分析に必要なハードウェアとソフトウェアを維持することはできません。
    また、膨大なデータ フィードを監視するために運用チームを配置する余裕はないため、自動化とインフラストラクチャに頼ることになります。Google Cloud の機械学習により、当社の定量研究者はデータ パイプラインの問題ではなく、価値の高い問題に取り組むことができます。
    次の要件を満たす運用チーム向けの視覚化を作成する必要があります。
    レポートには、過去6週間の50,000件のインストールすべてからのテレメトリデータが含まれている必要があります。

    (1分ごとにサンプリング)。
    レポートはライブデータから 3 時間以上遅延してはなりません。

    実用的なレポートには、最適ではないリンクのみが表示されます。

    最適ではないリンクのほとんどは、一番上に並べる必要があります。

    最適ではないリンクは、地域別にグループ化してフィルタリングできます。

    レポートをロードするためのユーザー応答時間は 5 秒未満である必要があります。

    どのアプローチが要件を満たしていますか?
  • Professional-Data-Engineer 試験問題 109

    組織では、6 か月間 Google BigQuery でデータを収集し、分析してきました。分析されたデータの大部分は、events_partitioned という時間分割テーブルに格納されています。クエリのコストを削減するために、組織では、過去 14 日間のデータのみをクエリする events というビューを作成しました。このビューは、レガシー SQL で記述されています。来月、既存のアプリケーションは BigQuery に接続し、ODBC 接続を介してイベント データを読み取ることになります。アプリケーションが接続できることを確認する必要があります。実行する必要があるアクションはどれですか (2 つ選択してください)。
  • Professional-Data-Engineer 試験問題 110

    組織サンプルに関する情報のデータベースを使用して、将来の組織サンプルを正常または変異したものとして分類したいと考えています。組織サンプルを分類するための教師なし異常検出方法を評価しています。この方法をサポートする 2 つの特性はどれですか? (2 つ選択してください。)