Professional-Data-Engineer 試験問題 131

あなたは、荷物が配送ラインを移動して適切に配送される配送センターがある運送会社で働いています。同社は、輸送中の荷物の視覚的な損傷を検出して追跡するために、配送ラインにカメラを追加したいと考えています。破損したパッケージの検出を自動化し、パッケージの輸送中にリアルタイムで人間が確認できるようにフラグを立てる方法を作成する必要があります。どのソリューションを選択する必要がありますか?
  • Professional-Data-Engineer 試験問題 132

    数百万台のコンピューターの時系列CPUとメモリ使用量を保存するデータベースを選択する必要があります。このデータを1秒間隔のサンプルに保存する必要があります。アナリストは、データベースに対してリアルタイムのアドホック分析を実行します。実行されるすべてのクエリに対して課金されることを避け、スキーマ設計がデータセットの将来の拡張を可能にすることを確認する必要があります。どのデータベースとデータモデルを選択する必要がありますか?
  • Professional-Data-Engineer 試験問題 133

    BigQueryで非正規化データ構造を使用する利点の2つは何ですか?
  • Professional-Data-Engineer 試験問題 134

    ケーススタディ1-フローロジスティック
    会社概要
    Flowlogisticは、主要なロジスティクスおよびサプライチェーンプロバイダーです。これらは、世界中の企業がリソースを管理し、最終目的地に輸送するのに役立ちます。同社は急速に成長し、鉄道、トラック、航空機、および海上輸送を含むように提供を拡大しています。
    会社背景
    同社は地域のトラック会社としてスタートし、その後他のロジスティクス市場に拡大しました。
    インフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。運用を改善するために、Flowlogisticは、小包レベルでリアルタイムに貨物を追跡するための独自のテクノロジーを開発しました。ただし、Apache Kafkaに基づくテクノロジースタックが処理ボリュームをサポートできないため、デプロイできません。さらに、Flowlogisticは、注文と出荷をさらに分析して、リソースを最適に展開する方法を決定したいと考えています。
    ソリューションコンセプト
    Flowlogisticは、クラウドを使用して2つの概念を実装したいと考えています。
    *荷物の場所を示すリアルタイムの在庫追跡システムで独自のテクノロジーを使用する
    *構造化データと非構造化データの両方を含むすべての注文と出荷ログの分析を実行して、情報を拡張するための市場であるリソースの最適な展開方法を決定します。また、予測分析を使用して、出荷が遅れる時期を早期に学習したいと考えています。
    既存の技術環境
    フローロジスティックアーキテクチャは、単一のデータセンターに存在します。
    *データベース
    2つのクラスターに8台の物理サーバー
    -SQL Server-ユーザーデータ、インベントリ、静的データ
    3台の物理サーバー
    -Cassandra-メタデータ、追跡メッセージ
    10台のKafkaサーバー-メッセージ集約とバッチ挿入の追跡
    *アプリケーションサーバー-顧客フロントエンド、注文/税関用ミドルウェア
    20台の物理サーバーにまたがる60台の仮想マシン
    -Tomcat-Javaサービス
    -Nginx-静的コンテンツ
    -バッチサーバー
    *ストレージアプライアンス
    -仮想マシン(VM)ホスト用のiSCSI
    -ファイバーチャネルストレージエリアネットワーク(FC SAN)-SQLサーバーストレージ
    -ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
    *10台のApacheHadoop/Sparkサーバー
    -コアデータレイク
    -データ分析のワークロード
    *20のその他のサーバー
    -ジェンキンス、監視、要塞ホスト、
    ビジネス要件
    *生産のスケーリングされたパンティーを使用して、信頼性と再現性のある環境を構築します。
    *分析のために一元化されたデータレイクにデータを集約する
    *履歴データを使用して、将来の出荷に関する予測分析を実行します
    *独自の技術を使用して、世界中のすべての貨物を正確に追跡します
    *新しいリソースの迅速なプロビジョニングを通じて、ビジネスの俊敏性とイノベーションの速度を向上させます
    *クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する
    *他のすべての要件が満たされている場合は、クラウドに完全に移行します
    技術要件
    *ストリーミングデータとバッチデータの両方を処理します
    *既存のHadoopワークロードを移行する
    *アーキテクチャがスケーラブルで弾力性があり、会社の変化する要求に対応できるようにします。
    *可能な限りマネージドサービスを使用する
    *データの飛行と保存を暗号化する
    *本番データセンターとクラウド環境の間にVPNを接続するSEOステートメント私たちは急速に成長したため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率を実際に妨げています。私たちは世界中の貨物を移動するのに効率的ですが、データを移動するのは非効率的です。
    顧客がどこにいて、何を出荷しているのかをより簡単に理解できるように、情報を整理する必要があります。
    CTOステートメント
    ITは私たちにとって優先事項ではなかったため、データが増大するにつれて、テクノロジーに十分な投資をしていません。私にはITを管理する優れたスタッフがいますが、彼らはインフラストラクチャの管理に忙しく、データの整理、分析の構築、CFOの実装方法の理解などの本当に重要なことを彼らに行わせることができません。追跡技術。
    CFOステートメント
    私たちの競争上の利点の一部は、遅れた出荷と配達に対して自分自身にペナルティを課すことです。出荷が常にどこにあるかを知ることは、私たちの収益と収益性に直接的な相関関係があります。さらに、サーバー環境の構築に資金を投入したくありません。
    FlowlogisticのCEOは、顧客ベースについて迅速な洞察を得て、営業チームが現場でより多くの情報を得ることができるようにしたいと考えています。このチームはあまり技術的ではないため、BigQueryレポートの作成を簡素化するための視覚化ツールを購入しました。ただし、テーブル内のすべてのデータに圧倒されており、必要なデータを見つけようとするクエリに多額の費用を費やしています。あなたは最も費用効果の高い方法で彼らの問題を解決したいと思っています。あなたは何をするべきか?
  • Professional-Data-Engineer 試験問題 135

    分析チームは、どの顧客が最も可能性が高いかを判断するための単純な統計モデルを構築したいと考えています
    いくつかの異なる指標に基づいて、あなたの会社と再び協力します。彼らはApacheでモデルを実行したいと考えています
    Spark、Google Cloud Storageに格納されているデータを使用し、GoogleCloudの使用をお勧めします
    このジョブを実行するDataproc。テストの結果、このワークロードは約30分で実行できることが示されています。
    15ノードのクラスタ。結果をGoogleBigQueryに出力します。計画では、このワークロードを毎週実行します。
    コストに関してクラスターをどのように最適化する必要がありますか?