Professional-Data-Engineer 試験問題 286

組織内の各分析チームは、それぞれのプロジェクトでBigQueryジョブを実行しています。各チームがプロジェクト内のスロット使用状況を監視できるようにしたいと考えています。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 287

    ニューラル ネットワークにカテゴリ特徴内のカテゴリ間の関係を学習させるにはどうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 288

    ストリーミング Cloud Dataflow パイプラインを運用しています。エンジニアは、ウィンドウ処理アルゴリズムとトリガー戦略が異なる新しいバージョンのパイプラインを使用しています。実行中のパイプラインを新しいバージョンに更新したいと考えています。更新中にデータが失われないようにする必要があります。どうすればよいでしょうか?
  • Professional-Data-Engineer 試験問題 289

    フローロジスティックのケーススタディ
    会社概要
    Flowlogisticは、物流およびサプライチェーンのリーディングプロバイダーです。世界中の企業のリソース管理と最終目的地への輸送を支援しています。同社は急成長を遂げ、鉄道、トラック、航空機、海上輸送など、サービスを拡大しています。
    会社概要
    同社は地域密着型のトラック輸送会社としてスタートし、その後、他の物流市場にも進出しました。インフラの更新が遅れていたため、注文と出荷の管理・追跡がボトルネックとなっていました。業務改善のため、Flowlogisticは小包レベルで出荷をリアルタイムに追跡する独自の技術を開発しました。しかし、Apache Kafkaをベースとした既存の技術スタックでは処理量に対応できず、導入に至っていません。さらに、Flowlogisticは注文と出荷をさらに分析し、最適なリソース配分方法を検討したいと考えています。
    ソリューションコンセプト
    Flowlogistic は、クラウドを使用して次の 2 つの概念を実装したいと考えています。
    * 荷物の位置を示すリアルタイム在庫追跡システムに独自の技術を使用する
    * 構造化データと非構造化データの両方を含むすべての注文と出荷ログを分析し、最適なリソース配分方法や、どの市場への情報展開を行うべきかを決定します。また、予測分析を活用して、出荷の遅延を早期に把握したいと考えています。
    既存の技術環境
    Flowlogistic アーキテクチャは単一のデータ センターに存在します。
    * データベース
    - 2つのクラスターに8台の物理サーバー
    - SQL Server - ユーザーデータ、インベントリ、静的データ
    - 物理サーバー3台
    - Cassandra - メタデータ、メッセージ追跡
    10 台の Kafka サーバー - メッセージの集約とバッチ挿入の追跡
    * アプリケーションサーバー - 顧客フロントエンド、注文/カスタム用のミドルウェア
    - 20台の物理サーバーにまたがる60台の仮想マシン
    - Tomcat - Javaサービス
    - Nginx - 静的コンテンツ
    - バッチサーバー
    * ストレージ機器
    - 仮想マシン (VM) ホスト用の iSCSI
    - ファイバーチャネルストレージエリアネットワーク(FC SAN) - SQLサーバーストレージ
    ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
    * 10台のApache Hadoop / Sparkサーバー
    - コアデータレイク
    - データ分析ワークロード
    * その他サーバー20台
    - Jenkins、監視、要塞ホスト、
    ビジネス要件
    * スケールされた生産パンティを備えた信頼性が高く再現可能な環境を構築します。
    * 分析のために集中化されたデータレイクにデータを集約する
    * 過去のデータを使用して将来の出荷に関する予測分析を実行する
    * 独自の技術を使用して、世界中のすべての出荷を正確に追跡します
    * 新しいリソースを迅速にプロビジョニングすることで、ビジネスの俊敏性とイノベーションのスピードを向上
    * クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する
    * 他のすべての要件が満たされている場合は、クラウドに完全に移行します
    技術要件
    * ストリーミングとバッチデータの両方を処理
    * 既存のHadoopワークロードを移行する
    * 会社の変化する需要を満たすために、アーキテクチャが拡張可能で弾力性があることを確認します。
    * 可能な限りマネージドサービスを利用する
    * 飛行中および保存中のデータを暗号化
    本番データセンターとクラウド環境の間にVPNを接続する
    SEOステートメント
    当社は急速な成長を遂げたため、インフラのアップグレードができず、それがさらなる成長と効率化の妨げとなっています。世界中への貨物輸送は効率的ですが、データの移動は非効率です。
    顧客がどこにいるのか、何を発送しているのかをより簡単に理解できるように、情報を整理する必要があります。
    CTO声明
    ITは当社にとってこれまで優先事項ではありませんでした。そのため、データの増加に伴い、テクノロジーへの投資が不十分になっていました。IT管理を担当する優秀なスタッフはいますが、彼らはインフラ管理に忙殺されており、データの整理、分析機能の構築、CFOのトラッキングテクノロジーの導入方法の検討といった、本当に重要な業務に時間を割くことができません。
    CFO声明
    当社の競争優位性の一つは、出荷や納品の遅延に対して自らペナルティを課すことです。出荷品の現在位置を常に把握することは、当社の収益と利益率に直接的に影響します。加えて、サーバー環境の構築に資本を投入したくありません。
    Flowlogistic 社の経営陣は、現在の Apache Kafka サーバーではリアルタイム在庫追跡システムのデータ量を処理できないと判断しました。そのため、Google Cloud Platform (GCP) 上に、自社の追跡ソフトウェアにデータを提供する新しいシステムを構築する必要があります。このシステムは、世界中の様々なソースからデータを取り込み、リアルタイムで処理・クエリを実行し、データを確実に保存できる必要があります。GCP プロダクトのどの組み合わせを選択すべきでしょうか?
  • Professional-Data-Engineer 試験問題 291

    毎日何十万ものソーシャル メディア投稿を、最小限のコストと最小限の手順で分析したいと考えています。
    次の要件があります:
    * 投稿を 1 日に 1 回一括読み込みし、Cloud Natural Language API を通じて実行します。
    * 投稿からトピックと感情を抽出します。
    * アーカイブおよび再処理のために、生の投稿を保存する必要があります。
    * 組織内外のユーザーと共有できるダッシュボードを作成します。
    分析のためにAPIから抽出したデータと、履歴アーカイブのためにソーシャルメディアの生の投稿の両方を保存する必要があります。どうすればよいでしょうか?