Professional-Data-Engineer 試験問題 66

機械学習データセットをトレーニング データとテスト データに分割する必要があるのはなぜですか?
  • Professional-Data-Engineer 試験問題 67

    御社では、多数のニューロンと層を持つTensorFlowニューラルネットワークモデルを構築しました。このモデルはトレーニングデータには良好に適合しています。しかし、新しいデータでテストするとパフォーマンスが低下します。この問題を解決するには、どのような方法がありますか?
  • Professional-Data-Engineer 試験問題 68

    あなたは、Apache Hadoop クラスタ上で動作する会社の ETL パイプラインを作成する責任があります。
    パイプラインにはチェックポイントとパイプラインの分割が必要になります。どの方法で記述すればよいでしょうか?
    パイプライン?
  • Professional-Data-Engineer 試験問題 69

    あるオンライン小売業者は、現在のアプリケーションをGoogle App Engine上に構築しています。同社の新たな取り組みでは、顧客がアプリケーション経由で直接取引を行えるよう、アプリケーションを拡張することが求められています。
    ショッピング取引を管理し、ビジネス インテリジェンス(BI)ツールを使用して複数のデータセットから統合されたデータを分析する必要があります。この目的のために単一のデータベースのみを使用したいと考えています。どの Google Cloud データベースを選択すべきでしょうか?
  • Professional-Data-Engineer 試験問題 70

    メディアストリーミングサービスであるモバイルアプリケーション用の新しいストレージシステムをデプロイしています。最適なのはGoogle Cloud Datastoreだと判断しました。複数のプロパティを持つエンティティがあり、その中には複数の値を取ることができるものもあります。例えば、エンティティ「Movie」では、プロパティ「actors」とプロパティ「tags」は複数の値を取ることができますが、プロパティ「date released」は複数の値を取ることができません。一般的なクエリでは、actor=<actorname>を持つすべての映画をdate_released順に並べるか、tag=Comedyを持つすべての映画をdate_released順に並べるかのいずれかになります。インデックス数の組み合わせ爆発をどのように回避すればよいでしょうか?