DataikuのDataOps
データパイプラインを自動化し、エンタープライズ全体にわたるクリーンでタイムリーなデータを実現します
プロジェクト
Dataikuプロジェクトはすべての作業とユーザーコラボレーションの中心になります。Dataikuプロジェクトには、そのプロジェクトに関連するデータセットやレシピのパイプラインを含むビジュアルフローがあります。
ユーザーはプロジェクトや関連付けられた資産(ダッシュボードなど)を表示し、プロジェクト全体の状態を確認すると共に最近のアクティビティを表示することができます。
ビジュアルフロー
データの変換、準備、および分析のためにデータパイプラインを整理することはすぐに使用できるAIプロジェクトにとって不可欠です。
Dataikuのビジュアルフローを使用すればコーダーも非コーダーもデータセットやレシピを備えたデータパイプラインを簡単に構築し、データセットに追加、変換することができます。予測モデルを構築することもできます。フローにはカスタマイズや高度機能向けのコードや再利用可能なプラグイン要素もあります。
データ品質および確認
DataikuのChecks機能は、指定の値または前の値と比較するためにフロー要素の自動評価が可能です。そのため、自動化フローが予測時間枠内・予測結果内で実行されるようにします。データパイプラインアイテムがチェックに不合格な場合は、エラーが返され、調査してすぐに解決するように促されます。
シナリオおよび自動化のトリガー
AIプロジェクトの操作にはデータの読み込みや処理、バッチスコアジョブの実行などの反復タスクが必須です。Dataikuでは、シナリオやトリガーが、定期的な実行や、条件ベースのトリガーによって反復処理を自動化できます。
自動化を取り入れると、本番担当チームはより多くのプロジェクトを管理できるようになり、より多くの本番向けAIプロジェクトを提供するように拡張できます。
コードノートブック、レシピおよび環境
Dataikuはコーダーも非コーダーも使用できます。PythonやRなどのツールを好む開発者や高度なデータサイエンティストはノートブック経由、またはコードレシピやプラグインで直接コードを組み込むことができます。
DataikuはSQL、Python、およびR用コードノートブック、および Python、R、SQL、Hive、Pig、Impala、Spark- Scala、PySpark、Spark/R、SparkSQL、およびShellで開発されたコードレシピに対応しています。さらにPython、R、および Conda用コード環境にも対応し、R用の包括的なAPIも備えています。
Git統合
開発プロジェクトではコードバージョン管理のためにGit との統合が求められます。Dataikuは、プロジェクトのバージョン管理、PythonおよびRコードのインポート、再 利用可能なプラグインの開発、プラグインのインポートなどにGitとの統合を提供しています。
API
DataikuはAIや解析プロジェクトの作成や管理目的で外部システムと統合するために堅固なAPIを備えています。認定ユーザーは、DataikuパブリックAPIを使用し、管理、メンテナンス、データアクセスなどの外部システム経由で相互作用することができます。
パブリックAPIはPython APIクライアントまたはHTTP REST API経由で利用できます。Dataikuはまた、JavaScript向けの包括的なR APIとAPI、さらに特定機能向けのScalaも搭載しています。