Dataikuのデータ準備
大規模な分析や機械学習プロジェクトのために、データを接続、クレンジング、準備します。
ビジュアルデータフロー
Dataikuフローは、プロジェクトのデータパイプラインを視覚的に表現します。コーダーにもノンコーダーにも一元的な場所を提供し、ここでデータを確認して分析し、データセットを結合したり変換するレシピを追加し、予測モデルを構築することができます。
このビジュアルフローに含まれるコードベースやプラグインの部品を使い、カスタマイズしたり拡張性を高めることができます。
主要なデータソースの接続
Dataikuは、Amazon S3、Azure Blob Storage、Google Cloud Storage、Snowflake、SQLデータベース、NoSQLデータベース、HDFSなど、オンプレミスやクラウド上の数十の主要データソースへのコネクタを提供します。
データ準備とエンリッチ化
Dataikuは、データセットの結合、グループ化と集約、データのクリーニング、変換、エンリッチ化などを数回のクリックで実行できる使いやすいビジュアルインターフェースを提供します。それだけでなくさらに、Dataikuはビジュアルフローの一部としてレシピのすべての手順を自動的にドキュメント化します。
クリックよりコーディングを好む場合、Python、R、SQLなどのおなじみの言語を使用してコードレシピを作成し、お気に入りのIDEで開発および編集できます。
100のデータ内蔵トランスフォーマー
強力な準備レシピには、ビニング、連結、文字列操作、通貨や日付の変換、ジオエンリッチメント、リシェイプなどの一般的なデータ操作のための100の内蔵データトランスフォーマーが含まれています。
さらに、Dataikuは、データの種類と値に基づき関連する関数を提案します。
カスタム変換のために、スプレッドシートで使うようなフォーミュラ言語を利用できる他、さらなる柔軟性のためにPythonコードを利用できます。
特殊なデータ変換
Dataikuは、地理空間データ、時系列データ、画像、メタデータや構造をもつテキストといった特殊なデータ型を解析し、エンリッチ化するためのさまざまな機能やツールを提供します。
例えば、ジオジョインやジオコーディング、時系列のリサンプリング、画像のアノテーション、テキストのベクトル化など、さまざまな機能があります。