Dataikuのデータ準備
大規模な分析や機械学習プロジェクト向けにデータを接続し、クレンジングし、準備します。
ビジュアルフロー
Dataikuのビジュアルフローを使用すれば、コーダーも非コーダーでもデータセットやレシピを備えたデータパイプラインを簡単に構築し、データセットに加えたり変換できます。予測モデルを構築することもできます。
ビジュアルフローにはカスタマイズや高度機能向けのコードや再利用可能なプラグイン機能もあります。
主要なデータソースに接続
Dataikuは、Amazon S3、Azure Blob Storage、Google Cloud Storage、 Snowflake、SQLデータベー ス、NoSQLデータベース、HDFSを含む、オンプレミスおよびクラ ウドにある25以上の主要なデータソースへの接続を提供します。
データ準備、データラングリング、データクレンジング
Dataikuは使いやすいビジュアルインタフェースを提供し、データ準備を急激に加速します。データセットの結合とグループ化、または、データレコードの凝集、クリーニング、正規化、改良、重複排除が数回のクリックで可能です。
特に、Dataikuはビジュアルフローの一部として、再現可能なレシピの上記ステップを補足します。
90以上の内蔵データトランスフォーマー
Dataikuには、ビニング、連結、通貨換算、日程変換、フィルタリング、分割などの一般的なデータ操作を行う90以上のデータトランスフォーマーが内蔵されています。
データ分析時には、データタイプに基づき、提案された機能で時間を短縮します。
トランスフォーマーがライブラリーにない場合でも、ユーザーはスプレッドシートで使用されているものと同じ式を素早く書き込んでほとんどのデータ変換タスクを完了します。
地理空間データの準備
Dataikuは地理空間データの作業時には内蔵の地理空間変換機能を提供します。
この機能は地理ポイントデータから緯度や経度を抽出し たり、その逆を行うことができます。地理IP位置からは、国、地域/州、都市、郵便番号が得られ、IP アドレスからはより多くが得られます。Geo joinは地理座標系を使用してデータセットを結び付けます。
さらに、地理プラグインはジオコーディングなどに追加機能を提供します。