Architektur und Dataiku-Integration

Sie können auf jeder Cloud-Plattform oder in On-Premises-Umgebungen Ergebnisse aus Data-Science-Projekten, Modellen für Machine Learning und KI-Initiativen bereitstellen.

Erklärbarkeit

Datenaufbereitung

Unterstützung in der Cloud oder On-Premise

Dataiku kann in On-Premises-Umgebungen oder in der Cloud mit Instanzen auf Amazon Web Services (AWS), Google Cloud Platform (GCP) und Microsoft Azure ausgeführt werden. Die Plattform lässt sich für jede Cloud in Speicher- und verschiedene Infrastrukturebenen integrieren.

Pushdown-Filterung

Viele Datenanalyse- und Data-Science-Systeme umfassen bereits eine Computing-Infrastruktur, doch diese enge Verknüpfung kann zu Problemen führen, wenn das System für die Datenmengen oder die Art des Workloads nicht geeignet ist.

Eine mögliche Lösung ist die Filterung und Weitergabe der Abfragen an Computing-Systeme wie Spark und Kubernetes, die die größeren Workloads in einer verteilten Architektur verarbeiten. Dataiku unterstützt die Pushdown-Filterung, damit Unternehmen vorhandene flexible und hochskalierbare Systeme wie SQL-Datenbanken, Spark und Kubernetes verwenden können.

Elastisches Cloud-Computing mit Kubernetes

Elastisches Cloud-Computing ist häufig die kostengünstigste Methode, um große und dynamische Workloads bei Big-Data-Analysen und Machine Learning zu bewältigen.

Die vollständig verwaltete Kubernetes-Lösung von Dataiku ist mit allen bekannten Cloud-Container-Services, wie Amazon EKS, Google Kubernetes Engine (GKE) und Azure Kubernetes Service (AKS), und mit On-Premises-Clustern von Kubernetes/Docker kompatibel.

CPUs und GPUs

Mit Grafikprozessoren (Graphical Processing Units, GPUs) lassen sich bestimmte ML-Modelle, insbesondere Deep-Learning-Modelle, erheblich schneller trainieren.

Dataiku unterstützt für diese Zwecke sowohl CPUs als auch GPUs. Wenn mehrere GPUs zur Verfügung stehen, kann Dataiku Workloads auf die GPUs verteilen und dadurch die Zeit für das Modelltraining stark verkürzen.

Wiederverwendbare Komponenten

Zur Vermeidung von Duplikaten in Projekten können Objekte gemeinsam genutzt und wiederverwendet werden. Mit den Funktionen von Dataiku können sowohl Programmierer als auch andere Nutzer möglichst viele Elemente erneut einsetzen.

Im Dataiku-Workflow ist es möglich, alle visuellen Komponenten wiederzuverwenden und zu übertragen. Auch einzelne Aufbereitungsschritte oder sogar ganze Prozessabschnitte (Datensätze und Code-Snippets) können extern für andere Projekte freigegeben werden. Nutzer können Objekte dann umbenennen oder erneut taggen.

Erweiterbar durch Plug-ins

Unternehmen können Dataiku durch benutzerdefinierte Plug-ins erweitern. Die Bibliothek von Dataiku umfasst mehr als 100 Plug-ins zur Ergänzung vorhandener Dataiku-Instanzen, zum Beispiel für den Zugriff auf neue Datenquellen, Diagramme, Programmiersprachen, Algorithmen, Modellierungstechniken und Partnerintegrationen.

WEITERE INFORMATIONEN (AUF ENGLISH)

Erklärbarkeit

Datenaufbereitung