Beiträge

Interview: Data Warehousing in der Cloud

Interview mit Thomas Scholz von Snowflake über Data Warehousing in der Cloud

Thomas Scholz ist Sales Engineer bei Snowflake und Experte für analytische Datenbank. Der studierte Informatiker befasst sich bereits seit dem Beginn seiner Karriere vor mehr als 10 Jahren mit den Herausforderungen und Potentialen des Datenwachstums. Heute berät Herr Scholz Kunden beim Weg in die Cloud und dem Einsatz analytischer Datenbanken zur Verbesserung der Möglichkeiten der Datennutzung. Snowflake ist führender Anbieter eines Cloud Services für Data Warehousing und Datenanalyse auf Plattformen wie AWS und MS Azure.

Data Science Blog: Herr Scholz, ohne Data Warehousing wären datenorientierte Geschäftsmodelle unmöglich und auch die Selbstoptimierung von Unternehmen über Datenanalysen nicht effizient. Wie vermitteln Sie die Prinzipien eines Data Warehouse (DWH) in wenigen Sätzen verständlich für Entscheider?

Ganz allgemein kann man sagen, dass ein DWH ein zentraler Datenspeicher im Unternehmen ist, der verschiedene Datenquellen vereinheitlicht und bereinigt zusammenbringt. Durch diese zentrale Rolle müssen Schnittstellen in die vielfältigen Softwarelösungen eines Unternehmens bereitgestellt werden, wobei sich die Fokussierung auf Industriestandards anbietet. Im Datenbankumfeld sind beispielsweise SQL, ODBC und JDBC aber immer mehr auch XML und JSON zu nennen.

In der Vergangenheit wurden DWHs primär zur Verarbeitung der sog. strukturierten Daten genutzt und für semi- oder unstrukturierte Daten wurde andere Konzepte wie beispielsweise Data Lakes eingesetzt. Diese Grenze verschwimmt nun allerdings vermehrt und man möchte idealerweise strukturierte und semi-strukturierte Daten in einem System verarbeiten.

Ein derartig zentraler Datenbestand ermöglicht es Unternehmen alle Geschäftsprozesse im Detail zu verstehen und entsprechend auch Erkenntnisse zur Optimierung zu gewinnen.

Data Science Blog: DWH erfolgt traditionell on-premise. Sie stehen für das DWH in der Cloud. Wo liegen die Vorteile gegenüber der traditionellen Variante?

Cloud Services zu nutzen ist ein breiter Trend und setzt sich nun auch verstärkt im DHW Bereich fort. Dies hat gute Gründe. Sehr oft werden beispielsweise Kosteneinsparpotentiale genannt. Dies ist dadurch möglich, dass man Ressourcen bedarfsgerecht dimensionieren kann und bei passender Architektur nur das bezahlen muss, was man letztlich auch genutzt hat. Kommerziell machbar ist das durch Ressourcenteilung. In einem Cloud-Rechenzentrum werden Rechner geteilt eingesetzt und zwar immer dort, wo sie gerade benötigt werden. Hierdurch werden Leerlaufzeiten vermieden und die Nutzung effizienter.

Aber auch die Skalierbarkeit spielt eine Rolle. Manche Ressourcen werden in der Cloud komplett bedarfsgerecht zur Verfügung gestellt. Beispielsweise Storage. Wenn ich viel benötige, kann ich viel nutzen – und zwar sofort. Praktisch relevante Grenzen existieren nicht. Auch die Skalierung von Rechenleistung ist ein wichtiger Aspekt und hierbei nicht nur nach oben sondern auch nach unten. Ich möchte idealerweise immer genau so viel Leistung bekommen, wie ich gerade benötige. Geschwindigkeit ist nicht mehr limitiert durch die Hardware, die ich im Hause habe. Wenn ich viel Leistung benötige, möchte ich diese auch abrufen können und da ich anschließend wieder kleiner skalieren kann, kann ich mir in intensiven Zeiten auch mehr Ressourcen leisten.

Auch der Aspekt der Agilität wird immer wieder genannt. Cloud-Services stehen mehr oder weniger auf Knopfdruck zur Verfügung. Möchte man eine neue Software im eigenen Rechenzentrum in Betrieb nehmen lassen oder Änderungen an der Konfiguration durchführen, so sind oft langwierige Prozesse erforderlich. Gerade in der schnelllebigen Zeit ist das ein nicht zu unterschätzender Aspekt.

Aber natürlich bringt Cloud auch Risiken und Herausforderungen mit sich, mit denen man sich auseinander setzen muss. So vertraut man seine Daten einem Dienstleister an. Daher muss sichergestellt sein, dass die Daten auch verschlüsselt und vor Zugriffen des Dienstleisters oder anderer unberechtigter Personen geschützt sind. Idealerweise kann der Dienstleister dies garantieren und die Sicherheit des Dienstes durch entsprechende unabhängige Zertifizierungen belegen.

Data Science Blog: Wieso und in welcher Hinsicht unterscheidet sich die Datenbankarchitektur für Clouddatenbanken von on-premise DBs?

Ein großer Vorteil der Cloud ist die elastische Skalierung von Ressourcen. Damit dieser Aspekt aber bei Datenbanken zum Tragen kommt, ist eine andersartige Architektur erforderlich. Klassische Datenbank haben eine recht starre Zuordnung von Daten und Rechenkapazitäten. Möchte man zusätzliche Recheneinheiten nutzen, so muss die Datenorganisation verändert werden, was insbesondere bei großen Datenvolumina nicht effizient ist. Snowflake setzt daher auf eine spezielle Architektur, die konkret für die Möglichkeiten in der Cloud entwickelt wurde. Kernidee ist die Trennung von Storage und Compute, also von Daten und Rechnern. Hierdurch können beide Ressourcen unabhängig voneinander skaliert werden und insbesondere Rechenkapazität bedarfsgerecht genutzt werden. In Zeiten hoher Last, möchte man mehr Ressourcen nutzen, wohingegen bei niedriger Last nur kleine Recheneinheiten oder teilweise gar keine Ressourcen benötigt werden. Da man dies bei Snowflake sekundengenau bezahlt, erkennt man schnell, die Attraktivität dieses Ansatzes. Wenn viel Leistung erforderlich ist, kann ich diese sehr schnell hinzufügen, für diesen Zeitraum bezahle ich das dann auch, aber im Mittel komme ich mit deutlich weniger Ressourcen aus und spare bares Geld.

Außerdem kann man durch die Trennung von Storage und Compute auch belieb Nutzergruppen auf dedizierte Recheneinheiten verteilen und sie somit unabhängig voneinander machen. Der Data Scientist beispielsweise erhält sein eigenes Cluster und beeinträchtigt keinen anderen Nutzer im Unternehmen. Dass die parallele Nutzung unterschiedlicher Cluster auf den gleichen Daten nicht zu Konflikten führt, regelt ein übergreifendes Transaktionsmanagement. Der Data Scientist kann also ein Cluster verwenden, dass für seine Bedürfnisse dimensioniert ist, andere Nutzergruppen erhalten eigene Systeme, die wiederum an deren Erfordernisse angepasst sind. Und aktiv muss ein Cluster nur sein, wenn die jeweilige Nutzergruppe ihr System gerade benötigt.

Data Science Blog: Wodurch grenzt sich Snowflake von anderen Cloud-Services wie von Microsoft, Amazon und Google ab?

Zunächst muss fest gehalten werden, dass Snowflake ein Dienst auf Cloud-Plattformen wie AWS oder MS Azure ist. Es handelt sich also eher um eine Partnerschaft zwischen Snowflake und den Betreibern dieser Plattformen. In einzelnen Bereichen gibt es aber tatsächlich auch Angebote der Plattformbetreiber die mit dem Leistungsangebot von Snowflake im Wettbewerb stehen. Hier gilt es, die eigenen Anforderungen genau zu definieren und die jeweilige Architektur damit abzugleichen. Neben reiner Funktionalität und Performance sollte man gerade Aspekte wie Elastizität und Nebenläufigkeit im Blick haben.

Data Science Blog: Für die erfahrenden Data Engineers, die dieses Interview lesen: Bitte hier nun einen kleinen Pitch für Snowflake!

Ich fasse mich kurz: Snowflake ist das DWH für die Cloud. Die gesamte Architektur wurde für die Cloud entwickelt, mit Snowflake kann man die vielfältigen Vorteile des Cloud Computings fürs DWH optimal nutzbar machen – und das für semi-strukturierte Daten genauso wie für klassische strukturierte Daten. Wer es nicht glaubt, kann es unkompliziert und kostenfrei ausprobieren: https://trial.snowflake.com/

Der Einsatz von Data Warehousing in der Cloud und von Künstlicher Intelligenz zur Auswertung von Geschäfts- oder Maschinendaten ist auch das Leit-Thema der zweitägigen Data Leader Days 2018 in Berlin. Am 14. November 2018 sprechen renommierte Data Leader über Anwendungsfälle, Erfolge und Chancen mit Geschäfts- und Finanzdaten. Der 15. November 2018 konzentriert sich auf Automotive- und Maschinendaten mit hochrangigen Anwendern aus der produzierenden Industrie und der Automobilzuliefererindustrie. Seien Sie dabei und nutzen Sie die Chance, sich mit führenden KI-Anwendern auszutauschen.

Interview: Dem Wettbewerb voraus mit Künstlicher Intelligenz

Interview mit Benjamin Aunkofer, Chief Data Scientist bei DATANOMIQ Applied Data Science, über die Anwendungen, die KI schon heute übernehmen kann und was bis 2020 auf deutsche Unternehmen zukommt.

Benjamin Aunkofer ist Chief Data Scientist bei DATANOMIQ und befasst sich mit Data Science und Machine Learning im Kontext von Business Analytics. Er ist in der Praxis und in der Lehre tätig. Neben dem täglichen Beratungsgeschäft arbeitet Herr Aunkofer mit seinem Team an einer Artificial Intelligence Enterprise Integration, einer universellen Plattform für KI im Unternehmen.

Möchten Sie Herrn Aunkofer persönlich kennenlernen? Treffen Sie ihn persönlich an einem der beiden Data Leader Days 2018 (www.dataleaderdays.com).

1. Herr Aunkofer, Künstliche Intelligenz scheint das Buzzword für 2018 zu sein. Alles nur Hype?

Big Data war das Buzzword der vergangenen Jahre und war – trotz mittlerweile etablierter Tools wie SAP Hana, Hadoop und weitere – betriebswirtschaftlich zum Scheitern verurteilt. Denn Big Data ist ein passiver Begriff und löst keinesfalls auf einfache Art und Weise alltägliche Probleme in den Unternehmen. Soweit liegen Kritiker richtig.

Dabei wird völlig verkannt, dass Big Data die Vorstufe für den eigentlichen Problemlöser ist, der gemeinhin als Künstliche Intelligenz (KI) bezeichnet wird. KI ist ein Buzzword, dessen langfristiger Erfolg und Aktivismus selbst von skeptischen Experten nicht infrage gestellt wird. Daten-Ingenieure sprechen im Kontext von KI hier aktuell bevorzugt von Deep Learning; wissenschaftlich betrachtet ein Teilgebiet der KI. Da die meisten Leser mit dem Begriff „KI“ wohl eher Hollywood-Bilder im Kopf haben, versuche ich begrifflich bei „Deep Lerning“ zu bleiben. Ich entschuldige mich aber im Voraus dafür, dass ich dann doch wieder selbst von KI sprechen werde, damit dann aber im Kern Deep Learning meine.

2. Was kann Deep Learning denn schon heute im Jahr 2018?

Deep Learning Algorithmen laufen bereits heute in Nischen-Anwendungen produktiv, beispielsweise im Bereich der Chatbots oder bei der Suche nach Informationen als Suchmaschine. Sie übernehmen ferner das Rating für die Kreditwürdigkeit und sperren Finanzkonten, wenn sie erlernte Betrugsmuster erkennen. Im Handel findet Deep Learning bei bestimmten Pionieren die optimalen Einkaufsparameter sowie den besten Verkaufspreis, zumindest für ausgewählte Produktgruppen.

Getrieben wird Deep Learning insbesondere durch prestigeträchtige Vorhaben wie das autonome Fahren, dabei werden die vielfältigen Anwendungen im Geschäftsbereich oft vergessen.

3. Wo liegen die Grenzen von Deep Learning?

Und Big Data ist das Futter für Deep Learning. Daraus resultiert auch die Grenze des Möglichen, denn für strategische Entscheidungen eignet sich KI bestenfalls für das Vorbereitung einer Datengrundlage, aus denen menschliche Entscheider eine Strategie entwickeln. KI wird zumindest in dieser Dekade nur auf operativer Ebene Entscheidungen treffen können, insbesondere in der Disposition, Instandhaltung, Logistik und für den Handel auch im Vertrieb – anfänglich jeweils vor allem als Assistenzsystem für die Menschen.

Sicherlich gibt es immer auch eher frustrierende Erfahrung mit Deep Learning. Es gibt immer noch etliche Bugs in Bilderkennungssoftware und auch Chatbots oder Assistenzsystem wie Alexa, Cortana oder Siri sind nicht ohne Frustpotenzial, da alles noch nicht reibungslos funktioniert. Vor zwei Jahrzehnten waren Touchscreens oder internetfähige mobile Endgeräte nicht frustfrei nutzbar, heute jedoch aus unserem Alltag nicht mehr wegzudenken. Ähnlich wird sich das auch mit künstlicher Intelligenz verhalten.

Genau wie das autonome Fahren mit Assistenzsystemen beginnt, wird auch im Unternehmen immer mehr die KI das Steuer übernehmen.

4. Was wird sich hinsichtlich KI bis 2020 tun? Wie wird sich der Markt wandeln?

Derzeit stehen wir erst am Anfang der Möglichkeiten, die Künstliche Intelligenz uns bietet. Das Markt-Wachstum für KI-Systeme und auch die Anwendungen erfolgt exponentiell. Entsprechend wird sich auch die Arbeitsweise für KI-Entwickler ändern müssen. Mit etablierten Deep Learning Frameworks, die mehrheitlich aus dem Silicon Valley stammen, zeichnet sich der Trend ab, der für die Zukunft noch weiter professionalisiert werden wird: KI-Frameworks werden Enterprise-fähig und Distributionen dieser Plattformen werden es ermöglichen, dass KI-Anwendungen als universelle Kernintelligenz für das operative Geschäft für fast alle Unternehmen binnen weniger Monate implementierbar sein werden.

Wir können bis 2020 also mit einer Alexa oder Cortana für das Unternehmen rechnen, die Unternehmensprozesse optimiert, Risiken berichtet und alle alltäglichen Fragen des Geschäftsführers beantwortet – in menschlich-verbal formulierten Sätzen.

Der Einsatz von Künstlicher Intelligenz zur Auswertung von Geschäfts- oder Maschinendaten ist auch das Leit-Thema der zweitägigen Data Leader Days 2018 in Berlin. Am 14. November 2018 sprechen renommierte Data Leader über Anwendungsfälle, Erfolge und Chancen mit Geschäfts- und Finanzdaten. Der 15. November 2018 konzentriert sich auf Automotive- und Maschinendaten mit hochrangigen Anwendern aus der produzierenden Industrie und der Automobilzuliefererindustrie. Seien Sie dabei und nutzen Sie die Chance, sich mit führenden KI-Anwendern auszutauschen.

Grußwort des Bundesministers für Verkehr und digitale Infrastruktur

Wir schaffen eine neue Datenpolitik

Grußwort des Bundesministers für Verkehr und digitale Infrastruktur
für das Programmheft zu den Data Leader Days 2018

Wenn es um Daten geht, heißt es häufig ganz selbstverständlich, sie seien der Rohstoff der Digitalisierung. Doch genau genommen ist das Bild schief. Anders als Erdöl oder Metalle sind Daten nicht von der Natur gemacht, sondern von Computern und letztlich vom Menschen. Wir müssen sie also nicht als gottgegeben hinnehmen. Erdöl ist da – und wir bestimmen, wie es genutzt und verteilt wird. Bei Daten können wir nicht nur bestimmen, wie sie genutzt werden, sondern auch: wie sie entstehen. Damit haben wir den Schlüssel in der Hand, sie eindeutig zu regeln und nach unseren Vorstellungen zu formen.

Klar ist: Daten sind die Grundlage jeder digitalen Innovation. Sie sind die Riesenchance auf mehr Lebensqualität und Wohlstand. Gleichzeitig ist es aber eine große Herausforderung, ihre Verwendung zu regeln.

Die Mobilität ist dafür ein Paradebeispiel. Jeder moderne Serienwagen ist ein rollender Computer, sammelt innerhalb von acht Stunden vier Terabyte an Daten – und weiß damit alles über Routen, Hindernisse, Unfälle, Kurvenkrümmungen und Witterung. Das ist gut, weil es mehr Verkehrssicherheit, weniger Emissionen und damit mehr Lebensqualität bringt. Diese Potenziale wollen wir heben – und dabei die Persönlichkeitsrechte unserer Bürger mit den Interessen der Unternehmen in Einklang bringen. Mein Haus hat dafür einige wichtige Schritte eingeleitet. Wir haben eine Studie zur Eigentumsordnung von Mobilitätsdaten veröffentlicht und damit eine nationale Diskussion zu Verfügungs- und Zugangsrechten zu Mobilitätsdaten angestoßen. Diese Diskussion hat gezeigt, dass die Erarbeitung technischer Konzepte für den Zugang zu Mobilitätsdaten immer mehr an Bedeutung gewinnt. Diese sollen den Datenzugang verbessern und damit Dateninnovation ermöglichen. Gleichzeitig helfen sie aber auch, Transparenz zu schaffen und die Datensouveränität zu wahren. Gemeinsam mit dem Innen- und Justizministerium haben wir eine Datenethikkommission ins Leben gerufen, die der Bundesregierung und dem Parlament innerhalb eines Jahres einen Entwicklungsrahmen für Datenpolitik, den Umgang mit Algorithmen, künstlicher Intelligenz und digitalen Innovationen vorschlagen soll.

Die Data Leader Days 2018 sind auf diesem Weg ein wichtiger Impulsgeber. Ich wünsche den Teilnehmerinnen und Teilnehmern einen spannenden und anregenden Austausch!

Ihr

Andreas Scheuer MdB
Bundesminister für Verkehr und digitale Infrastruktur