Allein der Besitz von Daten ist für ein Unternehmen nicht mehr der Wert an sich, vielmehr besteht der Wert darin, die Möglichkeit und Fähigkeit zu besitzen, Informationen aus unübersichtlichen Mengen von Daten und deren heterogenen Strukturen zu identifizieren und zu analysieren. Mit dem Fokus auf eine Datenauswertung ist dabei zwangsläufig das Thema der Business Analytics zunehmend in den Mittelpunkt geraten. Basierend auf dem Knowledge Discovery in Databases (KDD) kombiniert Business Analytics moderne Methoden der Auswertung von großen Datenvorräten, vor allem Data Mining, Text Mining, maschinelles Lernen auf der Grundlage der Künstlichen Intelligenz und statistische Methoden. Auch beinhaltet Business Analytics Konzepte wie Kennzahlensysteme, Active/Realtime Warehousing, User-Interface-Konzepte oder Systemintegration. Der eigentliche Mehrwert liegt in der Nutzung unterschiedlicher Methoden und der Integration von Komponenten, so dass die zu treffenden Entscheidungen durch Informationen unterstützt werden können.
Die Zusammenführung einzelner Komponenten bringt es mit sich, dass der Entscheider heute viel schneller auf Veränderungen in seinem Unternehmen oder der Unternehmensumwelt reagieren kann. Im Spannungsfeld der Business Analytics tauchen dabei unterschiedliche Rollen auf, die mit diesem Thema konfrontiert sind: Entscheider, Business Analyst und Data Scientist. Diese Rollen existieren vordergründig nebeneinander, jedoch weisen diese Überlappungen auf, so dass erkennbar wird, dass diese im Themenfeld der Business Analytics Relevanz haben.
Wir greifen für dieses Boot Camp explizit die Rolle des Data Scientist heraus und haben für das Data Science Boot Camp fünf Thementage zusammengestellt, um die Anforderungen an die Rolle des Data Scientist bezüglich der Algorithmen, der Werkzeuge und Sprachen zu vermitteln. Alle Themen werden zunächst theoretisch besprochen und dann intensiv praktisch und fallbasiert weiter erarbeitet, so dass die Teilnehmer in echten Hands-on Sessions die Tätigkeiten des Data Scientist intensiv kennenlernen.
Ziel des Data Science Boot Camp ist es, Grundlagen und analytische Aufgaben des Data Scientist fundiert und praxisnah zu vermitteln!
Agenda
Tag 1 ordnet zunächst die Themenfelder und stellt den organisatorischen Rahmen dar, in denen die Nutzung von Analytics in Unternehmen eingebettet sein sollte. Im Weiteren wird in die Nutzung von Algorithmen aus den Bereichen des Data und Text Mining eingeführt. Dazu werden zunächst statistische Grundlagen aufgefrischt, so dass neben den Überlegungen, wann welcher Algorithmus potenziell geeignet ist, sich diese auch anhand erster Beispiele durchrechnen lassen.
Tag 2 führt die Ergebnisse des ersten Tages weiter, erarbeitet Auswahlkriterien von Algorithmen, und überträgt die Umsetzung nun in das Werkzeug RapidMiner. Natürlich ist dies nur ein Werkzeug unter vielen, jedoch soll es den Teilnehmern einen Eindruck vermitteln, wie in Projekten mit großen Datenbeständen und entsprechenden Analyseanforderungen werkzeugunterstützt gearbeitet wird. Dabei steht das Prozessverständnis des Knowledge Discovery in Databases (KDD) im Vordergrund. Der RapidMiner arbeitet graphikbasiert und ermöglicht so einen einfachen Einstieg in die Prozessschritte der Datenanalyse. Dabei werden noch weitere Algorithmen angewendet, um weiterhin grundlegende Inhalte kennenzulernen. So kann auch erste Erfahrung in den einzelnen Phasen gesammelt werden, um die Hürden in solchen Projekten besser beurteilen zu können. Darüber hinaus wird auch die Ergebnisinterpretation behandelt, da diese eine oftmals unterschätzte Phase im KDD-Prozess darstellt, jedoch für die Übertragung der Ergebnisse in die praktische Anwendung von hoher Relevanz ist. Es werden Analyseanforderungen und Datenbestände realer Fälle verwendet, um den Praxisbezug des Boot Camp sicherzustellen.
Tag 3 bereitet die Ergebnisse des zweiten Tages auf und erweitert im Folgenden den Werkzeugunterstützungsgedanken auf die Sprache R. Die in diesem Umfeld prominent genannte Sprache ist für statistische Berechnungen und Grafiken geschaffen worden. Die große Verbreitung ist sicherlich darauf zurück zu führen, dass R als Open-Source-Software kostenfrei ist und somit insbesondere in Prototypen und Pilotprojekten schnell Anwendung fand. Unter Nutzung der schon bekannten realen Fälle des zweiten Tages, werden nun die einzelnen Prozessschritte mittels der Sprache R im Werkzeug R Studio programmiert und ausgeführt. Während zuvor also graphikbasiert agiert wurde, steht nun die sprachenbasierte Entwicklung im Vordergrund. Es wird dabei nicht erwartet, dass bereits Programmierkenntnisse vorhanden sind. Mit Ihren Dozenten vor Ort werden die Teilnehmer schrittweise in die Programmierung eingeführt, um die Sprache erlernen zu können.
Tag 4 verstetigt das sprachenbasierte Arbeiten und vertieft das Arbeiten mit R, um die Sicherheit der Veranstaltungsteilnehmer im Umgang mit dieser Sprache zu erhöhen. Im zweiten Teil des Tages werden die Unterschiede zur umfassenderen Programmiersprache Python anhand vorgefertigter Code-Beispiele gemeinsam erarbeitet, um den Teilnehmern eine Grundlage zu schaffen, die Einsatzpotentiale und Aufwände der jeweiligen Sprache besser abschätzen zu können. Python, als ebenfalls Open-Source-Software verfügbare objektorientierte mathematisch/funktionale Sprache wurde geschaffen, um schnell in der Lage zu sein, Softwareprojekte umzusetzen. Dieser größere Leistungsumfang unterscheidet die Sprache auch von R. Sie weist dabei ein hohes Maß an analytischen Algorithmen auf, die sich auch schnell in komplexe Softwarewelten einbetten lassen bzw. vollständige eigene Softwarepakete entwickeln lassen. Die funktionale Mächtigkeit hat zum Einsatz der Sprache in vielen Analytics-Projekten geführt. Es gilt, dass die Teilnehmer des Kurses keine Programmierkenntnisse mitbringen müssen, sondern Sie mit Ihren Dozenten an den Projekten arbeiten, um die Sprache kennen zu lernen.
Tag 5 fasst vormittags die erarbeiteten Themen und Ergebnisse der Woche zusammen. Ergänzend wird der Unterschied des Data Mining zum Text Mining vertieft, so dass auch hier die Teilnehmer in der Lage sind, die Unterschiede zu erkennen und in eigenen Projekten zu berücksichtigen. Mit den zusammengefassten Inhalten werden abschließend aufgekommene Fragestellungen und Herausforderungen der Teilnehmer aus deren beruflicher Praxis diskutiert. Darüber hinaus bereitet der Vormittag auch auf die abschließende Prüfung vor. Die Abschlussprüfung findet am Nachmittag statt. Die Abschlussprüfung wird zum einen die fachgerechte Zuordnung von Methoden zu Problemstellungen und Aufgaben beinhalten. Zudem werden grundlegende Verständnisfragen zu den gezeigten Werkzeugen und Sprachen gestellt.
Tipp: Das Seminar ist Bestandteil der Data Science Professional Zertifizierung!
Weitere Informationen und Veranstaltungen finden Sie in unserem TDWI Akademie Flyer.