Ein Rückblick von Gottfried Vossen
Vom 18. bis 23. August 2019 fand die TDWI 2019 in San Diego statt, eine von mehreren TDWI-Konferenzen, die jährlich in den USA organisiert werden. Alle TDWI-Konferenzen ziehen regelmäßig viele hundert Besucher an, so auch diese, die im Sheraton Harbour Island Hotel in der Nähe des internationalen Flughafens durchgeführt wurde. Die Besucher erwartete ein umfangreiches Programm aus Keynotes, ganz- oder halbtägigen Tutorials, kompletten Kursprogrammen zu Themen wie Modern Data Management, Data Strategy & Leadership, Advanced Analytics oder Data Platforms & Architectures, Workshops und sogar Zertifizierungen zum TDWI-eigenen Certified Business Intelligence Professional (CBIP).
Teilgenommen habe ich am Tutorial Hands-on: Python for Data Analysis am Dienstag sowie an zwei Workshops am Mittwoch. Das Python-Tutorial führte hauptsächlich in die Benutzung von Pandas ein, dem Python-Modul zur Bearbeitung tabellarischer Daten. Es war sehr gut vorbereitet und organisiert; sämtliche Unterlagen wurden vom Leiter William Henry vorab in Form von Jupyter-Notebooks zur Verfügung gestellt; als Vorbereitung hatte Henry die Teilnehmer aufgefordert, bereits Anaconda oder eine andere Plattform zu installieren, von der aus die Notebooks zugegriffen und ausgeführt werden konnten. Im Laufe des Tages wurden diese dann durchgearbeitet, wobei der Unterricht mit vielen Beispielen und In-Class-Übungen durchsetzt war, was für die Teilnehmer letztlich anstrengend, aber sehr instruktiv war. Der Ansatz, alles in Form von Notebooks darzubieten, fand allgemein großen Anklang.
Im Workshop zu Data Warehousing in the Age of Analytics & Big Data: Hadoop and the Data Warehouse ging es im Kern um die Frage, wie zeitgemäß ein Data Warehouse heute noch ist. Dem Vortragenden Krish Kirshnan ging es um eine Definition, was eine Data Science-Plattform ausmacht und um eine Bereitstellung von unternehmensweiter Datenintegration sowie von modernen Tools wie ElasticSearch, Kibana, Timelion, Spark SQL oder Jupyter. Der Referent behandelte diverse Data Science-Architekturen, die sich mit diesen Tools, aber auch mit Werkzeugen des maschinellen Lernens realisieren lassen und die weit über eine klassische Data Warehouse-Architektur hinausgehen.
Der zweite o.g. Workshop mit dem Titel Predictive Modeling with Ensembles: Advanced Techniques for Deeper Insights behandelte sog. Ensembles und wurde von Keith McCormick geleitet. Ein Ensemble ist eine Sammlung bzw. Kombination von Lernverfahren, mit denen sich gemeinsam eine bessere Vorhersagegenauigkeit erzielen lässt, als das mit einem einzelnen der verwendeten Algorithmen möglich wäre. Ensembles können homogen sein, also denselben Algorithmus immer wieder verwenden; sie können aber auch heterogen sein, d.h. verschiedene Modelle und Algorithmen, die unabhängig voneinander entwickelt wurden, werden kombiniert. Ensembles finden in zahlreichen Fragestellungen des Data Mining Anwendung und haben Popularität und Sichtbarkeit insbesondere durch die Netflix Prize Competition erzielt.
Alle drei Veranstaltungen wurden begleitet von umfangreichen Unterlagen, die den Teilnehmern in gedruckter Form ausgehändigt wurden und die viele Hinweise auf Weiterführendes enthalten, so dann man sich Notizen machen konnte. Insgesamt war der Besuch ausgesprochen lohnend. Die Kommunikation sowie das Networking mit zahlreichen Industrievertretern aus unterschiedlichsten Branchen sowie den (überraschend wenigen) Ausstellern hat die Teilnahme zu einem großen Gewinn gemacht.
Münster, im Oktober 2019, Gottfried Vossen