Big Data Analysis mit (Py-)Spark

Detailinformationen

Apache Spark ist als Distributed Computing Engine fester Bestandteil vieler aktueller Big Data-Plattformen und -Strategien. Spark ermöglicht es Workflows der Datenanalyse durch die parallelisierte Ausführung auf einem Cluster beliebig zu skalieren. Dazu zählen Lösungen für die Verarbeitung von Textdaten, tabellarische Daten, Graph-Datensätze, Streaming-Anwendungen sowie Machine Learning-Algorithmen. Die PySpark-API verbindet die Spark Engine mit der Python-Welt.

Dieser zweitägige Intensivkurs bietet eine gründliche Einführung in das Framework und vermittelt grundlegende Paradigmen sowie die handwerklichen Fähigkeiten anhand von Praxisübungen. Produktivität im Umgang mit der Spark-API und Skalierbarkeit der entwickelten Lösungen gehören zu unseren Hauptzielen.

Einführung in Big Data Verarbeitung und Analysis mit PySpark
Grundlagen Spark (u.a. RDDs, Transformations & Actions, MapReduce)
Datenimport und erste einfache Datenanalysen (mit Spark SQL & DataFrames)
Streaming und Graph-Daten - Spark Streaming API und GraphX
Übersicht zu Machine Learning sowie Klassifkationsbeispiel mit Spark ML
Interaktives Material und durchgehende interaktive Übungen (Jupyter Notebooks)

Staudt, Christian

Dr. Christian Staudt ist Freelance Data Scientist & Machine Learning Engineer bei der Point 8 GmbH. Er unterstützt als Freelance Data Scientist Auftraggeber bei Herausforderungen rund um Data Mining, Big Data und Machine Learning. Neben der Projektarbeit entwickelt er Trainings und coacht Teams in Sachen Methodik und Werkzeuge der Datenanalyse, die er schon während seiner Forschungstätigkeiten in der Informatik nutzte. Als Referent ist er in der Community um Python und Data Science aktiv. Gemeinsam mit Point 8 bietet er ein breites Spektrum von Basic bis Advanced Trainings an.

Details

Seminarziel

Die Teilnehmer erhalten einen breiten Einblick in Spark, lernen Anwendungsfälle zu erkennen und die Pros und Contras des Frameworks abzuschätzen. Wir erleichtern den Einstieg in die Grundlagen von Spark (RDDs, Transformations & Actions…) und führen die Teilnehmer dann vom Datenimport über einfache Datenanalysen (mit Spark SQL & DataFrames) bis hin zu ersten eigenen Programmen für die Anwendung auf dem Cluster.

Zielgruppe

Der Kurs richtet sich an Softwareentwickler, Data Scientists, Data Engineers und andere mit dem Ziel, die Plattform Spark für die Verarbeitung und Analyse großer Datenmengen zum Einsatz zu bringen. Wir betrachten Spark aus der Anwenderperspektive.

Voraussetzungen

Als Erweiterungsworkshop benötigen die Teilnehmer praxisnahe Grundlagen im Bereich der Datenanalyse. Python-Pakete für die Datenanalyse, -visualisierung und Statistik (z.B. pandas, numpy, matplotlib, scipy) sollten nicht fremd sein. Beispielsweise bedient der Kurs “Data Science Boot Camp” aus der TDWI Akademie relevantes Vorwissen für dieses Training.

Hard- Software Voraussetzungen

Eine besondere technische Anforderung an Hard- oder Software gibt es nicht. Ausreichend ist ein eigener Laptop mit einem aktuellen Internetbrowser. Unsere digitale Laborumgebung und unsere dokumentierten Jupyter-Notebooks für das interaktive Arbeiten bringen alles Weitere mit.

Sprachen

Seminar: Deutsch

Unterlagen: Englisch

Methode

Der Workshop nutzt umfangreiche, interaktive Übungen zur direkten Anwendung und anschließenden Vertiefung des Verständnisses. Wir legen Wert auf eine ausgewogene Mischung aus Vortrag, Diskussion und Praxisübungen (individuell und im Team).

Informationen

In der Teilnahmegebühr sind folgende Leistungen enthalten:

der Seminarvortrag und begleitende Seminarunterlagen
Ihre persönliche Teilnahmebescheinigung

Teilnahmegebühr:

Weitere Informationen zu den Teilnahmegebühren finden Sie hier.

Disclaimer: Wir sind für die eigenen Inhalte, die wir zur Nutzung bereithalten, nach den allgemeinen Gesetzen verantwortlich. Von diesen eigenen Inhalten sind Querverweise (externe Links) auf die von anderen Anbietern bereit gehaltenen Inhalte zu unterscheiden. Diese fremden Inhalte stammen nicht von uns und spiegeln auch nicht unsere Meinung wider, sondern dienen lediglich der Information. Wir machen uns diese Inhalte nicht zu eigen und übernehmen trotz sorgfältiger inhaltlicher Kontrolle keine Haftung für die Inhalte externer Links. Für den Inhalt der verlinkten Seite sind ausschließlich deren Betreiber verantwortlich.

Seminarsuche

Big Data Analysis mit (Py-)Spark

Kurzinformationen

Weitere Termine auf Anfrage

Detailinformationen

Staudt, Christian

Seminarziel

Zielgruppe

Voraussetzungen

Hard- Software Voraussetzungen

Sprachen

Methode

Informationen

Big Data Analysis mit (Py-)Spark

Kurzinformationen

Weitere Termine auf Anfrage

Detailinformationen

Staudt, Christian

Seminarziel

Zielgruppe

Voraussetzungen

Hard- Software Voraussetzungen

Sprachen

Methode

Informationen

Ansprechpartner

Julia Seliger