Seminarsuche

Big Data Analysis mit (Py-)Spark

Julian von der Ecken

Kurzinformationen

09. Dez. 2019 - 10. Dez. 2019

Köln
€ 1790.00 zzgl. MwSt
€ 2130.10 inkl. MwSt

Neu Mit eigenem Laptop

Auf Anfrage

Detailinformationen

Massive Datenströme aus industriellen Anwendungen führen schnell zu echten Big-Data-Problemen, deren Lösung verteiltes Rechnen auf einem Cluster erfordert. Wir stellen das Open-Source-Framework Apache Spark vor, um Datenanalyse auf einem Cluster skalierbar zu machen.

Der zweitägige Kurs steht unter dem Motto: Nicht reden, sondern machen! Wir holen die Teilnehmer bei ihrem Pythonwissen ab, stellen die wichtigsten Konzepte und Tools (u.a. RDDs, Transformation, Actions, (Map-)Reduce, …) vor und ermöglichen den Teilnehmern Programmiererfahrung anhand von Praxisaufgaben von leicht bis komplex zu sammeln. Wir arbeiten in der Cloud. Nur ein Laptop mit aktuellem Internetbrowser ist mitzubringen.

Tag 1 (9 - 17 Uhr)

1) Data Analysis with Python - Recap
Recap of the PyData Stack

2) Processing Big Data
Which strategies are available to compute efficiently with increasing amounts of data? What is a
cluster, and when do we need one?

3) Spark Fundamentals
An overview of Spark - a framework for programming distributed computation, using PySpark, its
Python API - core data structures (RDDs) and operations (Transformations, Actions) - SparkContext to
the first Spark Program.
Exercises:
Apply Transformations and Actions on RDDs
Pi Approximation and Word Counts

Tag 2 (9 - 17 Uhr)


3) Submitting Spark Jobs
How to submit jobs to a Spark cluster for batch processing.

4) Spark and Structured Data
Working with structured data in Spark in a SparkSession.
Exercises:
DataFrame operations on a first simple dataset.

5) Exercises:
Counting Bigrams, Museums of France and Titanic dataset - Getting used to Spark with your first
(Big)-Data Analysis Cases.

Dr. von der Ecken, Julian

Dr. Julian von der Ecken ist Data Scientist bei Point 8. Durch seine Arbeit sowohl im Bereich von industriellen Kundenprojekten im Anlagen- & Maschinenbau bis hin zur Schwerindustrie kann er auf ein breites Erfahrungsspektrum verschiedenster User Cases zurückgreifen. Für Point 8 entwickelt und gibt er zudem Trainings für verschiedene Zielgruppen. Julian war zuvor langjährig in der Datenanalyse in der (Bio-)Physik tätig und bringt damit oft den Querblick mit ins Projekt.

Seminarziel

Die Teilnehmer erhalten einen breiten Einblick in Spark, lernen Anwendungsfälle zu erkennen und die
Pros und Contras des Frameworks abzuschätzen. Wir erleichtern den Einstieg in die Grundlagen von Spark (RDDs, Transformations & Actions…) und führen die Teilnehmer dann vom Datenimport über einfache
Datenanalysen (mit Spark SQL & DataFrames) bis hin zu ersten eigenen Programmen für die Anwendung
auf dem Cluster.

Zielgruppe

Wir richten uns an Data Scientists und Datenanalysten, die im Unternehmenskontext den Übergang und
die ersten Schritte der Datenanalyse mit Spark suchen.

Voraussetzungen

Der Kurs richtet sich an Teilnehmer, die bereits die Grundlagen der Programmierung beherrschen und diese in der Programmiersprache Python anwenden können. Ebenso sollten Grundlagen der Datenanalyse (Data Frames, Datenvisualisierung, einfache Statistik) nicht fremd sein. Beispielsweise bedient der Kurs “Data Science Boot Camp” aus der TDWI Akademie das relevante Vorwissen für dieses Training.

Hard- Software Voraussetzungen

Eine besondere technische Anforderung an Hard- oder Software gibt es nicht. Ausreichend ist ein eigener Laptop mit einem aktuellen Internetbrowser. Unsere digitale Laborumgebung bringt alles Weitere mit. Wir greifen so durchgehend auf interaktive dokumentierte Programmierbeispiele und Übungen zurück. Dazu wird das Training in Jupyter-Notebooks durchgeführt, die auch nach dem Kurs zur weiteren Nutzung zur Verfügung gestellt werden.

Sprachen

Seminar: Deutsch

Unterlagen: Englisch

Methode

Wir legen Wert auf eine ausgewogene Mischung aus Vortrag, Diskussion und Praxisübungen (individuell
und im Team).

Informationen

In der Teilnahmegebühr sind folgende Leistungen enthalten:

  • der Seminarvortrag und eine digitale Lernumgebung, Jupyter-Notebooks werden auch nach dem Kurz zur weiteren Nutzung zur Verfügung gestellt
  • Ihre persönliche Teilnahmebescheinigung
  • Catering inkl. Begrüßungskaffee, Mittagessen plus 2 Getränke, diverse Tagungsgetränke sowie 2 Kaffeepausen mit Snacks
  • ein kostenloses, 1-jähriges Abonnement der Fachzeitschrift BI-Spektrum


Teilnahmegebühr:

Weitere Informationen zu den Teilnahmegebühren finden Sie hier.

Disclaimer: Wir sind für die eigenen Inhalte, die wir zur Nutzung bereithalten, nach den allgemeinen Gesetzen verantwortlich. Von diesen eigenen Inhalten sind Querverweise (externe Links) auf die von anderen Anbietern bereit gehaltenen Inhalte zu unterscheiden. Diese fremden Inhalte stammen nicht von uns und spiegeln auch nicht unsere Meinung wider, sondern dienen lediglich der Information. Wir machen uns diese Inhalte nicht zu eigen und übernehmen trotz sorgfältiger inhaltlicher Kontrolle keine Haftung für die Inhalte externer Links. Für den Inhalt der verlinkten Seite sind ausschließlich deren Betreiber verantwortlich.