PySpark for Big Data

Tijdsduur
Locatie
Op locatie, Online
Startdatum en plaats

PySpark for Big Data

SpiralTrain
Logo van SpiralTrain
Opleiderscore: starstarstarstarstar_half 8,5 SpiralTrain heeft een gemiddelde beoordeling van 8,5 (uit 50 ervaringen)

Tip: meer info over het programma, prijs, en inschrijven? Download de brochure!

Startdata en plaatsen
placeAmsterdam
16 feb. 2026 tot 18 feb. 2026
Toon rooster
event 16 februari 2026, 09:30-16:30, Amsterdam, Dag 1
event 17 februari 2026, 09:30-16:30, Amsterdam, Dag 2
event 18 februari 2026, 09:30-16:30, Amsterdam, Dag 3
placeEindhoven
16 feb. 2026 tot 18 feb. 2026
Toon rooster
event 16 februari 2026, 09:30-16:30, Eindhoven, Dag 1
event 17 februari 2026, 09:30-16:30, Eindhoven, Dag 2
event 18 februari 2026, 09:30-16:30, Eindhoven, Dag 3
placeHouten
16 feb. 2026 tot 18 feb. 2026
Toon rooster
event 16 februari 2026, 09:30-16:30, Houten, Dag 1
event 17 februari 2026, 09:30-16:30, Houten, Dag 2
event 18 februari 2026, 09:30-16:30, Houten, Dag 3
computer Online: Online
16 feb. 2026 tot 18 feb. 2026
Toon rooster
event 16 februari 2026, 09:30-16:30, Online, Dag 1
event 17 februari 2026, 09:30-16:30, Online, Dag 2
event 18 februari 2026, 09:30-16:30, Online, Dag 3
placeRotterdam
16 feb. 2026 tot 18 feb. 2026
Toon rooster
event 16 februari 2026, 09:30-16:30, Rotterdam, Dag 1
event 17 februari 2026, 09:30-16:30, Rotterdam, Dag 2
event 18 februari 2026, 09:30-16:30, Rotterdam, Dag 3
placeZwolle
16 feb. 2026 tot 18 feb. 2026
Toon rooster
event 16 februari 2026, 09:30-16:30, Zwolle, Dag 1
event 17 februari 2026, 09:30-16:30, Zwolle, Dag 2
event 18 februari 2026, 09:30-16:30, Zwolle, Dag 3
placeAmsterdam
13 apr. 2026 tot 15 apr. 2026
Toon rooster
event 13 april 2026, 09:30-16:30, Amsterdam, Dag 1
event 14 april 2026, 09:30-16:30, Amsterdam, Dag 2
event 15 april 2026, 09:30-16:30, Amsterdam, Dag 3
placeEindhoven
13 apr. 2026 tot 15 apr. 2026
Toon rooster
event 13 april 2026, 09:30-16:30, Eindhoven, Dag 1
event 14 april 2026, 09:30-16:30, Eindhoven, Dag 2
event 15 april 2026, 09:30-16:30, Eindhoven, Dag 3
placeHouten
13 apr. 2026 tot 15 apr. 2026
Toon rooster
event 13 april 2026, 09:30-16:30, Houten, Dag 1
event 14 april 2026, 09:30-16:30, Houten, Dag 2
event 15 april 2026, 09:30-16:30, Houten, Dag 3
computer Online: Online
13 apr. 2026 tot 15 apr. 2026
Toon rooster
event 13 april 2026, 09:30-16:30, Online, Dag 1
event 14 april 2026, 09:30-16:30, Online, Dag 2
event 15 april 2026, 09:30-16:30, Online, Dag 3
placeRotterdam
13 apr. 2026 tot 15 apr. 2026
Toon rooster
event 13 april 2026, 09:30-16:30, Rotterdam, Dag 1
event 14 april 2026, 09:30-16:30, Rotterdam, Dag 2
event 15 april 2026, 09:30-16:30, Rotterdam, Dag 3
placeZwolle
13 apr. 2026 tot 15 apr. 2026
Toon rooster
event 13 april 2026, 09:30-16:30, Zwolle, Dag 1
event 14 april 2026, 09:30-16:30, Zwolle, Dag 2
event 15 april 2026, 09:30-16:30, Zwolle, Dag 3
placeAmsterdam
15 jun. 2026 tot 17 jun. 2026
Toon rooster
event 15 juni 2026, 09:30-16:30, Amsterdam, Dag 1
event 16 juni 2026, 09:30-16:30, Amsterdam, Dag 2
event 17 juni 2026, 09:30-16:30, Amsterdam, Dag 3
placeEindhoven
15 jun. 2026 tot 17 jun. 2026
Toon rooster
event 15 juni 2026, 09:30-16:30, Eindhoven, Dag 1
event 16 juni 2026, 09:30-16:30, Eindhoven, Dag 2
event 17 juni 2026, 09:30-16:30, Eindhoven, Dag 3
placeHouten
15 jun. 2026 tot 17 jun. 2026
Toon rooster
event 15 juni 2026, 09:30-16:30, Houten, Dag 1
event 16 juni 2026, 09:30-16:30, Houten, Dag 2
event 17 juni 2026, 09:30-16:30, Houten, Dag 3
computer Online: Online
15 jun. 2026 tot 17 jun. 2026
Toon rooster
event 15 juni 2026, 09:30-16:30, Online, Dag 1
event 16 juni 2026, 09:30-16:30, Online, Dag 2
event 17 juni 2026, 09:30-16:30, Online, Dag 3
placeRotterdam
15 jun. 2026 tot 17 jun. 2026
Toon rooster
event 15 juni 2026, 09:30-16:30, Rotterdam, Dag 1
event 16 juni 2026, 09:30-16:30, Rotterdam, Dag 2
event 17 juni 2026, 09:30-16:30, Rotterdam, Dag 3
placeZwolle
15 jun. 2026 tot 17 jun. 2026
Toon rooster
event 15 juni 2026, 09:30-16:30, Zwolle, Dag 1
event 16 juni 2026, 09:30-16:30, Zwolle, Dag 2
event 17 juni 2026, 09:30-16:30, Zwolle, Dag 3
placeAmsterdam
17 aug. 2026 tot 19 aug. 2026
Toon rooster
event 17 augustus 2026, 09:30-16:30, Amsterdam, Dag 1
event 18 augustus 2026, 09:30-16:30, Amsterdam, Dag 2
event 19 augustus 2026, 09:30-16:30, Amsterdam, Dag 3
placeEindhoven
17 aug. 2026 tot 19 aug. 2026
Toon rooster
event 17 augustus 2026, 09:30-16:30, Eindhoven, Dag 1
event 18 augustus 2026, 09:30-16:30, Eindhoven, Dag 2
event 19 augustus 2026, 09:30-16:30, Eindhoven, Dag 3
Beschrijving
In the course PySpark for Big Data participants learn to use Apache Spark from Python.

Spark Architecture

The course PySpark for Big Data discusses the architecture of Spark, the Spark Cluster Manager and the difference between Batch and Stream Processing.

Hadoop

After a discussion of the Hadoop Distributed File System, parallel operations and working with RDDs, Resilient Distributed Datasets are discussed in the course PySpark for Big Data. The configuration of PySpark applications via SparkConf and SparkContext is also explained.

MapReduce en SQL

Extensive consideration is given to the possible operations on RDDs, including map and reduce. The use of SQL in Spark is also discussed. The Gra…

Lees de volledige beschrijving

Veelgestelde vragen

Er zijn nog geen veelgestelde vragen over dit product. Als je een vraag hebt, neem dan contact op met onze klantenservice.

Nog niet gevonden wat je zocht? Bekijk deze onderwerpen: Big Data, Python, Statistiek, Data Science en Data mining.

In the course PySpark for Big Data participants learn to use Apache Spark from Python.

Spark Architecture

The course PySpark for Big Data discusses the architecture of Spark, the Spark Cluster Manager and the difference between Batch and Stream Processing.

Hadoop

After a discussion of the Hadoop Distributed File System, parallel operations and working with RDDs, Resilient Distributed Datasets are discussed in the course PySpark for Big Data. The configuration of PySpark applications via SparkConf and SparkContext is also explained.

MapReduce en SQL

Extensive consideration is given to the possible operations on RDDs, including map and reduce. The use of SQL in Spark is also discussed. The GraphX library is discussed and DataFrames is discussed. Iterative algorithms are also treated.

Mlib library

Finally the course PySpark for Big Data pays attention to machine learning with the Mlib library.

Audience PySpark for Big Data

The course PySpark for Big Data is intended for developers and upcoming Data Analysts who want to learn how to use Apache Spark from Python.

Prerequisites training PySpark for Big Data

To participate in this course, some experience with programming is beneficial for understanding. Prior knowledge of Python or big data handling with Apache Spark is not required.

Realization course PySpark for Big Data

The theory is treated on the basis of presentations. Illustrative demos are used to clarify the concepts discussed. There is ample opportunity to practice and alternate theory and practice. The course times are from 9.30 am to 4.30 pm.

Certification course PySpark for Big Data

Participants receive an official certificate PySpark for Big Data after successful completion of the course.

Modules

Module 1 : Python Primer

  • Python Syntax
  • Python Data Types
  • List, Tuples, Dictionaries
  • Python Control Flow
  • Functions and Parameters
  • Modules and Packages
  • Comprehensions
  • Iterators and Generators
  • Python Classes
  • Anaconda Environment
  • Jupyter Notebooks

Module 2 : Spark Intro

  • What is Apache Spark?
  • Spark and Python
  • PySpark
  • Py4j Library
  • Data Driven Documents
  • RDD's
  • Real Time Processing
  • Apache Hadoop MapReduce
  • Cluster Manager
  • Batch versus Stream Processing
  • PySpark Shell

Module 3 : HDFS

  • Hadoop Environment
  • Environment Setup
  • Hadoop Stack
  • Hadoop Yarn
  • Hadoop Distributed File System
  • HDFS Architecture
  • Parallel Operations
  • Working with Partitions
  • RDD Partitions
  • HDFS Data Locality
  • DAG (Direct Acyclic Graph)

Module 4 : SparkConf

  • SparkConf Object
  • Setting Configuration Properties
  • Uploading Files
  • SparkContext.addFile
  • Logging Configuration
  • Storage Levels
  • Serialize RDD
  • Replicate RDD partitions
  • DISK_ONLY
  • MEMORY_AND_DISK
  • MEMORY_ONLY

Module 5 : SparkContext

  • Main Entry Point
  • Executor
  • Worker Nodes
  • LocalFS
  • SparkContext Parameters
  • Master
  • RDD serializer
  • batchSize
  • Gateway
  • JavaSparkContext instance
  • Profiler

Module 6 : RDD’s

  • Resilient Distributed Datasets
  • Key-Value pair RDDs
  • Parallel Processing
  • Immutability and Fault Tolerance
  • Transformation Operations
  • Filter, groupBy and Map
  • Action Operations
  • Caching and persistence
  • PySpark RDD Class
  • count, collect, foreach,filter
  • map, reduce, join, cache

Module 7 : Spark Processing

  • SQL support in Spark
  • Spark 2.0 Dataframes
  • Defining tables
  • Importing datasets
  • Querying data frames using SQL
  • Storage formats
  • JSON / Parquet
  • GraphX
  • GraphX library overview
  • GraphX APIs

Module 8 : Broadcast and Accumulator

  • Performance Tuning
  • Serialization
  • Network Traffic
  • Disk Persistence
  • MarshalSerializer
  • Data Type Support
  • Python’s Pickle Serializer
  • DStreams
  • Sliding Window Operations
  • Multi Batch and State Operations

Module 9 : Algorithms

  • Iterative Algorithms
  • Graph Analysis
  • Machine Learning API
  • mllib.classification
  • Random Forest
  • Naive Bayes
  • Decision Tree
  • mllib.clustering
  • mllib.linalg
  • mllib.regression

Waarom SpiralTrain

SpiralTrain is specialist op het gebied van software development trainingen. Wie bieden zowel trainingen aan voor beginnende programmeurs die zich de basis van talen en tools eigen willen maken als ook trainingen voor ervaren software professionals die zich willen bekwamen in de nieuwste versie van een taal of een framework.

Onze trainingkenmerken zich door :

• Klassikale of online open roostertrainingen en andere trainingsvormen
• Eenduidige en scherpe cursusprijzen, zonder extra kosten
• Veel trainingen met een doorlopende case study
• Trainingen die gericht zijn op certificering

Blijf op de hoogte van nieuwe ervaringen
Er zijn nog geen ervaringen.
  • Vraag informatie aan over deze cursus. Je ontvangt vanaf dan ook een seintje wanneer iemand een ervaring deelt. Handige manier om jezelf eraan te herinneren dat je wilt blijven leren!
  • Bekijk gerelateerde producten mét ervaringen: Big Data.
Deel je ervaring
Heb je ervaring met deze cursus? Deel je ervaring en help anderen kiezen. Als dank voor de moeite doneert Springest € 1,- aan Stichting Edukans.

Er zijn nog geen veelgestelde vragen over dit product. Als je een vraag hebt, neem dan contact op met onze klantenservice.

Download gratis en vrijblijvend de informatiebrochure

(optioneel)
(optioneel)
(optioneel)
infoEr is een telefoonnummer vereist om deze informatieaanvraag in behandeling te nemen. (optioneel)
(optioneel)
(optioneel)
(optioneel)

Heb je nog vragen?

(optioneel)
We slaan je gegevens op om je via e-mail en evt. telefoon verder te helpen.
Meer info vind je in ons privacybeleid.