Table of Contents (Spark Examples in Python)

Explanation of all PySpark RDD, DataFrame and SQL examples present on this project are available at Apache PySpark Tutorial, All these examples are coded in Python language and tested in our development environment.

Table of Contents (Spark Examples in Python)

Getting Started

Follow these steps to set up a local environment that can run the example scripts:

Install prerequisites
- Python 3.8 or later.
- Java 8 or later (required by Spark). Ensure JAVA_HOME points to your JDK installation.

Create a virtual environment (recommended)

python -m venv .venv
source .venv/bin/activate  # On Windows use: .venv\\Scripts\\activate

Install dependencies
```
pip install --upgrade pip
pip install pyspark pandas
```
Pandas is optional but useful for interoperability examples.

Verify Spark can start

python - <<'PY'
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("check").getOrCreate()
print(spark.version)
spark.stop()
PY

Seeing the Spark version confirms that Java and PySpark are configured correctly.

Running the examples

All examples are single-file scripts. After activating your virtual environment:

Run any script directly, for example:
```
python pyspark-sparksession.py
```
Scripts that read sample data expect files in the resources/ directory (for example resources/zipcodes.csv) or the root-level data.txt. Run them from the repository root so relative paths resolve correctly.
To explore or modify an example, open the corresponding .py file and adjust the DataFrame operations as needed.
If you prefer the interactive shell, you can copy transformations from a script into pyspark or a notebook after creating a SparkSession.

PySpark Basic Examples

How to create SparkSession
PySpark – Accumulator
PySpark Repartition vs Coalesce
PySpark Broadcast variables
PySpark – repartition() vs coalesce()
PySpark – Parallelize
PySpark – RDD
PySpark – Web/Application UI
PySpark – SparkSession
PySpark – Cluster Managers
PySpark – Install on Windows
PySpark – Modules & Packages
PySpark – Advantages
PySpark – Feature
PySpark – What is it? & Who uses it?

PySpark DataFrame Examples

PySpark – Create a DataFrame
PySpark – Create an empty DataFrame
PySpark – Convert RDD to DataFrame
PySpark – Convert DataFrame to Pandas
PySpark – StructType & StructField
PySpark Row using on DataFrame and RDD
Select columns from PySpark DataFrame
PySpark Collect() – Retrieve data from DataFrame
PySpark withColumn to update or add a column
PySpark using where filter function
PySpark – Distinct to drop duplicate rows
PySpark orderBy() and sort() explained
PySpark Groupby Explained with Example
PySpark Join Types Explained with Examples
PySpark Union and UnionAll Explained
PySpark UDF (User Defined Function
PySpark flatMap() Transformation
PySpark map Transformation

PySpark SQL Functions

PySpark Aggregate Functions with Examples
PySpark Window Functions

PySpark Datasources

PySpark Read CSV file into DataFrame
PySpark read and write Parquet File

Name		Name	Last commit message	Last commit date
Latest commit History 65 Commits
resources		resources
README.md		README.md
convert-column-python-list.py		convert-column-python-list.py
currentdate.py		currentdate.py
data.txt		data.txt
pandas-pyspark-dataframe.py		pandas-pyspark-dataframe.py
pyspark-add-month.py		pyspark-add-month.py
pyspark-add-new-column.py		pyspark-add-new-column.py
pyspark-aggregate.py		pyspark-aggregate.py
pyspark-array-string.py		pyspark-array-string.py
pyspark-arraytype.py		pyspark-arraytype.py
pyspark-broadcast-dataframe.py		pyspark-broadcast-dataframe.py
pyspark-cast-column.py		pyspark-cast-column.py
pyspark-change-string-double.py		pyspark-change-string-double.py
pyspark-collect.py		pyspark-collect.py
pyspark-column-functions.py		pyspark-column-functions.py
pyspark-column-operations.py		pyspark-column-operations.py
pyspark-convert-map-to-columns.py		pyspark-convert-map-to-columns.py
pyspark-convert_columns-to-map.py		pyspark-convert_columns-to-map.py
pyspark-count-distinct.py		pyspark-count-distinct.py
pyspark-create-dataframe-dictionary.py		pyspark-create-dataframe-dictionary.py
pyspark-create-dataframe.py		pyspark-create-dataframe.py
pyspark-create-list.py		pyspark-create-list.py
pyspark-current-date-timestamp.py		pyspark-current-date-timestamp.py
pyspark-dataframe-flatMap.py		pyspark-dataframe-flatMap.py
pyspark-dataframe-repartition.py		pyspark-dataframe-repartition.py
pyspark-dataframe.py		pyspark-dataframe.py
pyspark-date-string.py		pyspark-date-string.py
pyspark-date-timestamp-functions.py		pyspark-date-timestamp-functions.py
pyspark-datediff.py		pyspark-datediff.py
pyspark-distinct.py		pyspark-distinct.py
pyspark-drop-column.py		pyspark-drop-column.py
pyspark-drop-null.py		pyspark-drop-null.py
pyspark-empty-data-frame.py		pyspark-empty-data-frame.py
pyspark-explode-array-map.py		pyspark-explode-array-map.py
pyspark-explode-nested-array.py		pyspark-explode-nested-array.py
pyspark-expr.py		pyspark-expr.py
pyspark-filter-null.py		pyspark-filter-null.py
pyspark-filter.py		pyspark-filter.py
pyspark-filter2.py		pyspark-filter2.py
pyspark-fulter-null.py		pyspark-fulter-null.py
pyspark-groupby-sort.py		pyspark-groupby-sort.py
pyspark-groupby.py		pyspark-groupby.py
pyspark-join-two-dataframes.py		pyspark-join-two-dataframes.py
pyspark-join.py		pyspark-join.py
pyspark-left-anti-join.py		pyspark-left-anti-join.py
pyspark-lit.py		pyspark-lit.py
pyspark-loop.py		pyspark-loop.py
pyspark-mappartitions.py		pyspark-mappartitions.py
pyspark-maptype-dataframe-column.py		pyspark-maptype-dataframe-column.py
pyspark-orderby-groupby.py		pyspark-orderby-groupby.py
pyspark-orderby.py		pyspark-orderby.py
pyspark-parallelize.py		pyspark-parallelize.py
pyspark-partitionby.py		pyspark-partitionby.py
pyspark-pivot.py		pyspark-pivot.py
pyspark-print-contents.py		pyspark-print-contents.py
pyspark-python-dataframe.py		pyspark-python-dataframe.py
pyspark-range-partition.py		pyspark-range-partition.py
pyspark-rdd-actions.py		pyspark-rdd-actions.py
pyspark-rdd-broadcast.py		pyspark-rdd-broadcast.py
pyspark-rdd-flatMap.py		pyspark-rdd-flatMap.py
pyspark-rdd-map.py		pyspark-rdd-map.py
pyspark-rdd-reduceByKey.py		pyspark-rdd-reduceByKey.py
pyspark-rdd-to-dataframe.py		pyspark-rdd-to-dataframe.py
pyspark-rdd-wordcount-2.py		pyspark-rdd-wordcount-2.py
pyspark-rdd-wordcount.py		pyspark-rdd-wordcount.py
pyspark-rdd.py		pyspark-rdd.py
pyspark-read-csv.py		pyspark-read-csv.py
pyspark-read-json.py		pyspark-read-json.py
pyspark-rename-column.py		pyspark-rename-column.py
pyspark-repace-null.py		pyspark-repace-null.py
pyspark-repartition-2.py		pyspark-repartition-2.py
pyspark-repartition.py		pyspark-repartition.py
pyspark-row.py		pyspark-row.py
pyspark-sampling.py		pyspark-sampling.py
pyspark-select-columns.py		pyspark-select-columns.py
pyspark-shape-dataframe.py		pyspark-shape-dataframe.py
pyspark-show-top-n-rows.py		pyspark-show-top-n-rows.py
pyspark-sparksession.py		pyspark-sparksession.py
pyspark-split-function.py		pyspark-split-function.py
pyspark-sql-case-when.py		pyspark-sql-case-when.py
pyspark-string-date.py		pyspark-string-date.py
pyspark-string-timestamp.py		pyspark-string-timestamp.py
pyspark-string-to-array.py		pyspark-string-to-array.py
pyspark-struct-to-map.py		pyspark-struct-to-map.py
pyspark-structtype.py		pyspark-structtype.py
pyspark-time-diff.py		pyspark-time-diff.py
pyspark-timestamp-date.py		pyspark-timestamp-date.py
pyspark-types.py		pyspark-types.py
pyspark-udf.py		pyspark-udf.py
pyspark-union.py		pyspark-union.py
pyspark-unix-time.py		pyspark-unix-time.py
pyspark-update-column.py		pyspark-update-column.py
pyspark-when-otherwise.py		pyspark-when-otherwise.py
pyspark-window-functions.py		pyspark-window-functions.py
pyspark-withcolumn.py		pyspark-withcolumn.py
python-pandas.py		python-pandas.py
schema.py		schema.py
spark-repartition-2.py		spark-repartition-2.py
timediff.py		timediff.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Table of Contents (Spark Examples in Python)

Getting Started

Running the examples

PySpark Basic Examples

PySpark DataFrame Examples

PySpark SQL Functions

PySpark Datasources

About

Uh oh!

Releases

Packages

Contributors 5

Uh oh!

Languages

spark-examples/pyspark-examples

Folders and files

Latest commit

History

Repository files navigation

Table of Contents (Spark Examples in Python)

Getting Started

Running the examples

PySpark Basic Examples

PySpark DataFrame Examples

PySpark SQL Functions

PySpark Datasources

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 5

Uh oh!

Languages

Packages