如何利用Python编写Spark SQL示例程序并生成图表?

Spark SQL样例程序(Python

以下是一个使用PySpark的简单示例,演示如何使用Spark SQL进行数据查询和分析,在这个例子中,我们将从一个CSV文件中读取数据,然后执行一些基本的SQL操作。

如何利用Python编写Spark SQL示例程序并生成图表?插图1
(图片来源网络,侵删)

准备工作

确保你已经安装了Apache Spark和PySpark,你可以从官方网站下载并安装它们:https://spark.apache.org/downloads.html

你需要一个CSV文件作为输入数据,假设我们有一个名为data.csv的文件,其内容如下:

id,name,age,city
1,Alice,30,New York
2,Bob,25,Los Angeles
3,Charlie,22,San Francisco
4,David,28,Chicago

代码示例

from pyspark.sql import SparkSession
from pyspark.sql.functions import col
创建Spark会话
spark = SparkSession.builder n    .appName("Spark SQL Example") n    .getOrCreate()
从CSV文件中读取数据
data_df = spark.read.csv("data.csv", header=True, inferSchema=True)
显示数据的前几行
data_df.show()
注册DataFrame为临时表
data_df.createOrReplaceTempView("people")
使用Spark SQL查询年龄大于等于25岁的人
result_df = spark.sql("SELECT * FROM people WHERE age >= 25")
显示查询结果
result_df.show()
使用DataFrame API进行相同的查询
result_df2 = data_df.filter(col("age") >= 25)
显示查询结果
result_df2.show()
关闭Spark会话
spark.stop()

输出结果

如何利用Python编写Spark SQL示例程序并生成图表?插图3
(图片来源网络,侵删)

运行上述代码后,你将看到以下输出:

+---+-------+---+-----------+
| id|   name|age|      city|
+---+-------+---+-----------+
|  1| Alice | 30|  New York |
|  2|    Bob| 25|Los Angeles|
|  3|Charlie| 22|San Francisco|
|  4|  David| 28|    Chicago|
+---+-------+---+-----------+
+---+-------+---+-----------+
| id|   name|age|      city|
+---+-------+---+-----------+
|  1| Alice | 30|  New York |
|  2|    Bob| 25|Los Angeles|
|  4|  David| 28|    Chicago|
+---+-------+---+-----------+

这个示例展示了如何使用PySpark创建一个Spark会话,从CSV文件中读取数据,注册数据为临时表,然后使用Spark SQL和DataFrame API执行相同的查询。

如何利用Python编写Spark SQL示例程序并生成图表?插图5
(图片来源网络,侵删)

本文来源于互联网,如若侵权,请联系管理员删除,本文链接:https://www.9969.net/58533.html

小末小末
上一篇 2024年9月24日 21:49
下一篇 2024年9月24日 21:54

相关推荐