如何用Python编写Spark SQL样例程序以生成图表？

以下是一个使用PySpark的简单示例，演示如何使用Spark SQL进行数据查询和分析，在这个例子中，我们将从一个CSV文件中读取数据，然后执行一些基本的SQL操作。

（图片来源网络，侵删）

准备工作

确保你已经安装了Apache Spark和PySpark，你可以从官方网站下载并安装它们：https://spark.apache.org/downloads.html

你需要一个CSV文件作为输入数据，假设我们有一个名为data.csv的文件，其内容如下：

id,name,age,city
1,Alice,30,New York
2,Bob,25,Los Angeles
3,Charlie,22,San Francisco
4,David,28,Chicago

代码示例

from pyspark.sql import SparkSession
from pyspark.sql.functions import col
创建Spark会话
spark = SparkSession.builder n    .appName("Spark SQL Example") n    .getOrCreate()
从CSV文件中读取数据
df = spark.read.csv("data.csv", header=True, inferSchema=True)
显示数据的前几行
df.show()
注册DataFrame为临时表
df.createOrReplaceTempView("people")
使用Spark SQL查询年龄大于等于25岁的人
result = spark.sql("SELECT * FROM people WHERE age >= 25")
result.show()
使用DataFrame API进行相同的查询
result_api = df.filter(col("age") >= 25)
result_api.show()
关闭Spark会话
spark.stop()

输出结果

（图片来源网络，侵删）

运行上述代码后，你将看到以下输出：

+---+-------+---+-----------+
| id|   name|age|      city|
+---+-------+---+-----------+
|  1| Alice | 30|  New York |
|  2|    Bob| 25|Los Angeles|
|  3|Charlie| 22|San Francisco|
|  4|  David| 28|    Chicago|
+---+-------+---+-----------+
+---+-------+---+-----------+
| id|   name|age|      city|
+---+-------+---+-----------+
|  1| Alice | 30|  New York |
|  2|    Bob| 25|Los Angeles|
|  4|  David| 28|    Chicago|
+---+-------+---+-----------+

这个示例展示了如何使用PySpark创建一个Spark会话，从CSV文件中读取数据，注册数据为临时表，然后使用Spark SQL和DataFrame API进行数据查询。

小伙伴们，上文介绍python画图程序 _Spark SQL样例程序（Python）的内容，你了解清楚吗？希望对你有所帮助，任何问题可以给我留言，让我们下期再见吧。

（图片来源网络，侵删）

本文来源于互联网，如若侵权，请联系管理员删除，本文链接：https://www.9969.net/65176.html

如何用Python编写Spark SQL样例程序以生成图表？

相关推荐

如何用Python编写双色球号码生成器？

Python 中的逻辑非操作符是如何在逻辑模型中应用的？

如何用Python上传文件到FTP服务器？