以下是一个使用PySpark的简单示例,演示如何使用Spark SQL进行数据查询和分析,在这个例子中,我们将从一个CSV文件中读取数据,然后执行一些基本的SQL操作。
(图片来源网络,侵删)
准备工作
确保你已经安装了Apache Spark和PySpark,你可以从官方网站下载并安装它们:https://spark.apache.org/downloads.html
你需要一个CSV文件作为输入数据,假设我们有一个名为data.csv
的文件,其内容如下:
id,name,age,city 1,Alice,30,New York 2,Bob,25,Los Angeles 3,Charlie,22,San Francisco 4,David,28,Chicago
代码示例
from pyspark.sql import SparkSession from pyspark.sql.functions import col 创建Spark会话 spark = SparkSession.builder n .appName("Spark SQL Example") n .getOrCreate() 从CSV文件中读取数据 df = spark.read.csv("data.csv", header=True, inferSchema=True) 显示数据的前几行 df.show() 注册DataFrame为临时表 df.createOrReplaceTempView("people") 使用Spark SQL查询年龄大于等于25岁的人 result = spark.sql("SELECT * FROM people WHERE age >= 25") result.show() 使用DataFrame API进行相同的查询 result_api = df.filter(col("age") >= 25) result_api.show() 关闭Spark会话 spark.stop()
输出结果
(图片来源网络,侵删)
运行上述代码后,你将看到以下输出:
+---+-------+---+-----------+ | id| name|age| city| +---+-------+---+-----------+ | 1| Alice | 30| New York | | 2| Bob| 25|Los Angeles| | 3|Charlie| 22|San Francisco| | 4| David| 28| Chicago| +---+-------+---+-----------+ +---+-------+---+-----------+ | id| name|age| city| +---+-------+---+-----------+ | 1| Alice | 30| New York | | 2| Bob| 25|Los Angeles| | 4| David| 28| Chicago| +---+-------+---+-----------+
这个示例展示了如何使用PySpark创建一个Spark会话,从CSV文件中读取数据,注册数据为临时表,然后使用Spark SQL和DataFrame API进行数据查询。
(图片来源网络,侵删)
本文来源于互联网,如若侵权,请联系管理员删除,本文链接:https://www.9969.net/43234.html