使用Apache Iceberg创建、读写和查询表格
Apache Iceberg是一个通用的数据表格式,它旨在保证可伸缩性和灵活性,同时提供了数据一致性和易于管理的方法。同时,它可以与Hadoop生态系统中的其他工具进行无缝协作。
以下是使用Apache Iceberg创建、读取和查询表格的示例代码:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
spark = SparkSession.builder.appName("IcebergTest").getOrCreate()
# 创建Iceberg表格
spark.sql("CREATE TABLE my_table (id BIGINT, name STRING) USING iceberg")
# 为表格插入数据
data = spark.createDataFrame([(1, 'Alice'), (2, 'Bob'), (3, 'Charlie')], ['id', 'name'])
data.write.format("iceberg").mode("append").save("my_table")
# 从Iceberg表格中读取数据
df = spark.read.format("iceberg").load("my_table").where("id > 1")
df.show()
使用Apache Iceberg创建、读取和查询表格的过程非常方便,同时它的灵活性和可伸缩性使得在大规模数据处理业务中得到广泛应用。