使用分布式数据存储格式进行数据存储、合理配置内存、使用Pandas UDF优化技巧
代码示例:
df.write.format('parquet').save('path/to/data')
spark.conf.set('spark.executor.memory', '4g') spark.conf.set('spark.driver.memory', '4g')
from pyspark.sql.functions import pandas_udf, PandasUDFType
@pandas_udf('double', PandasUDFType.SCALAR) def my_udf(col: pd.Series) -> pd.Series: # 进行数据操作 return col * 2
df.withColumn('new_col', my_udf(df['old_col'])).show()