Spark Jupyter Notebook和PySpark Jupyter Notebook是AWS EMR集群中两种不同的Notebook环境,它们之间的主要区别在于PySpark Jupyter Notebook默认包含了PySpark内核,而Spark Jupyter Notebook没有。因此,在Spark Jupyter Notebook中,我们需要手动添加PySpark内核。
下面是一个示例代码,展示了如何在Spark Jupyter Notebook中添加PySpark内核:
1.首先,在命令行中安装PySpark内核:
pip install findspark python -m ipykernel install --user --name=pyspark
2.在AWS EMR中启动Spark Jupyter Notebook。
3.在Notebook中选择“New” -> “Python 3”,然后输入以下代码:
import findspark findspark.init()
from pyspark.sql import SparkSession spark = SparkSession.builder.appName("my-app-name").getOrCreate()
print(spark.sparkContext.uiWebUrl)
这样,在Spark Jupyter Notebook中就可以使用PySpark了。
上一篇:AWSEMR集群通过CloudFormation如何启用调试
下一篇:AWSEMRNotebook中出现“AttributeError:'SparkContext'objecthasnoattribute'list_packages'”错误。