spark入门

ubuntu 安装 virtualbox(无需安装)

Download VirtualBox for Linux Hosts,根据自己系统选择对应版本进行下载。

考虑到docker更为方便,virtualbox其实并没有安装必要。

安装spark

参照Quick-start Apache Spark Environment Using Docker Containers

这里采用一个现成的docker镜像——jupyter/pyspark-notebook进行安装。

1
docker run -d -p 8888:8888 -v $PWD:/home/jovyan/work --name spark jupyter/pyspark-notebook

其中$PWD为运行命令的当前路径,你可以按照自己的习惯创建一个文件夹和docker容器中的/home/jovyan/work进行映射,该路径为jupyter的工作目录。

docker容器启动后通过docker exec -it spark bash进入容器内部,然后利用jupyter notebook list获取token。

通过chrome登入http://localhost:8888,密码就是刚刚得到的token。下面就可以使用spark了。