Apache Zeppelin是一款开源的结构框架,内置的 Apache Spark 集成。你不需要单独构建一个模块、插件或者库,为用户提供了类似ipython的notebook,主要用作数据分析和可视化,可以接入不同的数据处理引擎,支持多种主流语言。需要的朋友可以来本站下载哦!
Apache Zeppelin功能
数据提取
数据发掘
数据分析
数据可视化展示以及合作
Apache Zeppelin安装教程
1. 安装好npm和node
2. 进入zeppelin-web目录下,执行npm install。它会根据package.json的描述安装一些grunt的组件,安装bower,然后再目录下生产一个node_modules目录。
3. 执行bower –-allow-root install,会根据bower.json安装前段库依赖,有点类似于java的mvn。
4. 执行grunt --no-color –-force,会根据Gruntfile.js整理web文件。
第3、4步要注意,本来给定的bower和grunt文件中使用的"node/node"命令,因为使用maven自动安装时,会在当前目录下生成node目录,其中包含node命令。我们之前已经安装了nodejs命令,并新链接了命令node,所以这里需要将其修改为"node"。
5. 执行mvn install -DskipTests,把web项目打包,在target目录下会生成war
pom.xml在生成war包的时候,要参照dist\WEB-INF\web.xml文件,所以在执行该步骤之前,要明确zeppelin-web目录下由dist目录,才能最终生成正确的war包。
其他zeppelin项目的编译
其他项目的编译依照正常程序进行就可以,安装文档:http://zeppelin.incubator.apache.org/docs/install/install.html
根据自己的方式进行编译:
Local mode:
mvn install -DskipTests
Cluster mode:
mvn install -DskipTests -Dspark.version=1.1.0 -Dhadoop.version=2.2.0
配置
配置文件为环境变量文件(conf/zeppelin-env.sh)和Java属性文件(conf/zeppelin-site.xml)。根据自己的要求进行配置。
启动、关闭
启动、关闭Zeppelin进程命令为:
bin/zeppelin-daemon.sh start
bin/zeppelin-daemon.sh stop
更新日志
后端 interpreter 支持
该版本支持以下新的 interpreter
Beam
Pig
Scio
Spark
ZEPPELIN-1643 - 从 interpreter 页面访问 spark web UI
ZEPPELIN-1815 - 支持 Spark 2.1
ZEPPELIN-1883 - 无法在 PySpark 中导入 spark 提交的包
Python
ZEPPELIN-1115 - interpreter for SQL over DataFrame
ZEPPELIN-1318 - 添加对在 python interpreter 中显示 png 图像的 matplotlib 的支持
ZEPPELIN-1345 - 创建一个自定义的 matplotlib 后端,本地支持在 Python interpreter 单元格中的内联绘制
ZEPPELIN-1655 - Python interpreter 中的动态表单不起作用
ZEPPELIN-1671 - Conda interpreter
ZEPPELIN-1683 - 在 docker 容器中运行 python 进程