ETL概念:
ETL:Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
Kettle (正式名:Pentaho Data Integration)是一款基于JAVA开发的开源ETL工具,有易于入手的图形界面,图形化的GUI设计界面,然后可以以工作流的形式流转,熟练它可以减少非常多的研发工作量,提高工作效率。
Kettle 允许你管理来自不同来源的数据,包括不同数据库、excel/csv等文件、邮件、网站源码抓取等等,除数据的抽取转换,还支持文件操作、收发邮件、通过提供一个图形化的界面来创建、设计转换(Trans)和工作流(Jobs)任务。
Kettle中有两种脚本文件,transformation 和 job.
* Transformation 完成针对数据的基础转换,下文缩写为Trans
* Job 则完成整个工作流的控制。
Kettle 家族产品
Kettle家族:Spoon、Pan、Kitchen。
Spoon 图形界面:设计 ETL 转换过程(Transformation)和工作流(Jobs)。
Pan 后台批处理:允许你批量运行由 Spoon 设计的 ETL 转换 (Trans)。。
Kitchen 后台批处理:允许你批量运行由 Spoon 设计的 ETL工作流 (Jobs)
Kettle 的安装和配置:
1.安装JDK或JRE
JRE: Java Runtime Environment java运行环境,如果只是运行KETTLE可以安装这个;
JDK:Java Development Kit java开发工具包,包含JRE,如果需要进行编译或开发,必须安装这个;
Kettle 7.0 要求安装1.6及以上,这里安装的是JDK 1.8,
官网下载:
http://www.oracle.com/technetwork/java/javase/downloads/index.html
历史版本:
http://www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html?ssSourceSiteId=otncn
安装过程完后续配置以下环境变量,以jdk1.8.0_111为例:
系统变量 值
JAVA_HOME C:\Program Files\Java\jdk1.8.0_111
PATH %JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
CLASSPATH .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar (注意最前面有一点)
检验是否配置成功 运行cmd 输入 java -version
2.安装KETTLE
(1)下载及安装
https://community.hds.com/docs/DOC-1009855
KETTLE是绿色版,下载解压即可;
(2)环境变量配置
KETTLE_HOME 指定KETTLE_HOME目录,一般是安装目录,配置后运行Kettle会在该目录下生成.kettle文件夹,诸如一些配置、资源库、临时文件等会在这里生成;若未配置,则默认为用户目录C:\Users\{username}\
PENTAHO_JAVA_HOME 如在安装JDK时已配置JAVA_HOME则可忽略,否则需要添加用户变量,即为JAVA安装路径,本例为 C:\Program Files\Java\jdk1.8.0_111
3.启动: 直接启动 Spoon.bat 即可启动Kettle图形界面。
尊重作者劳动,转载请注明出处:札记-Qianrong's Blog » 免费开源ETL工具KETTLE初探:简介及安装、配置