超詳細(xì)的六款主流ETL工具介紹及功能對(duì)比(etl工具的概念)
概述
etl(Extract-Transform-Load的縮寫,即數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程),對(duì)于企業(yè)或行業(yè)應(yīng)用來說,我們經(jīng)常會(huì)遇到各種數(shù)據(jù)的處理,轉(zhuǎn)換,遷移,所以了解并掌握一種etl工具的使用,必不可少。最近用Kettle做數(shù)據(jù)處理比較多,所以也就介紹下這方面內(nèi)容,這里先對(duì)比下幾款主流的ETL工具。
1、DataPipeline
Data Pipeline是一家為企業(yè)用戶提供數(shù)據(jù)基礎(chǔ)架構(gòu)服務(wù)的科技公司,DataPipeline數(shù)據(jù)質(zhì)量平臺(tái)整合了數(shù)據(jù)質(zhì)量分析、質(zhì)量校驗(yàn)、質(zhì)量監(jiān)控等多方面特性, 以保證數(shù)據(jù)質(zhì)量的完整性、一致性、準(zhǔn)確性及唯一性,徹底解決數(shù)據(jù)孤島和數(shù)據(jù)定義進(jìn)化的問題。
2、Kettle
Kettle是一款國(guó)外開源的ETL工具,純java編寫,可以在Windows、Linux、Unix上運(yùn)行,數(shù)據(jù)抽取高效穩(wěn)定。Kettle 中文名稱叫水壺,該項(xiàng)目的主程序員MATT 希望把各種數(shù)據(jù)放到一個(gè)壺里,然后以一種指定的格式流出。
Kettle家族目前包括4個(gè)產(chǎn)品:Spoon、Pan、CHEF、Kitchen。
SPOON 允許你通過圖形界面來設(shè)計(jì)ETL轉(zhuǎn)換過程(Transformation)。
PAN 允許你批量運(yùn)行由Spoon設(shè)計(jì)的ETL轉(zhuǎn)換 (例如使用一個(gè)時(shí)間調(diào)度器)。Pan是一個(gè)后臺(tái)執(zhí)行的程序,沒有圖形界面。
CHEF 允許你創(chuàng)建任務(wù)(Job)。 任務(wù)通過允許每個(gè)轉(zhuǎn)換,任務(wù),腳本等等,更有利于自動(dòng)化更新數(shù)據(jù)倉(cāng)庫(kù)的復(fù)雜工作。任務(wù)通過允許每個(gè)轉(zhuǎn)換,任務(wù),腳本等等。任務(wù)將會(huì)被檢查,看看是否正確地運(yùn)行了。
KITCHEN 允許你批量使用由Chef設(shè)計(jì)的任務(wù) (例如使用一個(gè)時(shí)間調(diào)度器)。KITCHEN也是一個(gè)后臺(tái)運(yùn)行的程序。
3、Talend
Talend,是一家專業(yè)的開源集成軟件公司,為企業(yè)提供開源的中間件解決方案,從而讓企業(yè)能夠在他們的應(yīng)用,系統(tǒng)以及數(shù)據(jù)庫(kù)中贏取更大的價(jià)值。 在傳統(tǒng)軟件公司提供封閉、私有的解決方案的領(lǐng)域Talend系列軟件以開源的形式進(jìn)行開發(fā)。Talend,可運(yùn)行于 Hadoop 集群之間,直接生成 MapReduce 代碼供 Hadoop 運(yùn)行,從而可以降低部署難度和成本,加快分析速度。而且 Talend 還支持可進(jìn)行并發(fā)事務(wù)處理的Hadoop2.0。
4、Informatica
Informatica是全球領(lǐng)先的數(shù)據(jù)管理軟件提供商。在如下Gartner魔力象限位于領(lǐng)導(dǎo)者地位:數(shù)據(jù)集成工具魔力象限、數(shù)據(jù)質(zhì)量工具魔力象限 、元數(shù)據(jù)管理解決方案魔力象限 、主數(shù)據(jù)管理解決方案魔力象限 、企業(yè)級(jí)集成平臺(tái)即服務(wù)(EiPaaS)魔力象限。
Informatica Enterprise Data Integration包括Informatica PowerCenter和Informatica PowerExchange 兩大產(chǎn)品,憑借其高性能、可充分?jǐn)U展的平臺(tái),可以解決幾乎所有數(shù)據(jù)集成項(xiàng)目和企業(yè)集成方案。
· Informatica PowerCenter用于訪問和集成幾乎任何業(yè)務(wù)系統(tǒng)、任何格式的數(shù)據(jù),它可以按任意速度在企業(yè)內(nèi)交付數(shù)據(jù),具有高性能、高可擴(kuò)展性、高可用性的特點(diǎn)。Informatica PowerCenter包括4個(gè)不同版本,即:標(biāo)準(zhǔn)版,實(shí)時(shí)版,高級(jí)版,云計(jì)算版。同時(shí),它還提供了多個(gè)可選的組件,以擴(kuò)展Informatica PowerCenter的核心數(shù)據(jù)集成功能,這些組件包括:數(shù)據(jù)清洗和匹配、數(shù)據(jù)屏蔽、數(shù)據(jù)驗(yàn)證、Teradata雙負(fù)載、企業(yè)網(wǎng)格、元數(shù)據(jù)交換、下推優(yōu)化(Pushdown Optimization)、團(tuán)隊(duì)開發(fā)和非結(jié)構(gòu)化數(shù)據(jù)等。
· Informatica PowerExchange 是一系列的數(shù)據(jù)訪問產(chǎn)品,它確保 IT 機(jī)構(gòu)能夠根據(jù)需要隨時(shí)隨地訪問并在整個(gè)企業(yè)內(nèi)傳遞關(guān)鍵數(shù)據(jù)。憑該能力,IT機(jī)構(gòu)可以優(yōu)化有限的資源和數(shù)據(jù)的業(yè)務(wù)價(jià)值。Informatica PowerExchange支持多種不同的數(shù)據(jù)源和各類應(yīng)用,包括企業(yè)應(yīng)用程序、數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)、大型機(jī)、中型系統(tǒng)、消息傳遞系統(tǒng)和技術(shù)標(biāo)準(zhǔn)。
5、Datax
DataX 是阿里巴巴集團(tuán)內(nèi)被廣泛使用的離線數(shù)據(jù)同步工具/平臺(tái),實(shí)現(xiàn)包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構(gòu)數(shù)據(jù)源之間高效的數(shù)據(jù)同步功能。
開源地址:https://github.com/alibaba/DataX
6、Oracle Goldengate
GoldenGate軟件是一種基于日志的結(jié)構(gòu)化數(shù)據(jù)復(fù)制軟件。GoldenGate 能夠?qū)崿F(xiàn)大量交易數(shù)據(jù)的實(shí)時(shí)捕捉、變換和投遞,實(shí)現(xiàn)源數(shù)據(jù)庫(kù)與目標(biāo)數(shù)據(jù)庫(kù)的數(shù)據(jù)同步,保持亞秒級(jí)的數(shù)據(jù)延遲。
源端通過抽取進(jìn)程提取redo log或archive log日志內(nèi)容,通過pump進(jìn)程(TCP/IP協(xié)議)發(fā)送到目標(biāo)端,最后目標(biāo)端的rep進(jìn)程接收日志、解析并應(yīng)用到目標(biāo)端,進(jìn)而完成數(shù)據(jù)同步。
7、ETL工具對(duì)比
整理成表格如下:
覺得有用的朋友多幫忙轉(zhuǎn)發(fā)哦!后面會(huì)分享更多devops和DBA方面的內(nèi)容,感興趣的朋友可以關(guān)注下~