首页 >> 宝藏问答 >

ETL工程师前景(etl工程师)

2024-07-08 10:45:44

问题描述:

ETL工程师前景(etl工程师),急!急!急!求帮忙看看这个问题!

最佳答案

推荐答案

2024-07-08 10:45:44

大家好,小东方来为大家解答以上的问题。ETL工程师前景,etl工程师这个很多人还不知道,现在让我们一起来看看吧!

1、ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。

2、ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

3、ETL是数据仓库中的非常重要的一环。

4、它是承前启后的必要的一步。

5、相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。

6、所以从工程应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。

7、数据仓库是一个独立的数据环境,需要通过抽取过程将数据从联机事务处理环境、外部数据源和脱机的数据存储介质导入到数据仓库中;在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面;数据仓库系统中数据不要求与联机事务处理系统中数据实时同步,所以ETL可以定时进行。

8、但多个ETL的操作时间、顺序和成败对数据仓库中信息的有效性至关重要。

9、2.数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

10、 并非所有的信息发现任务都被视为数据挖掘。

11、例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。

12、虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。

13、尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。

14、1)数据挖掘能做以下六种不同事情(分析方法):· 分类 (Classification)· 估值(Estimation)· 预言(Prediction)· 相关性分组或关联规则(Affinity grouping or association rules)· 聚集(Clustering)· 描述和可视化(Des cription and Visualization)· 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)2)数据挖掘分类 以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘· 直接数据挖掘 目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

15、· 间接数据挖掘 目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。

16、· 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘3)各种分析方法的简介 首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。

17、例子:a. 信用卡申请者,分类为低、中、高风险b. 分配客户到预先定义的客户分片注意: 类的个数是确定的,预先定义好的 估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。

18、例子:a. 根据购买模式,估计一个家庭的孩子个数b. 根据购买模式,估计一个家庭的收入c. 估计real estate的价值 一般来说,估值可以作为分类的前一步工作。

19、给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。

20、例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。

21、然后,根据阈值,将贷款级别分类。

22、通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。

23、从这种意义上说,预言其实没有必要分为一个单独的类。

24、预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。

25、· 相关性分组或关联规则(Affinity grouping or association rules) 决定哪些事情将一起发生。

26、例子:a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)b. 客户在购买A后,隔一段时间,会购买B (序列分析)聚集是对记录分组,把相似的记录在一个聚集里。

27、聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。

28、例子:a. 一些特定症状的聚集可能预示了一个特定的疾病b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群 聚集通常作为数据挖掘的第一步。

29、例如,"哪一种类的促销对客户响应最好?",对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。

30、· 描述和可视化(Des cription and Visualization) 是对数据挖掘结果的表示方式。

本文到此分享完毕,希望对大家有所帮助。

  免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。

 
分享:
最新文章
  • 【卢姓的来源】卢姓是中国常见的姓氏之一,历史悠久,源远流长。根据历史文献和族谱记载,卢姓的来源主要有以...浏览全文>>
  • 【龙眼的原产地是在中国吗】龙眼,又称桂圆,是一种常见的水果,广泛种植于亚洲热带和亚热带地区。关于龙眼的...浏览全文>>
  • 【龙眼的成熟时间是几月龙眼是几月份成熟】龙眼是一种常见的热带水果,因其甜美的口感和丰富的营养价值而受到...浏览全文>>
  • 【龙脷叶功效有哪些】龙脷叶,又称“龙利叶”或“龙舌叶”,是一种常见的中药材,主要来源于萝藦科植物龙脷叶...浏览全文>>
  • 【龙利鱼做法】龙利鱼是一种肉质鲜嫩、营养丰富的海鱼,近年来在家庭餐桌和餐厅中越来越受欢迎。由于其刺少、...浏览全文>>
  • 【六一节祝福语简短】六一儿童节是孩子们最期待的节日之一,它象征着快乐、纯真与希望。在这一天,无论是家长...浏览全文>>
  • 【榴莲保存方法】榴莲是一种味道独特、营养丰富的热带水果,但因其果肉柔软、易变质,保存起来需要一定的技巧...浏览全文>>
  • 【流行的网名】在当今网络时代,网名已成为人们在网络社交中表达个性、展示态度的重要方式。无论是游戏、社交...浏览全文>>
  • 【靈活词语意思是什么】“靈活”是一个常见的中文词语,常用于描述事物或人的适应能力、变通性。它在不同语境...浏览全文>>
  • 【酃绿的读音】“酃绿”是一个较为少见的词语,常见于茶叶、地名或文化背景中。为了帮助读者准确掌握其读音和...浏览全文>>