当前的位置:泉州网站建设 > 新闻中心 > 互联网 > 正文

大数据学习方向

来源:泉州网站建设   时间 : 2018-11-09 19:07  编辑 : 泉州网站建设

Oozie是什么?有哪些功能?

什么是Storm?有哪些可能的应用场景?

Sqoop是一个主要用于Hadoop/Hive与传统关系型数据库,Oracle、MySQL、SQLServer等之间进行数据交换的开源框架。就像Hive把SQL翻译成MapReduce一样,Sqoop把你指定的参数翻译成MapReduce,提交到Hadoop运行,完成Hadoop与其他数据库之间的数据交换。

入门学习线路,数学基础;机器学习实战,懂Python最好;SparkMlLib提供了一些封装好的算法,以及特征处理、特征选择的方法。

推荐问题:根据用户的历史浏览和点击行为进行相关推荐。

第十章:牛逼高大上的机器学习

在这里,一定要学习SQL,它会对你的工作有很大的帮助。

Oozie可以调度哪些类型的任务(程序)?

3.2 HDFS API

JobTracker、TaskTracker

Flume是一个分布式的海量日志采集和传输框架,因为“采集和传输框架”,所以它并不适合关系型数据库的数据采集和传输。Flume可以实时的从网络协议、消息系统、文件系统采集日志,并传输到HDFS上。

SparkSQL和Spark是什么关系,SparkSQL和Hive是什么关系。

OLAP分析:OLAP除了要求底层的数据模型比较规范,另外,对查询的响应速度要求也越来越高,可能的方案有:Impala、Presto、SparkSQL、Kylin。如果你的数据模型比较规模,那么Kylin是最好的选择。

有的朋友可能不知道数据仓库,数据仓库是逻辑上的概念,底层使用的是数据库,数据仓库中的数据有这两个特点:最全的历史数据(海量)、相对稳定的;所谓相对稳定,指的是数据仓库不同于业务系统数据库,数据经常会被更新,数据一旦进入数据仓库,很少会被更新和删除,只会被大量查询。而Hive,也是具备这两个特点,因此,Hive适合做海量数据的数据仓库工具,而不是数据库工具。

8.2 Spark Streaming

Yarn到底是什么,它能干什么;NameNode到底在干些什么;Resource Manager到底在干些什么;

第五章:SQL

HDFS GET命令:把HDFS上的文件GET到本地。需要熟练掌握。

创建、删除表;加载数据到表;下载Hive表的数据;

自己可以写程序完成Kafka的生产者和消费者。

接下来的问题来了,Hive使用的越来越多,你会发现很多不爽的地方,特别是速度慢,大多情况下,明明我的数据量很小,它都要申请资源,启动MapReduce来执行。

知道flume可以用作实时的日志采集。

从上面的学习,你已经了解到,HDFS是Hadoop提供的分布式存储框架,它可以用来存储海量数据,MapReduce是Hadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据,而Hive则是SQL On Hadoop,Hive提供了SQL接口,开发人员只需要编写简单易上手的SQL语句,Hive负责把SQL翻译成MapReduce,提交运行。

使用SparkSQL代替Hive,更快的运行SQL。

第四章:把Hadoop上的数据搞到别处去

SELECT word,COUNT(1) FROM wordcount GROUP BY word;

来源:会飞的鱼go
猜你喜欢

泉州网站建设 | 南安网站建设 | 泉州汽车网 | 南安汽车网 | 泉州房产网 | 南安房产网 | 南安购物网 | 南安人才网 | 分类信息网 | 网站发布网

公司简介 | 商业合作 | 广告中心 | 联系我们 | Copyright © 2018 www.qzwzjs.com Corporation, All Rights Reserved.

闽ICP备18011963号 邮箱:info@qzwzjs.com 公司地址:成功街水岸帝景A区

服务中心: 0595-86036039 联系QQ:2076448248

天辉网络服务有限公司 版权所有