当前位置:网站首页 > 数据科学与大数据 > 正文

大数据自学路线(大数据 自学)



大数据
  • 大数据学习路线
    • 1.Java基础——主要部分是JavaSE
        • 1.1 Java初级
          • 1.2 Java高级
          • 1.3 其余常见基础…
      • 2.Linux基础——主要指的是Linux基本命令操作
      • 3.Hadoop生态学习(体系结构、原理、编程)
        • 3.1第一阶段
          • 3.2第二阶段
          • 3.3第三阶段
      • 4.Spark生态学习
        • 4.1第一阶段
          • 4.2第二阶段
          • 4.3第三阶段
          • 4.4第四个阶段
      • 5.Storm学习——实时计算
      • 6.其他学习
        • 6.1 Kafka
          • 6.2 机器学习算法
          • 6.3 大型网站高并发处理
          • 6.4 Lucene基础
          • 6.5 Solr基础
          • 6.6 Federation
      • 7.总结
      • 8.其他方向
      • 9.项目案例

大数据的本质:两个

  1. 大数据的存储——分布式文件存储
  2. 大数据的计算——分布式计算

大数据核心框架:两个

  1. Hadoop——基于Java语言开发
  2. Spark——基于Scala语言开发,Scala语言基于Java语言。Spark支持Java语言,但使用Scala语言更优。

1.Java基础——主要部分是JavaSE

1.1 Java初级
  1. 基本语法
  2. 封装
  3. 继承
  4. 多态
 
  
1.2 Java高级
  1. Java多线程基本知识
  2. Java同步关键词详解
  3. java并发包线程池及在开源软件中的应用
  4. Java并发包消息队里及在开源软件中的应用
  5. Java JMS技术
  6. Java动态代理反射
  7. I/O流
  8. 泛型
1.3 其余常见基础…

2.Linux基础——主要指的是Linux基本命令操作

  1. Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程
  2. Linux的常用命令:常用命令的介绍、常用命令的使用和练习:包括文件/目录常见操作、用户管理与权限、免密登陆配置与网络管理。
  3. Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用;
  4. Linux启动流程,运行级别详解,chkconfig详解
  5. VI、VIM编辑器:VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键
  6. Linux磁盘管理,lvm逻辑卷,nfs详解
  7. Linux系统文件权限管理:文件权限介绍、文件权限的操作
  8. Linux的RPM软件包管理:RPM包的介绍、RPM安装、卸载等操作
  9. yum命令,yum源搭建
  10. Linux网络:Linux网络的介绍、Linux网络的配置和维护 防火墙配置
  11. Shell编程:Shell的介绍、Shell脚本的编写
  12. Linux上常见软件的安装:安装JDK、安装Tomcat、安装mysql,web项目部署
  13. linux高级文本处理命令cut、sed、awklinux
  14. 定时任务crontab
  15. 其余常见操作…

注:目录,在Linux系统中常称为目录,在Windows系统中常称为文件夹,不同称谓同样的性质。

3.Hadoop生态学习(体系结构、原理、编程)

3.1第一阶段

这一阶段是本节的核心,即HDFS(大数据存储)、MapReduce(大数据计算)、HBse(NoSQL数据库)。

Hadoop是一个对海量数据进行处理的分布式系统架构,可以理解为Hadoop就是一个对大量的数据进行分析的工具,和其他组件搭配使用,来完成对大量数据的收集、存储和计算。

有一个基于Hadoop的数据挖掘库——Mahout。

 
   
3.2第二阶段

数据分析引擎——Hive(数据仓库工具,不是数据库工具。数据仓库是逻辑上的概念,底层使用的是数据库。)、Pig(Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin)

数据采集引擎——Flume(实时日志采集)、Sqoop(数据迁移工具,主要用于在Hive数据库与关系型数据库间进行数据的传递,可将关系型数据库中的数据导入Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。)、DataX(阿里开源)

注:关系型数据库包括,MySQL、Oracle、DB2、Microsoft SQL Server、Microsoft Access、PostgreSQL等。

 
   
 
   
 
   
3.3第三阶段

实现Hadoop的HA(HA是High availability的缩写,即高可用,7*24小时不中断服务)——ZooKeeper(Zookeeper是分布式协调管理服务框架,管理分布式环境中的数据。简要来说,Zookeeper = 文件系统 + 监听通知机制。)

 
   

Web管理工具——Hue(Hue是大数据分析交互平台,是大数据web管理器,是运营和开发Hadoop应用的图形化用户界面。其包括三个主要部分:Hue UI,Hue Server,Hue DB。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,对于单独的用户来说不需要额外的安装。)

工作流引擎——Oozie(Oozie,能够提供对Hadoop的MapReduce和Pig的Jobs任务调度与协调。功能相似的任务调度框架还有Azkaban和Zeus。)

注1:Hadoop-HA严格来说应该分成各个组件的HA机制——HDFSHAYARNHA

注2:大数据四大协作框架——Oozie(任务调度框架)、Sqoop(数据转换工具)、Flume(文件收集库框架)、Hue(大数据Web工具)。

4.Spark生态学习

 
   
4.1第一阶段

Scala编程

1.Scala是一门多范式(Multi-paradigm)的编程语言,类似Java编程语言,设计初衷是实现可伸缩的语言、并要集成面向对象编程和命令式编程、函数式编程的各种特性。

2.Scala是运行在Java虚拟机上的,并兼容现有Java程序。Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。

3.可应用于后端开发,表达能力较强,擅长处理数据,长期运行且吞吐量较大的场景。

 
   
4.2第二阶段

Spark Core——基于内存的数据计算,替代的是Hadoop中的MapReduce部分。MapReduce是基于外存的计算,其计算速度较慢、时效性较差。

4.3第三阶段

Spark SQL——类似于Oracle的SQL语句

4.4第四个阶段

Spark Streaming——进行实时计算(流式计算),典型流式计算的生活场景是自来水厂。

到此这篇大数据自学路线(大数据 自学)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就! 
  
  

                            

版权声明


相关文章:

  • sql数据文件怎么打开(sql怎么打开数据表)2026-01-19 22:09:11
  • 读取pcap文件中的csi(pcap中数据内容提取)2026-01-19 22:09:11
  • w25q256中文数据手册(w25q256fv中文手册)2026-01-19 22:09:11
  • 小米手机数据迁移到华为新手机连接不上(小米手机数据迁移到华为新手机连接不上蓝牙)2026-01-19 22:09:11
  • iotdb数据库审计日志(oracle数据库审计日志查看)2026-01-19 22:09:11
  • 数据库怎么创建dblink(数据库怎么创建表格)2026-01-19 22:09:11
  • db2创建数据库表(db2创建表几种方法)2026-01-19 22:09:11
  • springboot数据库密码动态配置(springboot 数据库密码)2026-01-19 22:09:11
  • 达梦数据库端口是什么协议(达梦数据库默认端口)2026-01-19 22:09:11
  • bytebuf 读取所有数据(bufferedreader读取byte)2026-01-19 22:09:11
  • 全屏图片