自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一角残叶的博客

人生如逆旅,我亦是行人

原创 Hadoop源码解析学习笔记(2)—— HDFS部署

1 HDFS 部署 独立模式 伪分布式模式 分布式模式 1.1 Hadoop 1.x 配置

2018-12-31 15:53:32 163 0

原创 Hadoop源码解析学习笔记(1)—— Hadoop生态介绍

1 云计算的概念 狭义:指 IT 基础设施的交付和使用模式,通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件) 广义:指服务的交付和使用模式,通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是 IT 和软件、互联网相关的,也可以是任意其他的服务。 1.1 云计算的三层模型 ...

2018-12-31 11:43:31 110 0

原创 大数据实时计算Spark学习笔记(11)—— Spark Streaming

1 Spark Streaming spark core 的扩展,针对实时数据处理,具有可扩展、高吞吐、容错; 内部,spark 接受实时数据流,分成 batch 进行处理,最终在每个 batch 产生结果; 1.1 discretized stream or DStream 通过kafka...

2018-12-31 08:59:58 131 0

原创 大数据实时计算Spark学习笔记(10)—— Spar SQL(2) -JDBC方式操作表

1 Spark SQL 的 JDBC 方式 POM 文件添加依赖 <dependency> <groupId>mysql</groupId> <artifactId&am...

2018-12-29 14:39:35 78 0

原创 大数据实时计算Spark学习笔记(9)—— Spar SQL(1) 读取 json 文件

1 Spark SQL 编程方式:(1)SQL;(2) DataFrame API scala> case class Customer(id:Int,name:String,age:Int) defined class Customer scala&g...

2018-12-29 10:16:18 931 0

原创 大数据实时计算Spark学习笔记(8)—— RDD 持久化

1 RDD 持久化 跨操作进行RDD的内存式存储; 持久化 RDD时,节点上的每个分区都会保存到内存中; 缓存技术是迭代计算和交互式查询的重要工具; 使用 persist() 和 cache() 进行 RDD 的持久化,cache() 是 perisit() 的一种; action 第一次操作...

2018-12-28 19:25:50 114 0

原创 大数据实时计算Spark学习笔记(7)—— RDD 数据倾斜处理

1 处理数据倾斜 在 reduceByKey 之前先进行随机分区 package com.bigdataSpark.cn import org.apache.spark.{SparkConf, SparkContext} import scala.util.Random object Data...

2018-12-28 12:19:53 73 0

原创 大数据实时计算Spark学习笔记(6)—— RDD的action

1 RDD 的 action 1.1 collect 收集 RDD 的元素形成数组 1.2 count 统计 RDD 元素的个数 1.3 reduce 聚合,返回一个值 1.4 first 取出第一个元素 1.5 take(n) 1.6 saveAsTextFile ...

2018-12-28 08:35:40 93 0

原创 大数据实时计算Spark学习笔记(5)—— RDD的 transformation

1 RDD的转换 1.1 groupByKey (k,v) => (k,Iterable) package com.bigdataSpark.cn import org.apache.spark.{SparkConf, SparkContext} object Group...

2018-12-27 21:44:15 78 0

原创 大数据实时计算Spark学习笔记(4)—— Spak核心 API 模块介绍

1 Spark 介绍 1.1 Spark 特点 速度:在内存中存储中间结果 支持多种语言 内置 80+ 的算子 高级分析:MR,SQL/ Streaming/Mlib/Graph 1.2 Spark 模块 core : 通用执行引擎,提供内存计算和对外部数据集的引用; SQL : 构建在 c...

2018-12-27 17:08:27 136 0

原创 大数据实时计算Spark学习笔记(3)—— Spak Maven 编译插件

1 Scala Maven 编译插件 <build> <sourceDirectory>src/main/java</sourceDirectory> <plugins...

2018-12-27 10:12:38 67 0

原创 大数据实时计算Spark学习笔记(2)—— Spak 集群搭建

1 Spark 集群模式 local: spark-shell --master local,默认的 standlone 1.复制 spark 目录到其他主机 2.配置其他主机的环境变量 3.配置 master 节点的 slaves 文件 4.启动 spark集群,start-all.sh 5...

2018-12-27 09:42:11 149 0

原创 大数据实时计算Spark学习笔记(1)—— Spak单词统计

1 启动 Spark-shell [hadoop@node1 ~]$ spark-shell Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default ...

2018-12-27 08:19:10 155 0

原创 Scala学习笔记(9)—— Scala实战项目(1)- 环境搭建

1 项目需求 1.1 数据库管理(java实现) default my-db1 my-db2 id:数据库编号 name : 数据库名称 location : 数据库存放在 HDFS/S3/OSS 等文件系统上的目录 /user/hive/warehouse /user/hive/ware...

2018-12-22 17:43:25 108 0

原创 Scala学习笔记(8)—— Scala操作外部数据

1 Scala 读取文件 package com.scalatest.scala.class09 import java.net.URL import scala.io.Source object FileApp { def main(args: Array[String]): Un...

2018-12-22 15:37:05 96 0

原创 Scala学习笔记(7)—— Scala 隐式转换

1 隐式转换概述 需求: 为一个已存在的类添加一个新的方法(不知道这个类的源码) java: 动态代理 scala : 隐式转换(双刃剑) package com.scalatest.scala.hide object ImplicitApp extends App { impli...

2018-12-22 14:31:09 94 0

原创 Scala学习笔记(6)—— Scala 函数高阶操作

1 Scala 函数高阶操作 字符串的高级操作 匿名函数 curry函数 高阶函数 偏函数 2 字符串高级操作 多行 Interpolation package com.scalatest.scala.advance object StringApp extends App { ...

2018-12-21 17:12:58 76 0

原创 Scala学习笔记(5)—— Scala 模式匹配

1 模式匹配 package com.scalatest.scala.pattern import scala.util.Random object MatchApp extends App { val names = Array("Mike", &...

2018-12-21 15:52:18 65 0

原创 Spark Streaming 项目实战(12)—— Web层开发

1 Web 层开发 1.1 POM 添加依赖 <dependency> <groupId>net.sf.json-lib</groupId> ...

2018-12-21 15:40:00 328 0

原创 Scala学习笔记(4)—— Scala集合

1 数组 1.1 定长数组 类名() ==》 调用 Object 的apply方法 1.2 可变数组 package com.scalatest.scala.array //继承了 App ,不用写main方法了 object ArrayApp extends App{ ...

2018-12-21 10:18:31 90 0

原创 Scala学习笔记(3)—— Scala面向对象

1 面向对象特点 封装:属性、方法封装到类中; 继承 多态:父类引用指向子类对象,开发框架的基石 package com.scalatest.scala.oop object SimpleObjectApp { def main(args: Array[String]): Unit ...

2018-12-20 22:29:50 80 0

原创 Scala学习笔记(2)—— Scala 函数

1 函数的定义 def 方法名(参数名:参数类型):返回值类型 = { // 方法体 //方法体内的最后一行是返回值,不需要 return } 当函数没有输入的参数,调用的时候可以不写括号 package com.scalatest.scala.function obje...

2018-12-20 20:19:20 75 0

原创 Scala学习笔记(1)—— 基础

1 val VS var

2018-12-20 17:07:13 61 0

原创 Spark Streaming 项目实战(11)——获取Hbase表中实战课程的访问次数

1 调整项目结构 2 开发应用 2.1 POM中添加依赖 <repositories> <repository> &am...

2018-12-19 18:24:20 83 0

原创 IDEA方法注释模板

1 IDEA方法注释模板 param处 groovyScript("def result=''; def params=\"${_1}\".replaceAll('[\\\\[|\\...

2018-12-19 16:44:40 60 0

原创 Spark Streaming 项目实战(10)—— 可视化

1 构建 Spring Boot 项目 删除 1.1 新建测试类 HelloBoot.java package com.sparkstreaming.project.demo; import org.springframework.web.bind.annotation.Req...

2018-12-19 15:46:59 377 4

原创 Spark Streaming 项目实战(9)——将项目运行在服务器

1 打包编译 修改源码 报错 [ERROR] D:\Data\JavaProject\sparktrain\src\main\scala\streamingproject\dao\CourseClickCountDAO.scala:6: error: object HBaseUtils i...

2018-12-18 19:42:10 139 0

原创 Spark Streaming 项目实战(8)—— 功能2

1 需求 统计今天到现在为止从搜索引擎引流过来的实战课程的访问量 1.1 HBase 新建表 2 源码 CourseSearchClickCount.scala package streamingproject.domian /** * @Description: 从搜索引擎过来的实战...

2018-12-18 19:05:08 92 0

原创 Spark Streaming 项目实战(7)—— 将Spark Streaming 处理结果写入 HBase

1 源码 清空Hbase 表 StatStreamingApp.scala package streamingproject import org.apache.spark.SparkConf import org.apache.spark.streaming.kafka.KafkaUti...

2018-12-18 16:27:25 226 0

原创 Spark Streaming 项目实战(6)——数据库访问DAO层方法实现

1 源码 CourseClickCount.scala package streamingproject.domian /* * 实战课程点击数 * * */ case class CourseClickCount(day_course: String, click_count: Long) ...

2018-12-18 16:01:04 125 0

原创 Spark Streaming 项目实战(4)——HBase工具类

1 需求分析 今天到现在为止实战课程的访问量,Spaark Streaming 把统计结果存到数据库 RDBMS(关系型数据库):MySQL, Oracle day course_id click_count 20181218 ...

2018-12-18 15:35:21 293 0

原创 Spark Streaming 项目实战(3)—— 数据清洗

1 测试数据接收 package streamingproject import org.apache.spark.SparkConf import org.apache.spark.streaming.kafka.KafkaUtils import org.apache.spark.strea...

2018-12-18 09:45:29 654 1

原创 二叉树学习笔记

1 二叉树介绍 根节点:没有父节点的节点; 叶子节点(叶节点):没有子节点的节点; 1.2 高度、深度、层 节点的高度 = 节点到叶子节点的最长路径(边数) 节点的深度 = 根节点到这个节点所经历的边的个数 节点的层数 = 节点的深度 + 1 树的高度 = 根节点的高度 2 树的层遍历 /...

2018-12-15 22:30:55 74 0

原创 Spark Streaming 项目实战(2)—— Flume 对接python日志产生器,和Kafka

1 Flume 对接日志产生器 1.1 Flume 配置文件 streaming_project.conf exec-memory-logger.sources = exec-source exec-memory-logger.sinks = logger-sink exec-memory-log...

2018-12-14 15:56:26 264 2

原创 Spark Streaming 项目实战(1)——日志生成脚本

1 功能 统计实战课程访问量 统计从搜索引擎引流过来的实战课程访问量 1.1 python 日志产生脚本

2018-12-14 14:51:09 150 0

原创 二叉树

1 定义一个二叉树 public class BinaryTreeNode { private int data; private BinaryTreeNode left; private BinaryTreeNode right; public int getD...

2018-12-10 17:13:52 51 0

原创 centos7 保留Python2,安装python3

1 centos7 安装 python3 查看已安装的版本 安装依赖 yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm...

2018-12-09 17:19:21 124 0

原创 Spark Streaming实时流处理笔记(14)—— Spark Streamig 整合 Flume 和 Kafka

1 目标 将 log4j 生成的日志输出到 Flume 整合 Flume 到 Kafka 整合 Kafka 到 Spark Streaming 2 日志产生 log4j.properties log4j.rootLogger=INFO,stdout log4j.appender.std...

2018-12-09 15:41:04 145 1

原创 Spark Streaming实时流处理笔记(13)—— Spark Streamig 整合 Kakfa

1 基于 Receiver 1.1 启动 Kafka 先启动 zookeeper

2018-12-09 09:20:56 142 0

原创 Spark Streaming实时流处理笔记(12) —— Spark Streming 整合 Flume(2)——pull方式

1 pull https://spark.apache.org/docs/2.2.0/streaming-flume-integration.html 1.1 flume 配置文件 flume_pull_streaming.conf # Name the components on this ag...

2018-12-07 12:57:03 87 0

提示
确定要删除当前文章?
取消 删除