- 博客(31)
- 资源 (6)
- 论坛 (1)
- 收藏
- 关注
原创 IDEA git 和 github配置
参考 http://www.worldhello.net/gotgithub/1 安装 git检查是否安装 SSHtzb@XPS-15-9570 MINGW64 ~$ cd ~/.sshbash: cd: /c/Users/tzb/.ssh: No such file or directory创建新的 SSH keys
2018-11-30 12:12:13
144
原创 git学习笔记(1)
1 配置启动 git bashtzb@XPS-15-9570 MINGW64 ~$ git config --global user.name "tzb"tzb@XPS-15-9570 MINGW64 ~$ git config --global user.email "XXX@foxmail.com"查看配置$ git config --list2 GUI 界面Sou...
2018-11-29 18:37:20
110
原创 散列表学习笔记
1 散列介绍散列表,又称 Hash Table,哈希表。用的是数组支持按照下标随机访问数据的特性,所以散列表是数组的扩展,由数组演化而来。1.1 设计散列函数的要求由散列函数得到的散列值是非负整数;如果 key1 = key2, 那么 hash(key1) = hash(key2);如果 key1 不等于 key2, 那么 hash(key1) 不等于 hash(key2);1.2...
2018-11-25 17:15:29
312
原创 二分查找
1 二分查找/* * 1 注意循环退出条件是 low<=high, 不是 low<high * * 2. mid 的取值,mid=(low+high)/2有问题,如果low和high比较大,容易溢出 * 改进 low+(high-low)/2 * * 3. low 和 high 的更新,如果直接写成low=mid 或者high=mid,就可能发生发生死循环 * */p...
2018-11-23 21:32:48
109
原创 Spark SQL 笔记(19)——spark SQL 总结(2) DataFrame VS SQL
1 DataFrameDataFrame = RDD + SchemaDataFrame is just a type alias for Dataset of RowDataFrame over RDD : Catalyst optimization&amp;schemasDataFrame can handle : Text,JSON,Parquet,…Both SQL and ...
2018-11-18 10:17:08
90
原创 Spark SQL 笔记(18)——spark SQL 总结(1)
1 Spark SQl 使用场景Ad-hoc querying of data in filesLive SQL analytics over streaming dataETL capabilities alongside familiar SQLInteraction with external DatabasesScalable query performance with la...
2018-11-17 22:58:34
690
原创 Spark SQL 笔记(17)—— 项目性能调优
1 集群优化存储格式的选择 ,https://www.infoq.cn/article/bigdata-store-choose压缩格式的选择,https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-compression-analysis/
2018-11-17 17:12:16
81
原创 Spark SQL 笔记(16)—— Spark on YARN
1 Spark 的4种运行模式不管使用寿命模式,Spark 应用程序的代码是不变的,只需要在提交的时候通过 --master参数来指定Local,开发时使用Standalone,Spark自带的,如果一个集群是 Standalone ,那么就需要在多台机器同时部署Spark环境;YARN:建议在生产中使用;Mesos1.1 概述Spark 支持可插拔的集群管理模式;对于YAR...
2018-11-16 21:02:38
316
原创 Spark SQL 笔记(15)——实战网站日志分析(5)数据可视化
1 常见的可视化框架echartshighchartsd3.jsHUEZeppelin2 创建 Web 项目下载Echarts的文件放到此目录http://echarts.baidu.com/download.html3 饼图测试http://www.echartsjs.com/examples/editor.html?c=pie-simpletest.html...
2018-11-16 17:07:20
299
原创 Spark SQL 笔记(14)——实战网站日志分析(4)代码重构之删除指定日期已有的数据
1 StatDAO.scalapackage com.weblog.cnimport java.sql.{Connection, PreparedStatement}import scala.collection.mutable.ListBuffer/** 各个维度统计 DAO 操作* */object StatDAO { /* * 批量保存 DayVideoAcc...
2018-11-15 17:20:35
112
原创 Spark SQL 笔记(13)——实战网站日志分析(3)按照流量统计TopN
1 创建一张表mysql&gt; create table day_video_traffics_topn_stat (day varchar(8) not null,cms_id bigint(10) not null,traffics bigint(10) not null,primary key (day,cms_id));Query OK, 0 rows affected (...
2018-11-15 16:37:46
243
原创 Spark SQL 笔记(12)——实战网站日志分析(3)按照地市统计结果
1 TopNStatJob.scalapackage com.weblog.cnimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.sql.functions._import scala.co...
2018-11-15 16:09:16
271
原创 Spark SQL 笔记(11)——实战网站日志分析(2)统计结果入库
1 统计结果入库使用 DataFrame API 完成统计分析使用 SQL API 完成统计分析将结果写入 MySQL 数据库1.1 调优点分区字段的数据类型的调整https://spark.apache.org/docs/2.1.3/sql-programming-guide.html#schema-mergingspark.sql.sources.partitionCol...
2018-11-15 10:30:56
1534
原创 Spark SQL 笔记(10)——实战网站日志分析(1)
1 用户行为日志介绍1.1 行为日志生成方法NginxAjax1.2 日志内容访问的系统属性:操作系统、浏览器访问特征:点击的 url、从哪个url 跳转过来的(referer)、页面停留时间访问信息: session_id, 访问ip,2 离线数据处理架构数据采集: Flume: web日志写入到 HDFS数据清洗:Spark,hive,mapreduce,清洗后可...
2018-11-14 19:57:58
439
1
原创 STM32—— USB
1 USB 介绍Universal Serial Bus,通用串行总线1.1 USB 系统组成主机:提供USB接口和接口管理功能的硬件、软件、固件的复合体。PC机或者 OTG 设备。一个 USB 系统只能有一个主机。设备:(1)集线器 HUB:扩展主机接口,设备可以通过其接入主机;(2)功能设备物理连接:USB使用差分信号传输数据,全速或者高速模式的电缆必须外层屏蔽和铜漏线,且差分数据...
2018-11-12 18:38:49
1387
原创 Spark SQL 笔记(9)—— 外部数据源(1) parquet
1 背景方便快速从不同的数据源(json,parquet、rdbms),经过混合处理(json join parquet),再将处理结果以特定的格式(json,parquet) 写回到指定的系统(HDFS,S3)spark.read.format(format),(1) 内置的 format: json,parquet,jdbc,csv(v2+); (2) packages:外部的,http...
2018-11-12 17:13:51
176
原创 排序算法(1)——冒泡、插入、选择
1 概念性介绍原地排序(Sorted in place),就是特指空间复杂度是 O(1) 的排序算法。排序算法的稳定性:待排序的序列中存在值相等的元素,经过排序后,相等元素之间的原有先后顺序不变;...
2018-11-08 22:01:00
65
原创 5个常见的链表操作
1 单链表翻转1.1 迭代版本时间复杂度 O(n),空间复杂度 O(1)2 链表中环的检测3 两个有序链表的合并4 删除链表倒数第 n 个节点5 求链表的中间节点
2018-11-08 21:45:17
202
原创 STM32学习笔记—— DMA
1 STM32 DMA 特性7个独立的可配置的通道(请求)每个通道直接连接专用的硬件 DMA 请求,每个通道都同样支持软件触发,这些功能通过软件来配置;在 7 个请求间的优先权可以通过软件编程设置,在相等优先权时由硬件决定(请求 0 优先于 请求1)独立的源和目标传输宽度(字节、半字,全字),模拟打包和拆包的过程;支持循环的缓冲器管理;每个通道都有 3 个事件标志(DMA 半传输、D...
2018-11-06 20:21:08
113
原创 STM32笔记 --SPI 同步串行通信
1 SPI 介绍SPI 是由Motorola 公司提出的一种同步串行外围接口;SPI 是一个全双工的同步串行接口,在数据传输过程中,总线上只能是一个主机和一个从机进行通信;1.1 接口MISO(Matser In Slave Out)MOSISCK : Serial Clock,串行时钟信号SS: Slave Select ,从机选择信号,低电平有效1.2 SPI 基本机构...
2018-11-06 15:19:06
970
原创 数据结构与算法(3)—— 队列(java)
1 数组实现的队列public class ArrayQueue {private String[] items;private int n=0; //数组的大小private int head=0;private int tail = 0;public ArrayQueue(int capacity){ items = new String[capacity]; n = cap...
2018-11-05 21:45:33
43
原创 STM32 NVIC中断优先级
1 NVIC 介绍STM32 有2 个优先级:(1)抢占式优先级(主优先级),(2)响应优先级,每个中断源都需要指定这两种优先级。1.1 配置STM32 把 中断优先级寄存器变成 4位,分组如下:第 0 组:所有4位用于指定响应优先级;第 1 组:最高 1 位用于指定抢占式优先级,最低 3 位用于指定响应优先级;第 2 组:最高 2位用于指定抢占式优先级,最低 2 位用于指定响应优先...
2018-11-05 19:15:48
341
原创 Spark SQL 笔记(8)—— Dataset 案例
1 概述静态类型(Static-typing) 和运行时类型安全(runtime type-safety)2 测试代码sales.csvtransactionId,customerId,itemId,amoutPaid111,1,1,100.1112,2,2,200.3113,3,3,300.6114,4,4,444.89115,5,5,555.99116,6,6,66...
2018-11-02 22:26:33
80
原创 Spark SQL 笔记(6)—— DataFrame和 DataSet
1 DataFrameA Dataset is a distributed collection of data,分布式数据集A DataFrame is a Dataset organized into named columns,以列的形式构成的分布式数据集,按照列赋予不同的名字;1.1 DataFrame 和 RDD 对比1.1.1 RDDjava / scala ->...
2018-11-01 23:11:15
72
原创 Spark SQL 笔记(5)—— Hive 到 Spark SQL(2)
1 SparkSessionpom 文件package com.tzb.demo2import org.apache.spark.sql.SparkSessionobject SparkSessionApp { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appNam...
2018-11-01 19:25:51
82
原创 Spark SQL 笔记(5)—— Hive 到 Spark SQL(1)
1 SQLContext1.1 Spark1.x 中Spark SQL 的入口点:SQLContext参考链接 https://spark.apache.org/docs/1.6.1/sql-programming-guide.html#starting-point-sqlcontext1.2 测试案例1.2.1 新建maven 工程&lt;project xmlns="http:/...
2018-11-01 18:39:27
89
原创 Spark SQL 笔记(4)——Spark SQL 介绍
1 Spark SQL 背景介绍1.1 Hive 介绍类似 sql 的 Hive QL 语言, sql -> mapreduce改进: hive on tez,hive on spark, hive on mapreduce1.2 Spark SQL 前世hive on spark -> sharkshark,基于 spark,基于内存的列式存储,与 hive 能够...
2018-11-01 12:16:03
560
原创 Spark SQL 笔记(3)——Spark 环境搭建
1 local 模式直接运行即可2 Standalone 模式和 Hadoop/HDFS 的架构类似/home/hadoop/apps/spark-2.1.3-bin-2.6.0-cdh5.7.0/conf2.1 spark-env.shSPARK_MASTER_HOST=node1SPARK_WORKER_CORES=1SPARK_WORKER_MEMORY=1gSPARK...
2018-11-01 10:28:28
377
2
一角残叶的留言板
发表于 2020-01-02 最后回复 2020-01-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝