timebusker的博客

思维要走到多数人的前面，甚至是对立面

[置顶] 软考准备

软考报名中级中级考试高级高项-考分要求

Posted by timebusker on 2026-01-14

[置顶] 经典古诗词

更新1015 赞美美句我想不出任何你需要改变的地方，我爱你的全部。普天之下唯一能够影响他人的方式，就是找出他们想要什么，并且教给他们如何获得。如果成功有诀窍的话，那就是我们能洞悉他人的立场，同时还能兼顾自己和他人的立场...

Posted by timebusker on 2021-07-19

Spark笔记(十)-SparkCore的调优之开发调优

Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。然而，通过Spark开发出高性能的大数据计算作业，并...

Posted by timebusker on 2018-06-25

Spark笔记(九)-Spark本地开发环境搭建

winutil模拟器设置下载对应hadoop版本包选择对应版本配置配置HADOOP_HOME、Path (null) entry in command string: null chmod 0644 将对应hadoop...

Posted by timebusker on 2018-06-25

Spark笔记(八)-Spark在不同集群中的运行架构

Spark注重建立良好的生态系统，它不仅支持多种外部文件存储系统，提供了多种多样的集群运行模式。部署在单台机器上时，既可以用本地（Local）模式运行，也可以使用伪分布式模式来运行；当以分布式集群部署的时候，可以根据自己集群的实际情况选择Standalone模式（Spark自带的模式）、Y...

Posted by timebusker on 2018-06-25

Spark笔记(七)-Spark运行流程

基本概念 Application：客户端应用程序 Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContex...

Posted by timebusker on 2018-06-25

Spark笔记(六)-Spark的广播变量和累加器

概述在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是...

Posted by timebusker on 2018-06-25

Spark笔记(五)-Spark之RDD-算子API使用（二）

算法实例 workCount TopN 多主键排序 package com.timebusker import org.apache.spark.{Partitioner, SparkConf, SparkContext} import scala.collection...

Posted by timebusker on 2018-06-25

Spark笔记(五)-Spark之RDD-算子API使用（一）

Transformation算子 map(func()) 对于多层集合嵌套，需要确保函数能够处理当前迭代元素输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。接收一个函数，对于RDD中的每一个元素执行此函数操作，结果返回到原集合中。 // 单层集合 val ...

Posted by timebusker on 2018-06-25

Spark笔记(四)-Spark之RDD-持久化机制和Checkpoint机制

持久化机制所谓RDD的持久化，其实就是对RDD进行缓存，它是Spark重要的优化手段之一。为什么需要对RDD进行缓存呢？这与Spark作业的执行机制有关，我们知道，Spark程序只有遇到action算子的时候才会执行程序，具体的执行算法大致如下： Spark会以actionRDD为起点，...

Posted by timebusker on 2018-06-25

Spark笔记(四)-Spark之RDD-分区

基础知识分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。为什么要进行分区数据分区，...

Posted by timebusker on 2018-06-25

Spark笔记(三)-Spark之RDD

RDD的概述 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。...

Posted by timebusker on 2018-06-25