Toggle navigation
timebusker
博客主页
博客归档
关于我
思维要走到多数人的前面,甚至是对立面
[置顶] 经典古诗词
更新1015 赞美美句 我想不出任何你需要改变的地方,我爱你的全部。 普天之下唯一能够影响他人的方式,就是找出他们想要什么,并且教给他们如何获得。 如果成功有诀窍的话,那就是我们能洞悉他人的立场,同时还能兼顾自己和他人的立场...
Posted by timebusker on 2021-07-19
Spark笔记(十一)-SparkCore的调优之数据倾斜调优
数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。 原本能够正常执行的Spark作业,某天突然报出OOM...
Posted by timebusker on
2018-06-25
Spark笔记(十)-SparkCore的调优之开发调优
Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。 最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。 然而,通过Spark开发出高性能的大数据计算作业,并...
Posted by timebusker on
2018-06-25
Spark笔记(九)-Spark本地开发环境搭建
winutil模拟器设置 下载对应hadoop版本包 选择对应版本配置配置HADOOP_HOME、Path (null) entry in command string: null chmod 0644 将对应hadoop...
Posted by timebusker on
2018-06-25
Spark笔记(八)-Spark在不同集群中的运行架构
Spark注重建立良好的生态系统,它不仅支持多种外部文件存储系统,提供了多种多样的集群运行模式。部署在单台机器上时, 既可以用本地(Local)模式运行,也可以使用伪分布式模式来运行;当以分布式集群部署的时候,可以根据自己集群的实际情况选择Standalone模式 (Spark自带的模式)、Y...
Posted by timebusker on
2018-06-25
Spark笔记(七)-Spark运行流程
基本概念 Application:客户端应用程序 Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContex...
Posted by timebusker on
2018-06-25
Spark笔记(六)-Spark的广播变量和累加器
概述 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。 这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的, 但是...
Posted by timebusker on
2018-06-25
Spark笔记(五)-Spark之RDD-算子API使用(二)
算法实例 workCount TopN 多主键排序 package com.timebusker import org.apache.spark.{Partitioner, SparkConf, SparkContext} import scala.collection...
Posted by timebusker on
2018-06-25
Spark笔记(五)-Spark之RDD-算子API使用(一)
Transformation算子 map(func()) 对于多层集合嵌套,需要确保函数能够处理当前迭代元素 输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。 接收一个函数,对于RDD中的每一个元素执行此函数操作,结果返回到原集合中。 // 单层集合 val ...
Posted by timebusker on
2018-06-25
Spark笔记(四)-Spark之RDD-持久化机制和Checkpoint机制
持久化机制 所谓RDD的持久化,其实就是对RDD进行缓存,它是Spark重要的优化手段之一。为什么需要对RDD进行缓存呢? 这与Spark作业的执行机制有关,我们知道,Spark程序只有遇到action算子的时候才会执行程序,具体的执行算法大致如下: Spark会以actionRDD为起点,...
Posted by timebusker on
2018-06-25
Spark笔记(四)-Spark之RDD-分区
基础知识 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度, 而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。 为什么要进行分区 数据分区,...
Posted by timebusker on
2018-06-25
← 上一页
下一页 →