介绍Sqoop2安装,以及对官网5分钟入门的实践。 ...

介绍Spark Streaming整合kafka,统计单词。 ...

在使用 RestTemplate 调用其他服务时,发现服务返回 401 状态码时,会抛出 HttpClientErrorException 异常。但是通过 getResponseBodyAsString() 却无法获取 Response Body 内容,下面是实际例子。 ...

基于nginx访问日志,分析用户的一些信息。 ...

大数据学习过程中,采用docker搭建环境,方便快速。 ...

kafka——分布式流数据平台 ...

Datasets and DataFrames入门 ...

原文: Spark入门:共享变量 在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候,需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。 为了满足这种需求,Spark提供了两种类型的变量: 广播变量(broadcast variables): 变量在所有节点的内存之间进行共享。 累加器(accumulators): 支持在所有不同节点之间进行累加计算(比如计数或者求和)。 ...

resilient distributed dataset (RDD), which is a collection of elements partitioned across the nodes of the cluster that can be operated on in parallel. 简单点,RDD就是spark用来访问节点中的数据的一种抽象。 ...

更高效的wordcount。 前面学习了Hadoop的基础知识,编写了wordcount程序,了解了MR分而治之的思想。但MR编写起来较复杂,因此Hive通过编写SQL,将SQL解析为MR,让开发更高效。 ...

webmagic 项目的一个山寨版,供于学习。 ...

有没有觉得本地Maven仓库太大,想清理下? ...