Datasets and DataFrames入门 ...

原文: Spark入门:共享变量 在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候,需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。 为了满足这种需求,Spark提供了两种类型的变量: 广播变量(broadcast variables): 变量在所有节点的内存之间进行共享。 累加器(accumulators): 支持在所有不同节点之间进行累加计算(比如计数或者求和)。 ...

resilient distributed dataset (RDD), which is a collection of elements partitioned across the nodes of the cluster that can be operated on in parallel. 简单点,RDD就是spark用来访问节点中的数据的一种抽象。 ...

更高效的wordcount。 前面学习了Hadoop的基础知识,编写了wordcount程序,了解了MR分而治之的思想。但MR编写起来较复杂,因此Hive通过编写SQL,将SQL解析为MR,让开发更高效。 ...

webmagic 项目的一个山寨版,供于学习。 ...

有没有觉得本地Maven仓库太大,想清理下? ...

pyspider是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等。 ...

docker常用命令介绍。 ...

介绍Python Scrapy环境搭建、基本命令、以及一个demo。 ...

Python Scrapy爬取整个站点满足添加的url,从而根据这些url解析出想要的内容。 ...

介绍Spring Data Jpa中最优雅的分页 ...

实现ThreadPoolExecutor时推荐自定义ThreadFactory,方便从日志中知道是哪个线程池的日志。 ...