freelogic's blog

2018-02-04-分布式计算-资源收集

分布式计算-资源收集

说明:

正文:

  • 本贴收集了作者认为有用的资料,方便各方参考,免去找寻之苦,提升信息交叉引用价值。
  • 部分内容根据作者主观感受做了评注,仅供参考,不作为评价倾向。
  • 作者自己撰写的均有“(原创)”标识,其余均为转载。如涉及版权等问题,请积极联系作者协商处理。

CONTENTS OF CHAPTERS

1. Blog

2. CoreProject

2.1 Spark

SPARK:从Hadoop生态诞生,前身是MapReduce,但彻底重构并架构了新的以RDD为核心的处理模型,是未来大数据分布式处理的不二之选。

2.2 Hadoop

2.3 Yarn

2.4 Kafka

KAFKA: 消息分发存储系统,轻量级,模型简单,高效,消息持久化到硬盘,存取速度和磁盘顺序读成线性相关,分布式。多和spark,storm等系统合用。不仅仅是传递一次性的消息队列这么简单,也并非是ActiveMQ,RabiitMQ这样严格的典型消息处理系统,而是一个带着海量存储的,以消息队列形式存在的分布式信息分发系统。

Flink:从数据库角度发展而来的分布式计算框架,相对偏DB但是最新情况是开始学习Spark,且在计算抽象层次上比Spark的RDD物理抽象级别更偏向算法抽象级别,而且某些benchmark显示,同类型的计算比Spark略快些,尤其是实时流数据流计算达到ms毫秒级(接近storm),超过亚秒级的Spark Streaming。

2.6 Akka

AKKA: 是已经普遍成熟并用于电信业等行业的并发计算框架,极其高效,架构优雅,几乎无法改进,符合自然层级处理模型。

  • Akka入门,(http://www.gtan.com/akka_doc/intro/getting-started-first-java.html)

3. OtherResource

3.1 libs

3.1.1 Network