63、Spark Streaming：架构原理深度剖析-白红宇

63、Spark Streaming：架构原理深度剖析

阅读量：5219 次

发布时间：2019-06-14

本文共 823 字，大约阅读时间需要 2 分钟。

一、架构原理深度剖析

StreamingContext初始化时，会创建一些内部的关键组件，DStreamGraph，ReceiverTracker，JobGenerator，JobScheduler，DStreamGraph，我们程序中定义很多DStream，中间用很多操作把这些DStream给串起来，这些DStream之间的依赖关系，就是所谓的DStreamGraph，然后调用StreamingContext.start()方法；调用StreamingContext.start()方法的时候，会去Spark集群中的某个Worker节点上的Executor，启动输入DStream(比如JavaReceiverDStream)的Receiver；StreamingContext的初始化，Receiver的启动，就完成了SparkStreaming应用程序的准备工作；

Receiver负责数据接收，Receiver从数据源读取数据，Receiver接收到数据之后，就会先将数据保存到它运行的Executor关联的BlockManager中，除了会将数据保存在BlockManager中，还会发送一条数据的信息，到StreamingContext的ReceiverTracker中；JobGenerator--每隔我们定义的batch间隔，就会去ReceiverTracker中，获取一次时间间隔内的数据信息，然后将数据创建为一个RDD，每个batch对应一个RDD，这个RDD，也就是DStream中的一个时间段对应的一个RDD；根据DStreamGraph定义的算子和各个DStream之间的依赖关系，去生成一个job，job的初始RDD，就是刚才创建的batch对应的RDD，然后通过JobScheduler提交job；

转载于:https://www.cnblogs.com/weiyiming007/p/11382685.html

你可能感兴趣的文章

IE11兼容IE8的设置

查看>>

windows server 2008 R2 怎么集成USB3.0驱动