博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【2016-03-11】实时计算简介
阅读量:6347 次
发布时间:2019-06-22

本文共 979 字,大约阅读时间需要 3 分钟。

  hot3.png

流行框架:

Apache Storm:Twitter开源,他们有上千台机器跑Storm;

  • client端:

    • spout(数据源):puma对接mysql的binlog,swallow对接应用消息,blackhole对接流量、打点日志;

    • bolt(数据处理逻辑),有向无环图

  • Storm架构(通过zk交互):

    • nimbus(单点):任务分配、topology状态监控;

    • supervisor:管理多个worker节点,worker上跑spout和bolt;

    • worker之间通信用netty,pigeon底层也是用netty;

JStorm:Storm上的一个分支,阿里对底层做了修改;

  • nimbus HA;

  • backpressure:下游指定QPS;

  • spout多线程:

Apache Spark(spark streaming):

  • 数据源:kalfa、flume、hdfs/s3、kinesis、twitter

  • 数据:micro batch(因为rdd的原因),storm中是一条一条跑的,spark在实时性上可能不如storm,准实时,延迟秒级别以上。

数据处理单位:Discretized stream(DStream);

  • 因为micro batch,可以确保数据“处理且只处理一次”,容错性更好;

  • 可以通过spark SQL处理数据;

Twitter Heron:

  • 预计今年年中开源,与Storm接口一致;

  • task做更小粒度拆分,更易做隔离、profiling、监控

  • nimbus:只负责任务分配,不负责topology状态监控;

  • 没有worker概念(worker是多线程的),一个task就是一个thread;

  • stream manager: 相对storm更容易做back pressure

Apache Flink:

  • 像spark一样,提供了很多科学计算的框架,

  • data set批处理 、data stream流式

  • netflix个性化和推荐系统架构

  • storm:DP有60个业务在run;

目前应用场景:

  • 实时流量、实时交易额:

  • 搜索、推荐:

  • 广告

  • CTR(点击率)、广告反作弊、计费

  • 业务安全:

  • 反爬虫、反作弊:检测出来是爬虫提供一些虚假数据

转载于:https://my.oschina.net/rathan/blog/636127

你可能感兴趣的文章
第0次作业
查看>>
思维导图五个关键秘诀
查看>>
Ubuntu里设置python默认版本为python3(转载)
查看>>
快排+折半查找
查看>>
c# GC 新典型
查看>>
ssh bash 通配符
查看>>
seajs在jquery多个版本下引用jquery的插件的方案
查看>>
关于网络上java,php和.net的“口角之争“的一点想法 !
查看>>
python 第二周(第十三天) 我的python成长记 一个月搞定python数据挖掘!(21) -正则表达式re...
查看>>
[POI2011]SEJ-Strongbox
查看>>
20文件
查看>>
Android开发Intent应用概述
查看>>
【Go】并发编程
查看>>
VMware虚拟化NSX-Manager命令行更改admin用户密码
查看>>
悦纳自己
查看>>
python字符串函数
查看>>
ORM框架Hibernate (四)MyEclipse Hibernate Tool 逆向生成实体类
查看>>
js中substr与substring的区别
查看>>
去掉iphone连接电脑时会出现的弹出窗口
查看>>
【python】-- web开发之HTML
查看>>