用不到大数据分布式那些框架,想问下有没有类似的框架满足下面一些需求
从输入到输出整个流程划分为若干个模块,希望能:
1、输入可以支持文件或监听消息队列
2、设置每个模块的并发数
3、模块间的数据通过消息队列传递
4、模块间不一定是顺序执行,支持 DAG 图
上面是一些基本需求,下面是额外的一些功能
5、日志和异常捕获
6、监控是否有堆积情况
我自己有实现这样一套东西,主要依赖 multiprocessing 包,但是有很多 hardcode 的地方,这类流程多了之后很不方便维护,所以来请教下是否有类似的框架?
1
bnm965321 2020-02-25 16:19:52 +08:00
airflow
|
2
xjx0524 OP @bnm965321 感谢回复,看了下 airflow 主要是基于时间的调度框架?以它的概念来说的话,应该是不断的去调度执行 DAG,但我需要的是启动一个 DAG 之后,里面的每个 task 都一直在运行,不断的消费上游 task 传过来的数据,直到接收停止命令
|
3
TypeError 2020-02-25 16:52:47 +08:00
|
4
ipwx 2020-02-25 16:55:27 +08:00
听上去像是 apache 那一套的场景。你去看看 spark,flink,kafka 之类的
|
5
xjx0524 OP |