大数据调度平台选型 Oozie、Azkaban、Airflow、DolphinScheduler
本次课程将给大家分析大数据调度平台的功能及技术选型,对Oozie、Azkaban、AirFlow、DolphinScheduler这四种常见的任务流调度平台做深入的对比和分析,提供每种调度工具的优缺点及应用场景。最终实现自动化任务流调度的开发测试。
一、概要
对常见的企业级任务流调度工具进行分析对比,满足日常工作中的技术选型及自动化任务流的开发。
【知识点】
1、 大数据平台调度需求
2、 常见任务流调度系统介绍
3、 调度系统优缺点分析及选型
4、 DolphinScheduler的介绍
5、 DolphinScheduler自动化调度实现
二、大数据平台调度需求
大数据平台技术架构(通用四层)
思考
无论离线批处理还是流式计算,【数据计算层】都需要工作流调度框架,为什么需要?解决什么问题?
案例:
360°全方位用户画像(Spark)
今日指数证券(Flink)
思考:
大数据计算中任务调度,主要解决什么问题?
依赖调度(Dependency Scheduler)
总结:
在大数据计算中,任务调度:定时调度和依赖调度。
三、大数据工作流调度框架
- Apache Oozie
- Azkaban
- Airflow
- DolphinScheduler
Apache Oozie
Linkedin Azkaban
Azkaban:最适合shell脚本,当job不多的时候,可以使用。
Apache Airflow
Airflow 在使用时有一大痛点:使用Python语言来定义工作流的。
Apache DolphinScheduler
特点:分布式、去中心化、易扩展的可视化工作流任务调度系统
海豚调度的多租户和我们YARN的多租户是对应起来的,这个非常好。
海豚调度出来的有点迟,它把我们之前讲的 Oozie、Azkaban、airflow的优点全拿过来了,后发优势,集万千优点于一身,缺点也避免了。
离线:用的Spark比较多,实时用 Flink比较多。
比较:
过载处理:airflow 任务过多时卡死服务器,DolphinScheduler任务队列机制,当任务过多时会缓存在任务队列中。
总结:
B站|四大工具比拼,谁才是大数据调度平台的王者之选
快速上手 Apache DolphinScheduler
Dolphinscheduler官网
为者常成,行者常至
自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)