大数据调度平台选型 Oozie、Azkaban、Airflow、DolphinScheduler

本次课程将给大家分析大数据调度平台的功能及技术选型,对Oozie、Azkaban、AirFlow、DolphinScheduler这四种常见的任务流调度平台做深入的对比和分析,提供每种调度工具的优缺点及应用场景。最终实现自动化任务流调度的开发测试。

一、概要

对常见的企业级任务流调度工具进行分析对比,满足日常工作中的技术选型及自动化任务流的开发。

【知识点】
1、 大数据平台调度需求
2、 常见任务流调度系统介绍
3、 调度系统优缺点分析及选型
4、 DolphinScheduler的介绍
5、 DolphinScheduler自动化调度实现

二、大数据平台调度需求

file

大数据平台技术架构(通用四层)
file

思考
无论离线批处理还是流式计算,【数据计算层】都需要工作流调度框架,为什么需要?解决什么问题?

案例:
360°全方位用户画像(Spark)
file

今日指数证券(Flink)
file

思考:
大数据计算中任务调度,主要解决什么问题?

依赖调度(Dependency Scheduler)
file

总结
在大数据计算中,任务调度:定时调度和依赖调度。

三、大数据工作流调度框架

  • Apache Oozie
  • Azkaban
  • Airflow
  • DolphinScheduler

Apache Oozie

file

file

file

file

Linkedin Azkaban

file

file

file

file

Azkaban:最适合shell脚本,当job不多的时候,可以使用。

Apache Airflow

file

file

Airflow 在使用时有一大痛点:使用Python语言来定义工作流的。

file

Apache DolphinScheduler

file

特点:分布式、去中心化、易扩展的可视化工作流任务调度系统

file

海豚调度的多租户和我们YARN的多租户是对应起来的,这个非常好。

海豚调度出来的有点迟,它把我们之前讲的 Oozie、Azkaban、airflow的优点全拿过来了,后发优势,集万千优点于一身,缺点也避免了。

file

file

离线:用的Spark比较多,实时用 Flink比较多。

比较:
file

过载处理:airflow 任务过多时卡死服务器,DolphinScheduler任务队列机制,当任务过多时会缓存在任务队列中。

总结:
file


B站|四大工具比拼,谁才是大数据调度平台的王者之选
快速上手 Apache DolphinScheduler
Dolphinscheduler官网

为者常成,行者常至