码农必备！一文吃透Flink

阅读量：

Flink 到底是啥？

可以说，Flink 是一个非常强大的开源流式计算框架，在处理有界的和无界的数据流方面表现突出。其中以批次形式送达的数据（有界的），比如每个月结束时的一堆订单报告；而无界的则类似于持续不断供应的实时访问记录。你可以把 Flink 比喻为一个高效的数据处理流水线：它接收不同类型的'原材料'（数据），并能灵活地根据不同的需求对其进行处理（计算），同时能够记住并利用加工过程中的关键信息（状态）。最终它会产出一系列结构化的处理结果（即系统的各种指标）。

Flink 牛在哪？

1、支持事件时间语义：很多流处理框架用系统时间（处理时间）做窗口计算，Flink 支持基于事件时间（Event Time）语义进行窗口计算，也就是使用事件产生的时间。比如在电商场景下，用户下单时间就是事件时间，即使订单数据因网络延迟等原因乱序到达 Flink 系统，它也能根据事件时间准确统计出某个时间段内的订单数量、金额等数据，保障数据的准确性。
2、有状态计算：在 1.4 版本中，Flink 实现了状态管理。在流式计算时，算子会把中间结果数据保存在内存或文件系统里，当下一个事件进入算子，就能从之前的状态中获取中间结果，继续计算当前结果，无需每次都基于全部原始数据来统计。比如统计网站实时在线用户数，每来一个用户登录或退出事件，Flink 通过维护状态（当前在线用户集合），就能快速更新在线用户数，而不是每次都遍历所有用户登录记录。
3、灵活的窗口操作：Flink 把窗口分为基于时间（Time）、数量（Count）、会话（Session）以及数据驱动（Data - driven）等类型。以电商网站统计每小时商品点击量为例，就可以用基于时间的滚动窗口；若要统计每 100 次点击的相关数据，就用基于数量的窗口；而像统计用户在网站上的活跃会话时长，就可以使用会话窗口。而且窗口还能用灵活的触发条件定制化，以满足复杂的流传输模式。
4、高吞吐低延迟：Flink 在处理大规模数据流时，能每秒处理数百万个事件，延迟控制在毫秒级。在实时监控系统中，需要对大量的监控数据进行实时分析，Flink 能快速处理这些数据，及时发现异常情况并报警，保障系统稳定运行。
5、容错机制：Flink 基于轻量级分布式快照（CheckPoint）实现容错。当任务分布式运行在多个节点上时，若出现节点宕机、网络传输问题或者计算服务重启等异常，Flink 能通过 CheckPoints 将执行过程中的状态信息持久化存储，一旦任务异常停止，就从 Checkpoint 中自动恢复任务，确保数据处理的一致性，即 Exactly - Once 语义。

Flink 怎么用？

让我们简要介绍Flink的基本使用流程。第一步需要一个数据源,如从文件、Kafka主题或socket中获取数据,例如从Kafka读取数据时,代码通常会是这样的:

复制代码

    import org.apache.flink.streaming.api.datastream.DataStream;
    import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
    import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
    import java.util.Properties;
    
    public class KafkaSourceExample {
    public static void main(String[] args) throws Exception {
        // 设置Flink执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    
        // 设置Kafka数据源参数
        Properties properties = new Properties();
        properties.setProperty("bootstrap.servers", "localhost:9092");
        properties.setProperty("group.id", "test-group");
        properties.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.setProperty("auto.offset.reset", "latest");
    
        // 创建Kafka数据源实例
        FlinkKafkaConsumer<String> kafkaSource = new FlinkKafkaConsumer<>("test-topic", new SimpleStringSchema(), properties);
    
        // 创建数据流
        DataStream<String> dataStream = env.addSource(kafkaSource);
    
        // 后续可对dataStream进行各种操作
        // 执行Flink程序
        env.execute("Kafka Source Example");
    }
    }

完成数据源处理后，随后构建一个DataStream 对象。然后可以对该DataStream对象应用一系列转换操作，如 map 、 filter 和 reduce 等。其中，map 方法能够将输入的数据进行类型转换，例如将字符串类型的字段转换为整数值，或者调整字段格式或单位。filter 方法用于筛选出符合条件的数据，例如仅筛选出金额超过 100 元的订单记录。而 reduce 方法能够汇总所有符合条件的数据信息。

复制代码

    DataStream<Integer> mappedStream = dataStream.map(s -> Integer.parseInt(s));
    DataStream<Integer> filteredStream = mappedStream.filter(i -> i > 100);
    DataStream<Integer> reducedStream = filteredStream.keyBy(i -> 1).reduce((i1, i2) -> i1 + i2);

最后一步需配置数据接收器的实现步骤，在此基础之上将处理后的结果进行传输至外部系统进行处理。例如，在将结果保存至文件时，在Kafka主题上进行传输的情形下，默认情况下会触发相关操作。相应的Python代码如下：

复制代码

    import org.apache.flink.streaming.api.datastream.DataStream;
    import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
    import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;
    
    public class KafkaSinkExample {
    public static void main(String[] args) throws Exception {
        // 设置Flink执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    
        // 设置Kafka数据接收器参数
        Properties properties = new Properties();
        properties.setProperty("bootstrap.servers", "localhost:9092");
        properties.setProperty("topic", "output-topic");
    
        // 创建Kafka数据接收器实例
        FlinkKafkaProducer<String> kafkaSink = new FlinkKafkaProducer<>("output-topic", new SimpleStringSchema(), properties);
    
        // 假设已经有处理好的数据流dataStream
        dataStream.addSink(kafkaSink);
    
        // 执行Flink程序
        env.execute("Kafka Sink Example");
    }
    }

Flink 和其他框架比咋样？

在大数据处理领域中,Flink 常与 Spark 和 Storm 等主流框架进行对比分析。我们首先聚焦于 Flink 和 Spark 的异同点:两者均提供批处理与流处理功能,均基于内存计算,均具备统一的批流处理 API,还提供类似 SQL 的编程接口,并配有完善错误恢复机制,可保证 Exactly once 的语义一致性。然而它们之间也存在显著差异:从设计理念来看,Flink 采用事件驱动型流处理框架,按事件一行一行地进行流式处理,真正实现了流式计算;而 Spark 则基于微批模拟流计算的技术,将数据流划分为以时间为单位的批次,通过分布式数据集 RDD 实现批量处理,属于伪实时系统。
在架构配置上,Flink 包含 Jobmanager、Taskmanager 和 Slot 等主要组件;而 Spark 则由 Master、Worker、Driver 和 Executor 等角色组成。
任务调度机制方面,Flink 根据用户提交代码生成 StreamGraph 并优化后生成 JobGraph,随后提交给 JobManager 进行调度管理;JobManager 根据 ExecutionGraph 对相应的任务进行调度安排;Spark 则持续生成微小数据批次构建 DAG 并根据 DAG 中的操作指令形成 job 实例;每个 job 又会根据窄宽依赖关系生成多个执行阶段。
时间机制上,Flink 支持事件时间、注入时间和处理时间等多种时间机制,并具备 watermark 机制来处理延迟数据;能够有效应对乱序大实时数据的挑战;而 Spark 时间机制较为有限,仅支持 processing time 来模拟 event time,可能导致时间和顺序上的误差积累。
最后对比 Flink 和 Storm 的性能表现:Flink 在单线程吞吐量上远超 Storm(Identity 逻辑下 Storm 单线程吞吐量为 8.7 万条/秒,Flink 达到 35 万条/秒);Flink 还支持有状态的流式处理功能而 Storm 没有此能力。

Flink 实际用在哪？

在多个领域中运行良好，在多个领域中运行良好，在多个领域中运行良好，在多个领域中运行良好，在多个领域中运行良好，在多个领域中运行良好，在多个领域中运行良好，在多个领域中运行良好，在多个领域中运行良好，在多个领域中运行良好

总结

在开源领域中，Flink被视为一个强大的流处理框架。它不仅支持基于事件的时间语义模型，并且能够实现高吞吐量的同时保持低延迟，在提供支持有状态计算的功能的同时还具备灵活的窗口操作特性以及较强的容错能力。无论是大数据领域的新手还是经验丰富的开发者都能从中获益匪浅。如果你对Flink也感兴趣不妨深入探索它独特的功能特点并分享你的学习心得与疑问我们共同进步！

全部评论 (0)

还没有任何评论哟~

码农必备！一文吃透Flink

Flink到底是啥？简单来说，Flink是一个超厉害的开源流处理框架，能对有界和无界数据流进行有状态计算。有界数据流就是有明确开始和结束的数据，像你统计一个月内的订单数据；无界数据流则是源源不断、没...

一文吃透Linux并发控制与IO模型，码农晋升必备！

目录一、Linux并发控制 1.1并发产生的场景 1.2并发控制机制二、LinuxIO模型 2.1阻塞IO（BlockingI/O） 2.2非阻塞IO（NonblockingI/O） 2.3IO多...

运维必备！一文吃透SSH

目录一、SSH：运维的秘密武器二、SSH到底是什么三、SSH的核心机制 3.1安全验证 3.2协议组成四、SSH实用操作指南 4.1基本用法与选项参数 4.2配置文件详解 4.3常见操作示例 ...

一文吃透SkyWalking：运维必备的分布式系统监控神器

目录一、开篇：SkyWalking的魔法登场二、SkyWalking初相识（一）SkyWalking是什么（二）诞生背景三、核心功能大揭秘（一）分布式追踪（二）性能监控（三）服务网格支...

一文吃透Elasticsearch

一、生活中的数据搜索引擎是对数据的检索，所以我们先从生活中的数据说起。我们生活中的数据总体分为两种：结构化数据非结构化数据结构化数据：也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地...

一文吃透SpringMVC

一、SpringMVC简介 1、什么是MVC MVC是一种软件架构模式（是一种软件架构设计思想，不止Java开发中用到，其它语言也需要用到），它将应用分为三块： M：Model（模型），负责业务处理及...

一文吃透扫码登录原理

本文已经收录到Github仓库，该仓库包含计算机基础、Java基础、多线程、JVM、数据库、Redis、Spring、Mybatis、SpringMVC、SpringBoot、分布式、微服务、设计模式...

一文带你吃透Python网络编程，小白必看！

目录一、网络编程基础概念二、网络编程核心知识 2.1网络协议 2.2IP地址与端口号 2.3Socket编程三、Python网络编程实战 3.1TCP编程实例 3.2UDP编程实例 3.3网络爬...

一文吃透 WebSocket 原理

一.前言踩着年末的尾巴，提前布局来年，为来年的工作做个好的铺垫，所以就开始了面试历程，因为项目中使用到了WebSocket，面试官在深挖项目经验的时候，也难免提到WebSocket相关的知识点，因为...

一文吃透 SQL 语法

✅作者简介：2022年博客新星第八。热爱国学的Java后端开发者，修心和技术同步精进。 🍎个人主页：JavaFans的博客 🍊个人信条：不迁怒，不贰过。小知识，大智慧。

是否确定退出登录?

码农必备！一文吃透Flink

Flink 到底是啥？

Flink 牛在哪？

Flink 怎么用？

Flink 和其他框架比咋样？

Flink 实际用在哪？

总结

全部评论 (0)

相关文章推荐

码农必备！一文吃透Flink

一文吃透Linux并发控制与IO模型，码农晋升必备！

运维必备！一文吃透SSH

一文吃透SkyWalking：运维必备的分布式系统监控神器

一文吃透Elasticsearch

一文吃透SpringMVC

一文吃透扫码登录原理

一文带你吃透Python网络编程，小白必看！

一文吃透 WebSocket 原理

一文吃透 SQL 语法