文章詳情頁(yè)
MySQL Flink實(shí)時(shí)流處理的核心技術(shù)之窗口機(jī)制
瀏覽:82日期:2023-05-08 10:17:43
目錄
- 1.為什么要學(xué)窗口
- 2.Flink中的窗口
- 3.滾動(dòng)窗口(Tumble)
- 3.1 概念
- 3.2 案例SQL
1.為什么要學(xué)窗口
流式計(jì)算,一般有兩種場(chǎng)景:
- 無(wú)限制的流式計(jì)算,比如:wordcount案例,它沒(méi)有任何外部的限制條件,這種情況不多。
- 有限制的流式計(jì)算,比如:統(tǒng)計(jì)早高峰時(shí)間內(nèi)經(jīng)過(guò)某個(gè)道路的車輛數(shù)。
對(duì)于第二種情況來(lái)說(shuō),我們需要加上額外的限制條件。最常用的限制條件就是時(shí)間了。
這個(gè)時(shí)間段,在程序中,就用一個(gè)窗口來(lái)表示。
也就是說(shuō),窗口的作用:把流式計(jì)算轉(zhuǎn)換為批量計(jì)算,窗口是流轉(zhuǎn)批的一個(gè)橋梁。
這就是為什么要學(xué)窗口的原因了。
2.Flink中的窗口
在Flink中,窗口可以分為如下幾類:
- 滾動(dòng)窗口(Tumble)
- 滑動(dòng)窗口(hop、Slice)
- 會(huì)話窗口(session)
- 漸進(jìn)式窗口(cumulate)
- 聚合窗口(over)
3.滾動(dòng)窗口(Tumble)
3.1 概念
滾動(dòng)窗口 :窗口大小 = 滾動(dòng)距離(時(shí)間間隔)
特點(diǎn):上一個(gè)窗口的結(jié)束就是下一個(gè)窗口的開(kāi)始,數(shù)據(jù)不重復(fù)、也不丟失。
3.2 案例SQL
#1.創(chuàng)建source表 CREATE TABLE source_table ( user_id STRING, price BIGINT, `timestamp` bigint, row_time AS TO_TIMESTAMP(FROM_UNIXTIME(`timestamp`)), watermark for row_time as row_time - interval "0" second ) WITH ( "connector" = "socket", "hostname" = "node1", "port" = "9999", "format" = "csv" ); #2.語(yǔ)法 tumble(事件時(shí)間列,窗口大小) 窗口大小是用戶自定義的。比如30分鐘、1小時(shí)等。 直接把tumble窗口放在group by語(yǔ)句后即可。 比如:tumble(row_time,interval "5" second) 含義:定義一個(gè)5秒大小的滾動(dòng)窗口。 #3.數(shù)據(jù)處理 select user_id, count(*) as pv, sum(price) as sum_price, UNIX_TIMESTAMP(CAST(tumble_start(row_time, interval "5" second) AS STRING)) * 1000 as window_start, UNIX_TIMESTAMP(CAST(tumble_end(row_time, interval "5" second) AS STRING)) * 1000 as window_end from source_table group by user_id, tumble(row_time, interval "5" second);
到此這篇關(guān)于MySQL Flink實(shí)時(shí)流處理的核心技術(shù)之窗口機(jī)制的文章就介紹到這了,更多相關(guān)MySQL Flink窗口機(jī)制內(nèi)容請(qǐng)搜索以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持!
標(biāo)簽:
MySQL
排行榜
