- Flink基礎(chǔ)教程
- (美)埃倫·弗里德曼 (希)科斯塔斯·宙馬斯
- 812字
- 2020-01-10 15:31:27
第1章 為何選擇Flink
人們對某件事的正確理解往往來自基于有效論據(jù)的結(jié)論。要獲得這樣的結(jié)論,最有效的方法就是沿著事件發(fā)生的軌跡進(jìn)行分析。
許多系統(tǒng)都會產(chǎn)生連續(xù)的事件流,如行駛中的汽車發(fā)射出GPS信號,金融交易,移動通信基站與繁忙的智能手機(jī)進(jìn)行信號交換,網(wǎng)絡(luò)流量,機(jī)器日志,工業(yè)傳感器和可穿戴設(shè)備的測量結(jié)果,等等。如果能夠高效地分析大規(guī)模流數(shù)據(jù),我們對上述系統(tǒng)的理解將會更清楚、更快速。簡而言之,流數(shù)據(jù)更真實地反映了我們的生活方式。
因此,我們自然希望將數(shù)據(jù)用事件流的方式收集起來并加以處理。但直到目前,這并不是整個行業(yè)的標(biāo)準(zhǔn)做法。流處理并非全新的概念,但它確實是一項專業(yè)性強(qiáng)且極具挑戰(zhàn)性的技術(shù)。實際上,企業(yè)常見的數(shù)據(jù)架構(gòu)仍舊假設(shè)數(shù)據(jù)是有頭有尾的有限集。這個假設(shè)存在的大部分原因在于,與有限集匹配的數(shù)據(jù)存儲及處理系統(tǒng)建起來比較簡單。但是,這樣做無疑給那些天然的流式場景人為地加了限制。
我們渴望按照流的方式處理數(shù)據(jù),但要做好很困難;隨著大規(guī)模數(shù)據(jù)在各行各業(yè)中出現(xiàn),難度越來越大。這是一個屬于物理學(xué)范疇的難題:在大型分布式系統(tǒng)中,數(shù)據(jù)一致性和對事件發(fā)生順序的理解必然都是有限的。伴隨著方法和技術(shù)的演化,我們盡可能使這種局限性不危及商業(yè)目標(biāo)和運(yùn)營目標(biāo)。
在這樣的背景下,Apache Flink(以下簡稱Flink)應(yīng)運(yùn)而生。作為在公共社區(qū)中誕生的開源軟件,F(xiàn)link為大容量數(shù)據(jù)提供流處理,并用同一種技術(shù)實現(xiàn)批處理。
在Flink的開發(fā)過程中,開發(fā)人員著眼于避免其他流處理方法不得不在高效性或者易用性方面所做的妥協(xié)。
本書將討論流處理的一些潛在好處,從而幫助你確定以流為基礎(chǔ)的數(shù)據(jù)處理方法是否適合你自己的商業(yè)目標(biāo)。流處理的一些數(shù)據(jù)來源以及適用場景可能會讓你感到意外。此外,本書還將幫助你理解Flink的技術(shù)以及這些技術(shù)如何克服流處理面臨的困難。
本章將介紹人們希望通過分析流數(shù)據(jù)獲得什么,以及在大規(guī)模流數(shù)據(jù)分析過程中面臨的困難。本章是關(guān)于Flink的入門介紹,你可以看到人們平常(包括在生產(chǎn)環(huán)境中)是怎么使用它的。
- 現(xiàn)代測控系統(tǒng)典型應(yīng)用實例
- Hands-On Graph Analytics with Neo4j
- 大學(xué)計算機(jī)信息技術(shù)導(dǎo)論
- Learning Microsoft Azure Storage
- Circos Data Visualization How-to
- OpenStack for Architects
- 商戰(zhàn)數(shù)據(jù)挖掘:你需要了解的數(shù)據(jù)科學(xué)與分析思維
- AWS:Security Best Practices on AWS
- 智能工業(yè)報警系統(tǒng)
- Data Wrangling with Python
- Pig Design Patterns
- 計算機(jī)網(wǎng)絡(luò)技術(shù)基礎(chǔ)
- AWS Certified SysOps Administrator:Associate Guide
- 悟透JavaScript
- Extending Ansible