四虎国产精品永久一区_国产熟女高潮av6666_久草在线这里只有精品_欧美成人午夜精品_国产韩国精品一区二区三区_性插久久

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

來源:IT168企業級 | 2018-08-22 12:17

  9年互聯網/大數據領域研發、架構經驗,2015年加入京東物流,主要負責大數據相關架構與開發工作。

  摘要: 數據蜂巢平臺是京東物流自主研發的分布式、高性能、高可用、支持異構,離線和實時的大數據同步與管理平臺。關鍵技術:HA;離線與實時同步整合;binlog采集,存儲與訂閱;客戶端并發消費;一致性校驗與修復;任務隔離。

  目前已經在京東物流系統中大規模應用,比如單源和多源復制,從全國各地倉儲園區集群(上百個)實時復制到IDC,從mysql到ES,從mysql到cassandra等等。倉儲園區硬件、網絡環境復雜,數據蜂巢平臺需要考慮硬件設施和網絡故障的容錯性。議題主要分享平臺誕生的背景,使用的關鍵技術,架構的演進過程,演進過程中所踩過的坑。

  正文:

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  京東物流一線數據大部分都存在MySQL數據庫上,分布比較廣,包括國內外園區庫房和IDC,這樣數據使用起來極不方便,各業務系統為了使用數據,開發出多種版本的同步工具,結果導致管理非常困難以及資源的浪費。這時就需要一個統一的平臺把這些數據管理起來。

  架構設計

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  關于數據同步,主要分為:批量同步、實時訂閱和實時同步。

  批量同步: 采用sqoop的模式,把數據分片,然后進行多機并發復制,用以提升效率。

  實時訂閱:使用消息隊列,即將binlog事件解析生成對應的消息存儲在隊列中;

  實時同步:通過客戶端去消費隊列將數據寫入目標存儲,從而實現數據的實時同步。

  如何中將以上三個功能整合到一個平臺?

  首先,適配批量同步,參照sqoop, sqoop是借助于hadoop集群提交一個mr作業, 類似的,蜂巢系統也提供一個集群,將一個批量同步作業分為多task去執行。實時訂閱也可使用這種思路,不同的是每一個task即對應一臺mysql實例的binlog采集;同理實時同步也可分成多個task,每一個task即為一個消息隊列的消費客戶端。

  架構圖如下所示:

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  采用了經典的master、slave結構,每一個slave上可以跑三種對應的任務。BatchWorker負責把MySQL數據批量同步到storage里面,這里的storage是一個抽象,不一定就是存儲之類的系統,也有可能是一些業務的處理。StreamWorker負責binlog的采集和消息隊列的維護,如果有訂閱需求,使用系統提供的客戶端Consumer就可以直接消費。

  Pieworker則是Consumer的分裝,只不過這個客戶端由集群去管理維護。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  BatchWorker結構比較簡單,主要由Fetcher、Sinker和Storage(與整體架構圖中的storage不同,此處為一個buffer)組成。Fetcher接口負責抽取數據,Storage負責緩存數據,Sinker接口負責數據的寫入。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  StreamWorker模仿MySQL的主從復制機制, RelayLogTask負責binlog的抽取;HHLTask負責解析binlog,生成消息體,最后存在hhl中,hhl即為上文提到消息隊列。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  客戶端: StreamJob除了采集binlog,維護消息隊列外,還提供了一個ClientServer模塊,用于接收客戶端的消費請求。當Consumer需要消費的時候,請求會發送到ClientServer,ClientServer通過索引快速的定位到hhl文件的某一個位置,然后把數據讀取出來,然后經過客戶端的指定過濾規則進行過濾,最終將消息體傳送給客戶端。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  消息的位點由三部分組成的:Serverld對應的就是MySQL的Serverld;binlogPosition是一個長整型數字,高32位為binlog文件下標,低32位為文件內部的位置;time為對應的binlog事件產生的時間。

  為解決性能問題,客戶端支持多種并行模式。

  第一種是以事務為單位串行處理;

  第二種是在第一種基礎上進行了一個簡單的優化,比如:一個事務內只對單表操作,那么這個事務是完全可以并發的,不同表間的事務順序并不會影響最終結果的一致性;但事務內對多表操作就需要繼續串行。所以第二種并發模式就是不斷串行并行轉變的過程。

  以上兩種消費模式是以事務為單位,以下兩種以行為單位

  第三種是表級并發,將事務拆分為多個行級操作,同表操作由同一線程完成,保障同一表操作的有序性;

  第四種是行級并發,主要是把MySQL的數據同步到NOSQL上時使用,關系型數據庫同步時局限性較大,因為行級并發只保障同一主鍵的操作有序,而關系型數據庫會存在多個唯一約束,這樣即使保障了主鍵的操作有序也可能引起數據不一致。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  集群的特性:作為一個集群都需要要保證高可用、數據本地性和負載均衡。高可用這一塊主要分為三部分:

  MySQL: 由DBA保證數據庫的高可用,但當Mysql主從切換時,binlog的位點是不一致的,此時系統通過Serverld的檢測發現該變更,然后通過時間在新的mysql實列上定位正確的binlog位點。

  master(Queen):基于Zookeeper完成Active角色的選舉

  Bee(Slave):Bee宕機后由Master將其運行的任務遷移到其他的Slave上。

  數據本地性:每一個Bee在啟動時都配置了機房,分組等信息,作業提交時可以指定自己期望的運行位置,與hadoop,spark類似。

  負載均衡: 每一個Bee會將自己的負載信息通過心跳發給Queen,queen進行作業調度時,會在滿足數據本地性的前提下選擇壓力最小的機器去運行新任務。

  演進

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  HHL文件丟失:上文提到過,如果Streamworker的運行主機宕機,Master會把它遷移到另外一臺機器上,但是Streamworker采集解析的binlog存在本地,遷移后會引起數據丟失,解決這個問題通用的方案是多副本,但大數據量下的多復本會造成磁盤空間的浪費,尤其是在庫房環境下。

  并且這些數據有一個特點,就是發生遷移時,雖然解析過的數據丟失,但是原始binlog都會在機器上保存(dba會保留n天的binlog數據),最終可以通過數據補全來保證數據不丟失。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  上圖為第一版streamworker的擴展,最右面的可以認為是這一組的主線程,虛線位置發生任務遷移,切換到了新的主機上,此時虛線左邊的數據全部丟失。如果有客戶端需要消費丟失的數據,服務端則啟動一組新線程,然后進行catchup,catchup會把丟失的部分補齊并提供給客戶端消費。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  元數據: binlog是不記錄字段名等元數據的,而客戶端消費時需要。最簡單的方式是收集到binlog之后,去源庫上查詢,但在binlog采集延遲期間如果有ddl操作,會導致元數據不準確。為解決該問題系統實現了一個快照模塊。

  在StreamJob初次啟動的時候,把對應的MySQL里面所有表都做一份快照,在此后的運行期間監控DDL操作,當解析到DDL操作時會將原快照取出生成一個復本,并在這個復本上應用這個ddl,生成新的快照 。這樣系統可以保證任何時刻binlog對應的元數據都是正確的,方便用戶使用。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  客戶端:服務端并不記錄客戶端的消費位點,消費的位置由客戶端自行存儲。由于客戶端采用的是并發消費模式,消息又是嚴格有序的,此時位點記錄就必須保障每一個記錄下的位點之前的所有消息都被正確處理了,此處引入了一個環形提交隊列(具體實現與disruptor類似)。

  當連續的多個消息被正確處理,并達到記錄位點的間隔,此時提交隊列會將一個位點寫入對應的存儲介質。比如1,2,3,4,5,8,10,14被處理完成,位點提交間隔為5,則5位置對應的位點被記錄,當6,7,9被處理完成后10再被記錄。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  以下主要為易用性的改進:

  SQL: 用戶通過SQL描述需要同步哪些字段,同步條件等信息,服務端通過解析sql執行對應的同步邏輯。

  Union: 用于處理多表合一的場景,通過加入來源標識字段來解決唯一約束。

  Join: 在同步的過程中完成寬表的加工,內部通過緩存,布隆過濾器等優化方案來提升性能。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  一致性較驗:

  系統提供了兩種模型:

  第一種是使用pt_table_checksum的思路,比如要較驗一張表的數據,先把這張表的數據分成多個片段,然后對這些片段進行crc計算,并將結果和計算的范圍存儲到同一個數據庫的表里去,此時會觸發一個binlog事件,當消費者消費到這個事件后重現該操作,通過比對計算結果值來確定數據是否一致。

  這種方式一是侵入性比較強,需要在原庫上建對應的比對結果表,二是需要加鎖,三是對延遲的要求很高,當延遲較大時,消費端拿不到對應的比對事件,將無法確定數據一致性。

  第二種數據校驗的模型是基于BatchJob實現。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  Fetcher抽取源和目標雙方的數據,排序后通過storage把數據傳遞給sinker,Sinker根據用戶自定義的比較接口對數據進行比較,最后將差異通過Collector進行收集。這種比對方式的缺點是不能保證時間序列,在比對的時候數據是變更的,比對出來的結果可能并不是真正的差異。

  此時我們需要修復比對結果,首先在比對開始時把消費端的位點記錄下來,比對完成后,如果有差異則從比對開始前記錄的位點進行binlog重放,通過分析binlog中操作,對差異進行修復,輸出最終結果。

  該比對模型最大的問題是需要抽取比對雙方的數據,對帶寬占用較大,為減少網絡傳輸,內部會對數據進行初步的篩選,將要比對的數據分成多個片段,在存儲端對每個片段進行md5計算,fetcher只收集md5值 ,只有雙方md5值不同時才將真正的數據抽取到計算端進行比較。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  修復:

  系統提供兩種修復方式:

  一是基于binlog事件傳遞,當比對出差異數據后,只需要在源庫上對差異數據進行一個偽操作(比如更改update_time字段),觸發binlog事件的產生,消費端收到該事件即可修復錯誤數據(事件對應的消息體內包含了所有對應字段的值,并不只限于update_time字段),該方式缺點是受延遲的影響,同時還需要源庫的寫權限。

  二是直接修復,即直接在目標上將差異數據修正。在修復數據時需要加鎖或暫停同步,避免并發問題。

一文帶你了解京東自主研發物流數據平臺—數據蜂巢!

  資源的隔離: 系統默認只提供了常用的同步功能,當默認實現無法滿足客戶需求時,用戶需要自行編寫代碼來實現對應的接口來完成他們的邏輯。Bee開始使用的線程模型,即每一個Bee可以看做一個線程池,多個任務都在同一線程池內運行,而用戶自定義代碼又無法控制,導致不同任務相互影響,更有甚者任務結束后資源不釋放。

  為保證資源隔離,將線程改為進程,將不同作業的任務交由不同的子進程去執行,子進程啟動時會指定額定運行資源;所有子進程由Bee統一管理,Bee不再運行具體任務,作業結束后,Bee將未退出的子進程全部強制殺死。


【聲明】物流產品網轉載本文目的在于傳遞信息,并不代表贊同其觀點或對真實性負責,物流產品網倡導尊重與保護知識產權。如發現文章存在版權問題,煩請聯系小編電話:010-82387008,我們將及時進行處理。

熱門排行

10秒快速發布需求

讓物流專家來找您

主站蜘蛛池模板: 小sao货大ji巴cao死你h_黄色动态图视频_成人精品av一区二区三区网站_亚洲欧美18岁网站_欧美激情视频二区_操处女逼小说_男人操女人视频免费看_毛片无遮挡高清免费 | 亚洲中文无码永久免费_www私房写真在线观看_伊人无码一区二区三区_欧美精品在欧美一区二区_久久接色_欧美日韩精品一区_亚洲日本VA午夜在线影院_无码自拍一区 | 完全着衣の爆乳お姉さんが_av影视在线播放_奇米国产在线_亚洲女人在线观看_超碰9在线_狠狠综合久久久久综合_成人av专区精品无码国产_亚洲日韩亚洲另类激情文学一 | 狠狠综合久久av一区二区小说_久久只精品99品免费久23_亚洲在线色_免费日韩av_日产日韩在线亚洲欧美_亚洲AV无码一区东京热不卡_欧美拍拍视频免费大全_久久久久久不卡 | 天天做爰天天爽_一二三区高清_久久精品国产一区二区三区不卡_免费无人区男男码卡二卡_年轻富婆私密推油到高潮_视频一区二区不卡_国产欧美呀洲一区二区_在线观看av永久免费 | 在线观看免费av网址大全_天天色天天看_裸体无码内射性性色AV_人牛交VIDE欧美XXXX_日韩在线黄色片_边做边流奶水的人妻_91人人精品_激情白浆 | 欧美日韩精品视频一区二区在_欧美一级片网站_大地资源影院在线播放_亚洲bbw性色大片_小伙和少妇干柴烈火_少妇厨房愉情理伦片BD在线观看_精品一区二区三区日韩_91日日日 | 欧洲成人午夜精品无码区久久_亚洲高清国产拍精品动图_深夜免费福利_欧美日产一区二区三区在线观看_一二三区免费视频_成人久久一区_国产高中美女福利剧情简介_2018天天操天天干 | 东凛mdyd950在线播放_亚洲中文无码卡通动漫3D_97国产精品人妻无码免费_欧美精品激情在线_国产精品久久久久77777丨_亚洲成在人线AV无码_日本免费看黄色_国产亚洲精品麻豆一区二区 | 欧美精品激情_西出玉门40集全免费播放_国产性猛交粗暴力xxxx_av爱爱com_在线不卡免费av_国产精品揄拍100视频_精品亚洲国产专区在线观看_人成精品 | 成人美女视频免费_欧美色欧美亚洲高清在线观看_性视频网站入口_网站国产_日韩高清一区_亚洲素人av_无码高潮又爽又黄A片软件_人人妻人人澡人人爽国产 | 国产白浆二区二区精品视频_一区二区三区片_国产伦精品一区二区三区网站_吃奶呻吟打开双腿做受在线视频_免费在线观看成人_裸体午夜一级视频_欧美日韩成人一区二区_亚洲tv影院 | av不卡免费观看_99久久免费看精品国产一区非洲_久久精品激情_老人内射视频代码免费视频_色视频在线免费_国产成人精_亚洲久久成人_欧美一区免费在线观看 | 久久久久久国产精品免费_国产69精品久久久久乱码韩国_jizz国产免费观看_国内一级黄色大片_爱爱久久_日本激情网_超碰人人在线_51午夜精品视频 狼群社区WWW在线中文_精品国偷自产在线视频_人妻被中出不敢呻吟A片视频_99久久精品国产网站_九九在线视频_国产h片在线观看_国产美女被遭强高潮免费_欧洲vodafone精品性 | 久久午夜神器_理论片麻豆_国产成人精品日本亚洲一区_视频在线观看h_日本视频一区二区不卡_97人妻免费碰视频碰免_国产一级淫片一三区_韩国黄色一级毛片 | 久久一日本道色综合久久_国产日韩精品SUV_a级黄色录像片_久久久久亚洲精品乱码按摩_国产jizzz_亚洲乱码一区二区三区四区_日韩一区二区三免费高清在线观看_好硬啊进得太深了A片无码公司 | 亚洲欧美日韩天堂一区二区_骚老师av在线_久久日韩激情一区二区三区四区_日日干日日爽_久操av在线播放_国产高清狼人香蕉在线_日产福利视频在线观看_最近的中文字幕视频完整 | 99情趣网视频_欧美日韩久久精品_久久99精品久久久秒播软件优势_逼逼影视_女人被狂躁的高潮免费视频_亚洲欧洲日韩在线观看_国产xxxx69_亚洲国产精品一区二区第一页 | 国产一区二区四区在线观看_亚洲欧洲日产国无高清码图片_97国产精品欲_精品国产女主播在线观看_一级免费a一片_在线观看黄的网站_avtom影院永久地址_毛片免费网站 | 婷婷综合缴情亚洲狠狠小说_日韩三级一区二区三区_办公室强伦片免费看_国产亚洲精品自在久久蜜TV_男人又大又硬又粗视频_国产suv精品一区二人妻_亚洲aa视频_国产美女一区 | 亚洲av无码专区国产乱码4se_亚洲第一av网_91逼逼_中文无码精品视频在线看_日韩av爽爽爽久久久久久_国产精品人妻一区夜夜爱_在线日本看片免费人成视久网_欧美一区二区三区激情视频 | 97亚色_青草综合一区二区三区_国产二区视频在线播放_黄色一区二区在线观看_美女黄色一级视频_日本黄色免费片_曰本丰满熟妇XXXX性_精品国产成人av | 无码熟妇人妻AV在线网站_美女视频免费是黄的网站高清_91av国产在线视频_亚洲成色在线综合网站_久久久天堂_日产精品一卡2卡三卡四乱码_一区二区三区无码按摩精油_超碰色偷偷男人的天堂 | 超碰碰97_亚洲AV无码乱码国产一区二区_手机在线看片福利_狠狠婷婷综合_欧美精品一区二区三区手机在线_国产老熟女久久久_美国人成人在线视频_欧美四级在线观看 | 国产精品无码久久av嫩草_亚洲国产精品无码专区影院_乱中年女人伦视频国产_91久久精品亚洲中文字幕无码_欧美日韩色_日韩精品手机在线_我要看免费的黄色片_国产91在线精品 | 女人牲交视频一级毛片_免费成人高清视频_精品国产一区二区三区四区在线_欧美人做人爱a全程免费_99re6国产露脸精品视频网站_67194熟妇在线直接进入_精品国产乱码久久久久久郑州公司_麻豆社区 | 国产成人无遮挡在线视频_在线观看亚洲欧美视频免费_3d动漫精品久久一区二区_亚洲国产成人精_日韩一级黄色录像_久久男人av资源网站无码_孕妇奶水仑乱A级毛片在线播放_欧美视频在线观看免费 | 色肉色伦交av色肉色伦_成人在线三级_超碰五月天_亚洲精品在线91_日产日韩亚洲欧美综合_西西4444WWW大胆无码_国产大BBWBBWHD视频_久艹精品 | 中文日韩在线视频_无码毛片一级高潮免费视频_毛片黄片_国产成人在线网址_国产特级全黄一级毛片_免费观看在线毛片_人人妻人人澡人人爽超污_日韩欧美国产系列 | 人人人爽人人爽人人AV_欧美大黑BBBBBBBBB_亚洲国产成人久久一区www妖精_男人添女人下部高潮视频_99久久久久久中文字幕一区_国产精品毛片a∨一区二区三区_久久国产激情_亚洲最色网 | 91精品国产色综合久久不卡98最新章节_国产精品久草_亚洲不卡av一区二区三区_国产欧美日韩精品一区二区三区_妺妺窝人体色WWW网_九九九视频在线观看_亚洲国产婷婷综合在线精品_亚洲综合熟女久久久30p | 天天躁日日躁狠狠的躁天龙影院_日韩网站在线观看_成年人视频在线看_国产乱码精品一区二区三区麻豆_久久九九国产精品_一本一道AV无码中文字幕﹣百度_99热这里只有精品4_嫩草91在线 | 国产成人在线播放免费视频_99免费在线观看视频_国产精品白浆在线观看无码专区_曰本不卡视频_国产91网站在线观看_精品国产黄_久久一二三四_japanese乱子xxxx | 日本v视频_国产97视频_操女生免费视频_性做久久久久久免费观看_国产在线视频91_成人免费毛片一_久久国产亚洲精品_欧美性猛交xxxx乱大交蜜桃 | 性色a∨人人爽网站_涩涩av_男女在一起拔萝卜免费视频大全_老司机亚洲精品影院无码_超碰人人香蕉_亚洲国产黄色片_911精品美国片911久久久_热久久久久香蕉无品码 | 国产一级视频在线_第一福利所导航_国产成人a片免费观看_亚洲综合图片区色_人人看超碰_亚洲在线网站_亚洲三区四区_性猛交xxxx乱大交3 | 日本一级a毛片免费观看_69av导航_久久夜色精品国产噜噜亚洲AV_精品成人A区在线观看_gogogo免费高清在线_免费午夜影片_综合激情久久综合激情_黄页在线观看免费 | 国产亚洲成人网_国产三级在线观看_人成在线免费网站_亚洲国产成av人天堂无码_97在线视频免费看_久久久69_亚洲激情成人网_国色天香乱码区 | 毛片免费视频在线观看_69久久久久久_少妇CHINA中国人妻VIDEO_国产精品国产自产拍高清_在公车上拨开内裤进入毛片_瑟瑟综合网_成人影院在线视频_国产精华最好的产品入口 | 小老弟av影院_2023国产亚洲精品色爽无码_香蕉久久一区二区不卡无毒影院_中国GAY片男同志免费网站_国产亚洲精品女人久久久久久_国产做a爱一及毛片久久_日韩网站一区二区_久久精品无码观看TV | 国产麻豆一区二区三区在线观看_久久精品国产首页027007_亚洲国产精品自产在线播放_免费精品国偷自产在线青年_日韩无马砖区芒果_美女全黄视频_国产精品自在线_蜜臀久久99精品久久久久久 |