今天小探采訪的這家硅谷創(chuàng)業(yè)公司 DxChain,想用區(qū)塊鏈+大數(shù)據(jù)解決上面提到的問題。具體如何解決?這還要聽 DxChain 的兩位共同創(chuàng)始人,Wei 和 Allan 給小探細(xì)細(xì)解釋。
你的數(shù)據(jù)是 “絕對隱私”,還是 “相對開放”?
Wei 產(chǎn)生合伙創(chuàng)辦 DxChain 的想法,和他的工作經(jīng)歷分不開:創(chuàng)辦 DxChain 之前,Wei 在 AT&T 做區(qū)塊鏈研究,再之前在 Hortonworks 做大數(shù)據(jù)。
那時(shí) Wei 就發(fā)現(xiàn),他們的很多客戶 —— 比如沃爾瑪、Sears 等零售商店 —— 有很多數(shù)據(jù),但它們不知道如何從數(shù)據(jù)里發(fā)現(xiàn)有價(jià)值的信息,比如賣什么樣的商品最賺錢、如何對不同的人推銷不同的商品等。
這就涉及到了數(shù)據(jù)的收集、清理以及計(jì)算和分析一整套流程,對于大多數(shù)企業(yè)來說,這是一筆不小的負(fù)擔(dān)。因此,建立在價(jià)格低廉的情況下提供這一整套服務(wù)的平臺,毫無疑問是有前途的,而區(qū)塊鏈技術(shù)的出現(xiàn),提供了一個(gè)杠桿支點(diǎn)。
而 DxChain 正是要用區(qū)塊鏈去建立這一整套數(shù)據(jù)收集、挖掘、分析和得出有用商業(yè)結(jié)論的平臺,而這個(gè)背后的核心是區(qū)塊鏈上的存儲和計(jì)算。
Wei 告訴小探,這也是為什么 DxChain 給自己取了這個(gè)名字:D 是英文里 “數(shù)據(jù)(Data)” 的第一個(gè)字母,x 是乘法,DxChain 把數(shù)據(jù)和區(qū)塊鏈技術(shù)結(jié)合,從而放大數(shù)據(jù)的價(jià)值。
如果說發(fā)掘數(shù)據(jù)價(jià)值分為 “數(shù)據(jù)收集、清理、分析、出結(jié)論” 四步,第一步 “收集數(shù)據(jù)” 就面臨著隱私問題。
數(shù)據(jù)隱私問題在美國已經(jīng)發(fā)生了嚴(yán)峻 的事故:從美國 Facebook上周股價(jià)大跌20%,仍然是對年初爆發(fā)出的隱私問題的反彈。
目前隱私問題的現(xiàn)狀是所有數(shù)據(jù)在互聯(lián)網(wǎng)大公司的黑盒子里,至于這些數(shù)據(jù)到底被誰用了、到底怎么用,我們兩眼一抹黑什么也不知道。這種感覺當(dāng)然不太好,那如果我們走到另一個(gè)極端,用 “誰也不許看、誰也不知道” 的辦法保護(hù)我們的數(shù)據(jù),行不行得通呢?
我們以美國醫(yī)療領(lǐng)域?yàn)槔C绹t(yī)療領(lǐng)域有條《醫(yī)療電子交換法案》(簡稱為 HIPAA),它很強(qiáng)調(diào)對每位病人醫(yī)療數(shù)據(jù)的保護(hù)。一位病人的具體情況、醫(yī)療檔案,在這條法案的保護(hù)下,只有其就診醫(yī)院和保險(xiǎn)公司能看到,其他人誰都看不到。
保護(hù)個(gè)人醫(yī)療隱私當(dāng)然十分重要,如果科研機(jī)構(gòu)想利用這些數(shù)據(jù)開發(fā)新藥,就會被這 “銅墻鐵壁” 碰一鼻子灰,除非該機(jī)構(gòu)得到你的、和參與這項(xiàng)研究每一位患者的書面同意。
而一個(gè)重要的問題是,從數(shù)據(jù)角度來說,單個(gè)患者信息并不具備價(jià)值,患者信息的匯合才有價(jià)值。有沒有一個(gè)平臺,在經(jīng)過患者同意后,在保護(hù)患者隱私的情況下,讓患者能夠把數(shù)據(jù)分享出去,而且這個(gè)平臺能夠匯合成千上萬地患者,讓數(shù)據(jù)聚集起來,具有研究價(jià)值?
DxChain 希望利用區(qū)塊鏈的去中心化和不變性,保護(hù)用戶隱私,讓用戶能夠在知情的情況下,放心地分享自己數(shù)據(jù)的同時(shí),能夠獲得收益,而機(jī)構(gòu)通過這些平臺獲得大量用戶數(shù)據(jù)而突破研究瓶頸。
區(qū)塊鏈上的數(shù)據(jù)隱私保護(hù),業(yè)界采納了許多種做法,比如同態(tài)加密(Homomorphic encryption)、多方計(jì)算(Multi-Party Computation)等,都是通過計(jì)算去加密保護(hù)隱私,目前常見的還有 SGX,這是通過硬件去加密。
DxChain 采納的是一種更實(shí)際的解決方案——對關(guān)鍵數(shù)據(jù)信息加密,從而做到隱私保護(hù),而這個(gè)背后是對數(shù)據(jù)強(qiáng)大的計(jì)算能力,“由于我們能夠做到對數(shù)據(jù)細(xì)密度的操作,數(shù)據(jù)入鏈時(shí)都是有結(jié)構(gòu)的,比如數(shù)據(jù)形成一個(gè)表格,有一列是人的姓名,我們就對人名這一列關(guān)鍵信息加密,但是其他的信息公開,不是把整個(gè)文件都加密,這種叫做數(shù)據(jù)模型支持的數(shù)據(jù)加密”,Wei介紹說。
數(shù)據(jù)收集:打破數(shù)據(jù)壟斷
解決數(shù)據(jù)加密問題,就是讓分享數(shù)據(jù)的用戶沒有了“隱私”的后顧之憂,而區(qū)塊鏈很可能是一個(gè)撬動數(shù)據(jù)所有權(quán)革命的杠桿。
一個(gè)不爭的事實(shí)是,目前大部分?jǐn)?shù)據(jù)都被互聯(lián)網(wǎng)巨頭谷歌、臉書壟斷,這些巨頭獲得用戶數(shù)據(jù)之后,用這些數(shù)據(jù)盈利,但這有著不合理之處,舉個(gè)例子就知道了:
美國的空調(diào)系統(tǒng)非常復(fù)雜,維修昂貴且耗時(shí),光是預(yù)約就動輒要等十天半個(gè)月,如果消費(fèi)者空調(diào)壞了,要找家居電器店、百貨商場,哪兒買的找哪兒維修,而不是像國內(nèi)那樣找廠商,而且這都是要付費(fèi)的。
目前的做法是,空調(diào)生產(chǎn)商收集用戶家里空調(diào)的溫度,提前發(fā)現(xiàn)有可能壞的空調(diào),然后他們把這個(gè)信息賣給家居電器店、百貨商場等負(fù)責(zé)空調(diào)維修的機(jī)構(gòu),后者再根據(jù)這個(gè)信息給消費(fèi)者有針對性、有選擇性地打電話,不少消費(fèi)者就會說,“哎呀真巧!我的空調(diào)還真的有點(diǎn)問題!”
這個(gè)模式當(dāng)然 很好,但如果你仔細(xì)一想,就會覺得有點(diǎn)奇怪:數(shù)據(jù)是通過收集消費(fèi)者信息得來的,但最后買單的還是消費(fèi)者。難道消費(fèi)者的信息就這么被無償使用了嗎?
在 DxChain 的設(shè)想下,未來消費(fèi)者將可以選擇把自己的信息放到鏈上。如果有第三方需要以這個(gè)信息為原材料進(jìn)行分析 —— 不管是空調(diào)制造商還是氣候研究機(jī)構(gòu) —— 都可以向數(shù)據(jù)產(chǎn)生者(在這個(gè)例子里,即家里裝有空調(diào)的人)有償購買。用這種方式,消費(fèi)者能夠通過分享自己產(chǎn)生數(shù)據(jù)而獲利。
我們再說剛才提到的 DxChain 運(yùn)用在醫(yī)療領(lǐng)域的例子。
在醫(yī)療領(lǐng)域,感冒、發(fā)燒這種常見病不缺信息,因此也有很多對應(yīng)藥品。但對于罕見病患者就沒那么幸運(yùn)了:信息的零散和缺失給藥品研發(fā)增加了難度。由于拿不到個(gè)人信息,藥品研發(fā)機(jī)構(gòu)只好和醫(yī)院、和大學(xué)簽合同、收集信息,過程曲折漫長、耽誤患者治療。
但是,如果有個(gè)平臺能讓患者把自己生病的情況放在上邊,藥品研發(fā)機(jī)構(gòu)就可以直接購買這個(gè)信息,患者的病被治好的希望也就多了一分,患者如果能夠通過平臺售賣數(shù)據(jù)而獲益,幫助他們籌集到更多經(jīng)費(fèi)治病,在美國目前昂貴的醫(yī)療條件下,是非常有意義的。
DxChain 就想成為這個(gè)平臺。
存儲和計(jì)算,一個(gè)都不能少
想成為這個(gè)平臺,背后核心問題需要解決區(qū)塊鏈上的數(shù)據(jù)的存儲和計(jì)算這兩大問題。
DxChain 是一個(gè)去中心化的大數(shù)據(jù)存儲和計(jì)算網(wǎng)絡(luò),是一個(gè)將區(qū)塊鏈的去中心化特性運(yùn)用到存儲和計(jì)算領(lǐng)域的開放性公鏈。
目前區(qū)塊鏈?zhǔn)澜缋?,存儲和?jì)算是怎么做的呢?
先說存儲。
我們都知道,比特幣和以太坊的計(jì)算和數(shù)據(jù)存儲功能都非常有限,但區(qū)塊鏈領(lǐng)域進(jìn)展迅速,不久后就有了 IPFS,即 “去中心化的、分布式的文件存儲系統(tǒng)”。
但 IPFS 是個(gè)沒有鏈的文件系統(tǒng),缺乏激勵(lì)機(jī)制,也就是說大家提供信息完全看人品、看心情。 IPFS 有點(diǎn)像區(qū)塊鏈版的 “種子”(BitTorrent)。大家誰都想要種子,但誰都不想做種子。做種子既需要帶寬、又需要硬盤,除了得到一聲 “樓主好人一生平安”,又有什么其他的激勵(lì)呢?
因此有人說:那就給 IPFS 加上區(qū)塊鏈,不就有了激勵(lì)機(jī)制了?Filecoin 因此誕生,但目前 Filecoin 進(jìn)展比較緩慢、尚未落地。
說完存儲,再說計(jì)算。
區(qū)塊鏈項(xiàng)目 Dfinity 就是想解決區(qū)塊鏈的計(jì)算問題。Dfinity 是無限擴(kuò)容的智能分布式云計(jì)算系統(tǒng)和第三代區(qū)塊鏈,并且高度兼容以太坊現(xiàn)有應(yīng)用,潛力很大且令人期待,但 Dfinity 沒有能夠解決數(shù)據(jù)從何而來的問題。
而 DxChain 認(rèn)為存儲和計(jì)算不能分家,因此 DxChain 想結(jié)合兩者、數(shù)據(jù)為主 —— 當(dāng)然,這并不是說 “把 Dfinity 和 Filecoin” 攢在一起就能解決問題那么簡單,區(qū)塊鏈又做存儲又做計(jì)算,是一個(gè)極大的挑戰(zhàn),這需要從系統(tǒng)底層做革新。
DxChain 認(rèn)為單靠一條主鏈,很難同時(shí)滿足數(shù)據(jù)的存儲、計(jì)算和隱私需求。因此,DxChain 借鑒了閃電網(wǎng)絡(luò)多條鏈的思路,添加了存儲鏈、計(jì)算鏈兩條側(cè)鏈,讓主鏈只負(fù)責(zé)運(yùn)行智能合約,治理 存儲和計(jì)算側(cè)鏈,而兩條側(cè)鏈各司其職,分別負(fù)責(zé)存儲和計(jì)算,DxChain 把這個(gè)系統(tǒng)架構(gòu)稱做“三鏈合一”。
除此之外,DxChain 借鑒了 Hadoop 的思路。
過去十多年,Hadoop 解決了一個(gè)機(jī)構(gòu)、公司內(nèi)部的數(shù)據(jù)分布式存儲的問題,但如何在不同機(jī)構(gòu)和參與者之間達(dá)成信任,從而實(shí)現(xiàn)分布式存儲,Hadoop 解決不了,但區(qū)塊鏈則提供了完美的解決方案。
因此,DxChain 將 Hadoop 的技術(shù)優(yōu)點(diǎn)與區(qū)塊鏈特有的機(jī)制結(jié)合起來,解決中心環(huán)境下的分布式存儲和計(jì)算的問題,DxChain 希望能通過這種方式讓數(shù)據(jù)的處理更方便、更高效。
從技術(shù)細(xì)節(jié)的角度來看,DxChain 有三大創(chuàng)新之處:
● 計(jì)算框架下的共識機(jī)制采納了 “Verification game + Provable Data Computation(PDC)”的機(jī)制,其中Verification game保證了計(jì)算過程的可驗(yàn)證性,而PDC則保證了計(jì)算結(jié)果的可驗(yàn)證性;
● DxChain的數(shù)據(jù)存儲的共識機(jī)制采納了“Proof of Spacetime (PoSt) + Provable Data Possession(PDP)”的機(jī)制,用此來驗(yàn)證曠工連續(xù)地提供存儲;
● DxChain的數(shù)據(jù)模型是建立在存儲之上的,并給數(shù)據(jù)以定義,數(shù)據(jù)也就變成了有價(jià)值的知識,數(shù)據(jù)計(jì)算也變得方便起來,另外數(shù)據(jù)模型還幫助實(shí)現(xiàn)基于數(shù)據(jù)模型的加密和differential-privacy的兩種隱私防護(hù)機(jī)制。
下一站:價(jià)值互聯(lián)網(wǎng)
DxChain 希望能夠提供一個(gè)平臺:在設(shè)計(jì)上,這個(gè)平臺由無數(shù)的個(gè)人電腦或者是特別 設(shè)計(jì)過的礦機(jī)連接在一起組成,這樣的設(shè)計(jì)能夠?qū)崿F(xiàn)存儲和計(jì)算的低成本;同時(shí),這樣的設(shè)計(jì)能夠保證海量數(shù)據(jù)不被某一個(gè)大公司所獨(dú)占,保證價(jià)值上的公平分配。
在這個(gè) “數(shù)據(jù)市場” 上,數(shù)據(jù)的買賣雙方可以到這里各取所需。和傳統(tǒng)意義上的市場一樣,在數(shù)據(jù)市場里,不同信息也會有不同的價(jià)格,而且同樣產(chǎn)品(即數(shù)據(jù))的價(jià)格也會隨著時(shí)間波動。比如,年終歲末采購季時(shí),和購物習(xí)慣相關(guān)的數(shù)據(jù)就會價(jià)格上漲。
用 DxChain 共同創(chuàng)始人之一 Allan Zhang 的話來說,DxChain 的終極目標(biāo)是變成一臺 “數(shù)據(jù)工廠”,這個(gè)數(shù)據(jù)工廠的原材料是我們生活中產(chǎn)生的各種各樣的數(shù)據(jù),DxChain 的存儲功能就是倉庫,計(jì)算功能就是加工車間,通過存儲和計(jì)算、再把這些信息放到 “鏈” 這個(gè)平臺上,DxChain 把這些無序的、雜亂的數(shù)據(jù)加工提純成清楚 的、有價(jià)值的信息,把現(xiàn)在這個(gè)既有噪音、也有信號的互聯(lián)網(wǎng)變成未來的價(jià)值互聯(lián)網(wǎng)。
價(jià)值互聯(lián)網(wǎng)是一個(gè)美麗新世界,但這個(gè)背后是對區(qū)塊鏈存儲和計(jì)算的攻堅(jiān),并不容易,但讓人期待。