首頁慕課課程正文(wen)

快3彩票源代码

  現如今,我(wo)們身邊很多(duo)人對一些熱門nuo)男錄際酢 慮qu)勢往往趨(qu)之若鶩卻又很難(nan)說得透徹(che),比如大(da)數(shu)據(ju),如果(guo)被問大(da)數(shu)據(ju)和你有什麼關系,估(gu)計很少(shao)能說出一二三來chu)>科湓 潁 皇且(qie)蛭wei)大(da)家對yun)錄際跤凶zhou)相(xiang)同的原始渴求,至少(shao)知其然,在聊天時不會(hui)顯得mei)塴巴簾睢保歡竊詮?骱蛻sheng)活環(huan)境chi)校 嬲懿斡朧導拇da)數(shu)據(ju)案例實在太(tai)少(shao)了,所(suo)以(yi)大(da)家沒有機會(hui)花時間去知其所(suo)以(yi)然。

  我(wo)希望有xing)┌灰謊 suo)以(yi)yuan)願萌綰穩?鮮(xian)洞da)數(shu)據(ju)進行(xing)了一huan) 妓suo),包括(kuo)查(cha)閱了資料,翻閱了最新的專(zhuan)業書籍(ji),但我(wo)並不想把那qie)├閔 淖柿縴櫧pian)或不同理解論(lun)述簡單規整(zheng)並堆積起來形(xing)成毫無價值的轉述或評(ping)論(lun),我(wo)很真誠的希望進入事物探(tan)尋(xun)本質。

  如果(guo)你說大(da)數(shu)據(ju)就是數(shu)據(ju)大(da),或者侃(kan)侃(kan)而(er)談4個V,也(ye)許很有深度的談到BI或預測的價值,又或者拿Google和Amazon舉例,技術流可能會(hui)聊起Hadoop和Cloud Computing,不管對錯,只是無法勾勒對大(da)數(shu)據(ju)的整(zheng)體(ti)認xian)叮 凰凳瞧pian)面,但至少(shao)有xing)└芸kui)蠡測、隔衣瘙癢了。……也(ye)許,“解構”bi)親詈玫姆椒 /p>

  怎樣結構大(da)數(shu)據(ju)?

  首先,我(wo)認為(wei)大(da)數(shu)據(ju)就是互聯網(wang)發展到現今階(jie)段的一種(zhong)表象(xiang)或特征而(er)已,沒有必要神(shen)話它(ta)或對它(ta)保持(chi)敬ci)分 模 諞yi)雲計算(suan)為(wei)代表的技術創新大(da)幕(mu)的襯托下,這(zhe)些原本很難(nan)收集和使用(yong)的數(shu)據(ju)開始容易被利用(yong)起來了,通過各行(xing)各業的不斷創新,大(da)數(shu)據(ju)會(hui)逐步為(wei)人類創造更(geng)多(duo)的價值。

  其次(ci),想要系統(tong)的認知大(da)數(shu)據(ju),必須要全面而(er)細致的分解它(ta),我(wo)著(zhou)手從三個層面來展開︰

  第一層面是理論(lun),理論(lun)是認知的必經途徑,也(ye)是被廣泛認同和傳播的mu)摺Nwo)會(hui)從大(da)數(shu)據(ju)的特征定義理解行(xing)業對大(da)數(shu)據(ju)的整(zheng)體(ti)描繪和定性;從對大(da)數(shu)據(ju)價值的探(tan)討來深入解析大(da)數(shu)據(ju)的珍貴所(suo)在;從對大(da)數(shu)據(ju)的現在和未來去洞悉大(da)數(shu)據(ju)的發展趨(qu)勢;從大(da)數(shu)據(ju)隱(yin)私這(zhe)個特別而(er)重要的視角審視人和數(shu)據(ju)之間的長久(jiu)博(bo)弈。

  第二層面是技術,技術是大(da)數(shu)據(ju)價值體(ti)現的手段和前進的mu) Nwo)將分別從雲計算(suan)、分布式(shi)處(chu)理技術、存(cun)儲技術和感(gan)知技術的發展gu)此得鞔da)數(shu)據(ju)從采(cai)集、處(chu)理、存(cun)儲到jiao)xing)成shan) guo)的整(zheng)個過程。

  第三層面是實踐,實踐是大(da)數(shu)據(ju)的最終價值體(ti)現。我(wo)將分別從互聯網(wang)的大(da)數(shu)據(ju),政府的大(da)數(shu)據(ju),企業的大(da)數(shu)據(ju)和個人的大(da)數(shu)據(ju)四個方面來描繪大(da)數(shu)據(ju)已經展現的美好景象(xiang)及即將實現的藍圖。

  和大(da)數(shu)據(ju)相(xiang)關的理論(lun)

   特征定義

  最早提出大(da)數(shu)據(ju)時代到來的是麥肯錫︰“數(shu)據(ju),已經滲(shen)透到當今每一個行(xing)業和業務(wu)職能領(ling)域(yu),成為(wei)重要的生(sheng)產因素。人們qian)雜諍A渴shu)據(ju)的挖掘和運用(yong),預示著(zhou)新一波(bo)生(sheng)產率增長和消費者盈余浪潮的到來chu)!/p>

  業界(IBM 最早定義)將大(da)數(shu)據(ju)的特征歸納為(wei)4個“V”(量Volume,多(duo)樣Variety,價值Value,速(su)Velocity),或者說特點有四個層面︰第一,數(shu)據(ju)體(ti)量巨大(da)。大(da)數(shu)據(ju)的起始計量單位至少(shao)是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數(shu)據(ju)類型繁多(duo)。比如,網(wang)絡(luo)日志、視頻、圖片(pian)、地理位置信息等等。第三,價值密(mi)度低ting) 桃導壑蹈摺5謁模 chu)理速(su)度快(kuai)。最後這(zhe)一點也(ye)是和傳統(tong)的數(shu)據(ju)挖掘技術有著(zhou)本質的不同。

  其實這(zhe)些V並不能真正說清(qing)楚大(da)數(shu)據(ju)的nai)suo)有特征,下面這(zhe)張圖ji)源da)數(shu)據(ju)的一些相(xiang)關特性做(zuo)出了有xing)?乃(nai)得鰲/p>

  古語雲︰三分技術,七分數(shu)據(ju),得數(shu)據(ju)者得天下。先不論(lun)誰說的,但是這(zhe)句話的正確性已經不用(yong)去論(lun)證了。維克song)小?醵舍恩(en)伯(bo)格在《大(da)數(shu)據(ju)時代》一書中舉了百般例證,都是為(wei)了說明一個道lan)恚涸詿da)數(shu)據(ju)時代已經到來的時候要用(yong)大(da)數(shu)據(ju)思維去發掘大(da)數(shu)據(ju)的潛在價值。書中,作者提及最多(duo)的是Google如何利用(yong)人們的nai)閹suo)記錄挖掘數(shu)據(ju)二次(ci)利用(yong)價值,比如預測某地流感(gan)爆(bao)發的趨(qu)勢;Amazon如何利用(yong)用(yong)戶(hu)的購買和瀏覽(lan)歷(li)史數(shu)據(ju)進行(xing)有針對yun)緣氖榧ji)購買推薦,以(yi)此有xing) 嶸xiao)售量;Farecast如何利用(yong)過去十年(nian)所(suo)有的航線機票價格打折數(shu)據(ju),來預測用(yong)戶(hu)購買機票的時機是否合xian)省/p>

  那麼,什麼是大(da)數(shu)據(ju)思維?維克song)小?醵舍恩(en)伯(bo)格認為(wei),1-需要全部數(shu)據(ju)樣本而(er)不是抽樣;2-關注效率而(er)不是精(jing)確度;3-關注相(xiang)關性yuan)皇且(qie)蜆guo)關系。

  阿(a)里巴巴的王堅(jian)對于大(da)數(shu)據(ju)也(ye)有一些獨特的見(jian)解,比如,

  “今天的數(shu)據(ju)不是大(da),真正有意(yi)思的是數(shu)據(ju)變得在線了,這(zhe)個恰恰是互聯網(wang)的特點。”

  “非(fei)互聯網(wang)時期(qi)的產品,功能一定是它(ta)的價值,今天互聯網(wang)的產品,數(shu)據(ju)一定是它(ta)的價值。”

  “你千萬不要想著(zhou)拿數(shu)據(ju)去改進一個業務(wu),這(zhe)不是大(da)數(shu)據(ju)。你一定是去做(zuo)了一件以(yi)前做(zuo)不了的事情。”

  特別是最後一點,我(wo)是非(fei)常(chang)認同的,大(da)數(shu)據(ju)的真正價值在于創造,在于填補無數(shu)個還未實現過的空(kong)白zhu)/p>

  有人把數(shu)據(ju)比喻為(wei)蘊藏(cang)能量的煤(mei)礦。煤(mei)炭(tan)按照(zhao)性zai)視薪姑mei)、無煙煤(mei)、肥煤(mei)、貧煤(mei)等分類,而(er)露天煤(mei)礦、深山(shan)煤(mei)礦的挖掘成本又不一樣。與此類似,大(da)數(shu)據(ju)並不在“大(da)”,而(er)在于“有用(yong)”。價值含量、挖掘成本比數(shu)量更(geng)為(wei)重要。

   價值探(tan)討

  大(da)數(shu)據(ju)是什麼?投資者眼里是qiang)鴯饃遼戀牧礁鱟鄭鶴什1熱紓acebook上(shang)xian)惺保 ping)估(gu)機構評(ping)定的有xing)?什寫da)部分都是其社(she)交網(wang)站(zhan)上(shang)的數(shu)據(ju)。

  如果(guo)把大(da)數(shu)據(ju)比作一種(zhong)產業,那麼這(zhe)種(zhong)產業實現盈利的關鍵,在于提高對數(shu)據(ju)的“加工能力”,通過“加工”bi)迪質shu)據(ju)的“增值”。

  Target 超市以(yi)20多(duo)種(zhong)懷(huai)孕(yun)期(qi)間孕(yun)婦可能會(hui)購買的商品為(wei)基礎(chu),將所(suo)有用(yong)戶(hu)的購買記錄作為(wei)數(shu)據(ju)來源,通過構建模型分析購買者的行(xing)xing)wei)相(xiang)關性,能準確的推斷出孕(yun)婦的具體(ti)臨(lin)盆時間,這(zhe)樣Target的銷(xiao)售部門就可以(yi)有針對的在每個懷(huai)孕(yun)顧客的不同階(jie)段寄(ji)nai)拖xiang)應(ying)的產品優惠(hui)卷(juan)。

  Target的例子是qie)桓齪艿湫偷陌咐 zhe)樣印證了維克song)小?醵舍恩(en)伯(bo)格提過的一個很有指(zhi)導意(yi)義的觀點︰通過找出一個關聯物並監控它(ta),就可以(yi)預測未來chu)arget通過監測購買者購買商品的時間和品種(zhong)來準確預測顧客的孕(yun)期(qi),這(zhe)就是qian)允shu)據(ju)的二次(ci)利用(yong)的典型案例。如果(guo),我(wo)們通過采(cai)集駕駛員bi)只PS數(shu)據(ju),就可以(yi)分析出當前哪(na)些道路(lu)正在堵車,並可以(yi)及時發布道路(lu)交通提醒(xing);通過采(cai)集汽車的GPS位置數(shu)據(ju),就可以(yi)分析城市的na)男├yu)停(ting)車較多(duo),這(zhe)也(ye)代表該區域(yu)有著(zhou)較為(wei)活躍的人群,這(zhe)些分析數(shu)據(ju)適合賣給廣告(gao)投dou)派獺/p>

  不管大(da)數(shu)據(ju)的核心價值是不是預測,但是基于大(da)數(shu)據(ju)形(xing)成決策的na)Jshi)已經為(wei)不少(shao)的企業帶來了盈利和聲譽。

  從大(da)數(shu)據(ju)的價值鏈條(tiao)來分析,存(cun)在三種(zhong)模式(shi)︰

  1- 手握大(da)數(shu)據(ju),但是沒有利用(yong)好;比較典型的是qiang)鶉rong)機構,電信行(xing)業,政府機構等。

  2- 沒有數(shu)據(ju),但是知道如何幫助有數(shu)據(ju)的人利用(yong)它(ta);比較典型的是IT咨詢(xun)和服務(wu)企業,比如,埃森(sen)哲,IBM,Oracle等。

  3- 既有數(shu)據(ju),又有大(da)數(shu)據(ju)思維;比較典型的是Google,Amazon,Mastercard等。

  未來在大(da)數(shu)據(ju)領(ling)域(yu)最具有價值的是兩種(zhong)事物︰1-擁有大(da)數(shu)據(ju)思維的人,這(zhe)種(zhong)人可以(yi)將大(da)數(shu)據(ju)的潛在價值轉化為(wei)實際利益;2-還未有被大(da)數(shu)據(ju)觸及過的業務(wu)領(ling)域(yu)。這(zhe)些是還未被挖掘的油(you)井,金礦,是所(suo)謂的藍海。

  Wal-Mart作為(wei)零售行(xing)業的巨頭,他們的分析人員會(hui)對每個階(jie)段的銷(xiao)售記錄進行(xing)了全面的分析,有一次(ci)他們無意(yi)中發現雖不相(xiang)關但很有價值的數(shu)據(ju),在美國的颶風來臨(lin)季節(jie),超市的蛋撻和抵御颶風物品竟然銷(xiao)量都有大(da)幅增加,于是他們做(zuo)了一個明智決策,就是qiang) 疤 南xiao)售位置移(yi)到了颶風物品銷(xiao)售區域(yu)旁(pang)邊,看起來是為(wei)了方便用(yong)戶(hu)挑選,但是沒有想到蛋撻的銷(xiao)量因此又提高了很多(duo)。

  還有一個有趣的例子,1948年(nian)遼沈戰役期(qi)間,司令(ling)員林彪要求每天要進行(xing)例常(chang)的“每日zhan)榛惚 保 you)值班參wen)倍du)出下屬各個縱隊、師、團(tuan)用(yong)電台報告(gao)的當日zhao)嬌齪徒苫袂榭觥D羌負(fu)跏侵馗醋zhou)千篇(pian)一律枯燥無味的數(shu)據(ju)︰每支部隊殲敵多(duo)少(shao)、俘虜(lu)多(duo)少(shao);繳獲的mu)   盜徑duo)少(shao),槍支、物資多(duo)少(shao)……有一天,參wen)閉zhao)例匯報當日的戰況,林彪突然打斷他︰“剛才念的在胡家窩ya)錟歉穌蕉dou)的繳獲,你們听到了嗎?”大(da)家都ji) H唬 蛭wei)如此戰斗(dou)fang)刻於加屑甘 穡 歡際遣畈歡duo)一模一樣的枯燥數(shu)字嗎?林彪掃視you)恢埽 jian)無人回答,便接(jie)連問了三句︰“為(wei)什麼那里繳獲的短槍與長槍的比例比rao)淥ta)戰斗(dou)略高?”“為(wei)什麼那里繳獲和擊(ji)毀的小車與大(da)車的比例比rao)淥ta)戰斗(dou)略高?”“為(wei)什麼在那里俘虜(lu)和擊(ji)斃的軍官與士兵(bing)的比例比rao)淥ta)戰斗(dou)略高?”林彪司令(ling)員大(da)步jie)呦蜆衣yong)地圖的牆(qiang)壁,指(zhi)著(zhou)nuo)贗忌shang)的na)歉齙闥擔骸拔wo)猜(cai)想,不,我(wo)斷定!敵人的指(zhi)揮所(suo)就在這(zhe)里!”果(guo)然,部隊很快(kuai)就抓(zhua)住(zhu)了敵方的指(zhi)揮官廖wo) 媯 ?〉謎zhe)場(chang)重要戰役的勝利。

  這(zhe)些例子真實的反映在各行(xing)各業,探(tan)求數(shu)據(ju)價值取決于把握數(shu)據(ju)的人,關鍵是人的數(shu)據(ju)思維;與其說是大(da)數(shu)據(ju)創造了價值,不如說是大(da)數(shu)據(ju)思維觸發了新的價值增長。

   現在和未來

  我(wo)們先看看大(da)數(shu)據(ju)在當下有怎樣的杰出表現︰

  大(da)數(shu)據(ju)幫助政府實現市場(chang)經濟調控、公共衛生(sheng)安(an)全防範、災(zai)難(nan)預警、社(she)會(hui)輿論(lun)監督;

  大(da)數(shu)據(ju)幫助城市預防犯罪,實現zhong)腔勱煌  嶸艏庇ying)急能力;

  大(da)數(shu)據(ju)幫助醫療(liao)機構建立患者的疾病(bing)風險(xian)跟蹤機制,幫助醫藥企業提升藥品的臨(lin)床使用(yong)效果(guo),幫助艾(ai)滋病(bing)研究機構為(wei)患者提供(gong)定制的藥物;

  大(da)數(shu)據(ju)幫助航空(kong)公司節(jie)省運營成本,幫助電信企業實現售後服務(wu)質量提升,幫助保險(xian)企業識別欺詐騙保行(xing)xing)wei),幫助快(kuai)遞公司監測分析運輸車輛的故(gu)障險(xian)情以(yi)提前預警維修,幫助電力公司有xing) 侗鷦? 唇 ?sheng)故(gu)障的設備;

  大(da)數(shu)據(ju)幫助電商公司向用(yong)戶(hu)推薦商品和服務(wu),幫助旅游網(wang)站(zhan)為(wei)旅游者提供(gong)心儀(yi)的旅游路(lu)線,幫助二手市場(chang)的買賣雙方找到jie)詈鮮(xian)實慕灰啄勘輳 鎦yong)戶(hu)找到jie)詈鮮(xian)實納唐飯郝蚴逼qi)、商家和最優惠(hui)價格;

  大(da)數(shu)據(ju)幫助企業提升營銷(xiao)的針對yun)裕 檔臀 骱涂獯cun)的成本,減(jian)少(shao)投資的風險(xian),以(yi)及幫助企業提升廣告(gao)投dou)啪jing)準ji)

  大(da)數(shu)據(ju)幫助娛樂行(xing)業預測歌手,歌曲,電影(ying),電視劇的受(shou)歡迎程度,並為(wei)投資者分析評(ping)估(gu)拍一部電影(ying)需要投入多(duo)少(shao)錢才最合xian)剩 裨蚓陀鋅贍蓯詹換爻殺

  大(da)數(shu)據(ju)幫助社(she)交網(wang)站(zhan)提供(gong)更(geng)準確的好友(you)推薦,為(wei)用(yong)戶(hu)提供(gong)更(geng)精(jing)準的企業招聘gan)畔  蠐yong)戶(hu)推薦可能喜歡的游戲以(yi)及適合購買的商品。

  其實,這(zhe)些還遠(yuan)遠(yuan)不夠,未來大(da)數(shu)據(ju)的身影(ying)應(ying)該無處(chu)不在,就算(suan)無法準確預測大(da)數(shu)據(ju)終會(hui)將人類社(she)會(hui)帶往到哪(na)種(zhong)最終形(xing)態(tai),但我(wo)相(xiang)信只要發展腳步在繼續,因大(da)數(shu)據(ju)而(er)產生(sheng)的變革(ge)浪潮將很快(kuai)淹沒地球的每一個角落。

  比如,Amazon的最終期(qi)望是︰“最成功的書籍(ji)推薦應(ying)該只有一本書,就是用(yong)戶(hu)要買的下一本書。”

  Google也(ye)希望當用(yong)戶(hu)在搜索(suo)時,最好的體(ti)驗(yan)是搜索(suo)結果(guo)只包含用(yong)戶(hu)所(suo)需要的na)諶藎 er)這(zhe)並不需要用(yong)戶(hu)給予Google太(tai)多(duo)的提示。

  而(er)當物聯網(wang)發展到達一定規模時,借助條(tiao)形(xing)碼(ma)、二維碼(ma)、RFID等能夠唯一標識產品,傳感(gan)器、可穿(chuan)戴設備、智能感(gan)知、視頻采(cai)集、增強現實等技術可實現實時的信息采(cai)集和分析,這(zhe)些數(shu)據(ju)能夠支撐智慧城市,智慧交通,智慧能源,智慧醫療(liao),智慧環(huan)保的理念需要,這(zhe)些都所(suo)謂的智慧將是大(da)數(shu)據(ju)的采(cai)集數(shu)據(ju)來源和服務(wu)範圍。

  未來的大(da)數(shu)據(ju)除了將更(geng)好的解決社(she)會(hui)問題,商業營銷(xiao)問題,科學(xue)技術問題,還有一個可預見(jian)的趨(qu)勢是qie)yi)人為(wei)本的大(da)數(shu)據(ju)方針。人才是地球的主宰,大(da)部分的數(shu)據(ju)都與人類有關,要通過大(da)數(shu)據(ju)解決人的問題。

  比如,建立個人的數(shu)據(ju)中xing)模  扛鋈說娜粘chang)生(sheng)活習慣,身體(ti)體(ti)征,社(she)會(hui)網(wang)絡(luo),知識能力,愛好性情,疾病(bing)嗜好,情緒波(bo)動……換言(yan)zai) 褪羌鍬既舜映鏨sheng)那qie)豢唐鸕拿懇環(huan)置懇幻耄  慫嘉 獾囊磺qie)都儲存(cun)下來,這(zhe)些數(shu)據(ju)可以(yi)被huai)浞值睦yong)︰

  醫療(liao)機構將實時的監測用(yong)戶(hu)的身體(ti)健康狀況;

  教育機構更(geng)有針對的制定用(yong)戶(hu)喜歡的教育培(pei)訓計劃;

  服務(wu)行(xing)業為(wei)用(yong)戶(hu)提供(gong)即時健康的符合用(yong)戶(hu)生(sheng)活習慣的食物和其它(ta)服務(wu);

  社(she)交網(wang)絡(luo)能為(wei)你提供(gong)合xian)實慕揮you)對象(xiang),並為(wei)志同道合的人群組織各種(zhong)聚會(hui)活動;

  政府能在用(yong)戶(hu)的心理健康出現問題時有xing)?母稍? 婪蹲zi)殺,刑事案件的發生(sheng);

  金融(rong)機構能幫助用(yong)戶(hu)進行(xing)有xing)?睦聿乒芾恚 wei)用(yong)戶(hu)的資shi)  gong)更(geng)有xing)?氖褂yong)建議和規劃;

  道路(lu)交通、汽車租賃及運輸行(xing)業可以(yi)為(wei)用(yong)戶(hu)提供(gong)更(geng)合xian)實某魴xing)線路(lu)和路(lu)途服務(wu)安(an)排;

  ……

  當然,上(shang)面的一切(qie)看起來都ji) 籃茫  欠袷且(qie)yi)犧牲了用(yong)戶(hu)的自(zi)由(you)為(wei)前提呢?只能說當新鮮(xian)事物帶來了革(ge)新的同時也(ye)同樣帶來了“an)bing)菌”。比如,在手機未普及前,大(da)家喜歡聚在一起聊天,自(zi)從手機普及後特別是有了互聯網(wang),大(da)家ye)揮yong)聚在一起也(ye)可以(yi)隨時隨地的聊天,只是“an)bing)菌”滋生(sheng)了si)磽庖恢zhong)情形(xing),大(da)家慢慢習慣了和手機共渡(du)時光,人與人之間情感(gan)交流仿(fang)lu)鷯澇yuan)隔著(zhou)一張“網(wang)”。

   大(da)數(shu)據(ju)隱(yin)私

  你或許並不敏感(gan),當你在不同的網(wang)站(zhan)上(shang)注冊了個人信息後,可能這(zhe)些信息已經被擴(kuo)散出去了,當你莫名其妙(miao)的接(jie)到各種(zhong)郵件,電話,短信nuo)淖倘攀保 悴換hui)想到jie)約ji)的電話號碼(ma),郵箱,生(sheng)日,購買記錄,收入水平,家庭(ting)住(zhu)址(zhi),親zhou)peng)好友(you)等私人信息早就被各種(zhong)商業機構非(fei)法存(cun)儲或賤賣給其它(ta)任何有xing)枰 鈉笠禱蚋鋈肆(si)恕/p>

  更(geng)可怕的是,這(zhe)些信息你永遠(yuan)無法刪除,它(ta)們永遠(yuan)存(cun)在于互聯網(wang)的na)承├悴恢 賴慕鍬洹3fei)你更(geng)換掉(diao)自(zi)己(ji)的nai)suo)有xing)畔   欽zhe)代價太(tai)大(da)了。

  用(yong)戶(hu)隱(yin)私問題一直bi)譴da)數(shu)據(ju)應(ying)用(yong)難(nan)以(yi)繞(rao)開的一個問題,如被央視曝光過的分zhong)諼尷摺 尬 稅資弦yi)及網(wang)易郵箱都涉及侵zhi)贛yong)戶(hu)隱(yin)私。目前,中國並沒有專(zhuan)門nuo)姆 煞  唇綞ㄓyong)戶(hu)隱(yin)私,處(chu)理相(xiang)關問題時多(duo)采(cai)用(yong)其他相(xiang)關法規條(tiao)例來解釋(shi)。但隨著(zhou)民眾隱(yin)私意(yi)識的日益增強,合法合規地獲取數(shu)據(ju)、分析數(shu)據(ju)和應(ying)用(yong)數(shu)據(ju),是qiang)xing)大(da)數(shu)據(ju)分析時必須遵循的原則。

  說到隱(yin)私被侵zhi)福  de)華斯(si)諾(nuo)登應(ying)該佔據(ju)一席之地,這(zhe)位前美國中xing)肭楸 CIA)雇(gu)員一手引爆(bao)了美國“稜鏡計劃”(PRISM)的na)諛mu)消息。“稜鏡”項目是qie)幌鈑you)美國國家安(an)全局(NSA)自(zi)2007年(nian)起開始實施的絕(jue)密(mi)電子監听計劃,年(nian)耗資shi)000億美元,用(yong)于監听全美電話通話記錄,據(ju)稱還可以(yi)使情報人員通過“後門”進入9家主要科技公司的服務(wu)器,包括(kuo)微軟、雅(ya)虎(hu)、谷歌、Facebook、PalTalk、美國在線、Skype、YouTube、隻果(guo)。這(zhe)個事件引發了人們qian)哉 褂yong)大(da)數(shu)據(ju)時對公民隱(yin)私侵zhi)傅牡P摹/p>

  再(zai)看看ci)頤巧?擼 蔽 bo),微信,QQ空(kong)間這(zhe)些社(she)交平台肆(si)意(yi)的吞噬著(zhou)數(shu)億用(yong)戶(hu)的各種(zhong)信息時,你就不要指(zhi)望你還有隱(yin)私權(quan)了,就算(suan)你在某個地方刪除了,但也(ye)許這(zhe)些信息已經被其他人轉載(zai)或保存(cun)了,更(geng)有可能已經被百度或Google存(cun)為(wei)快(kuai)照(zhao),早就提供(gong)給任wo)yi)用(yong)戶(hu)搜索(suo)了。

  因此在大(da)數(shu)據(ju)的背景下,很多(duo)人都在積極的抵zhong)莆薜紫叩氖shu)字化,這(zhe)種(zhong)大(da)數(shu)據(ju)和個體(ti)之間的博(bo)弈mu)夠hui)一直繼續下去……

  專(zhuan)家給予了我(wo)們qie)恍┤綰斡行(xing)?;hu)大(da)數(shu)據(ju)背景下隱(yin)私權(quan)的建議︰1-減(jian)少(shao)信息的數(shu)字化;2-隱(yin)私權(quan)立法;3-數(shu)字隱(yin)私權(quan)基礎(chu)設施(類似DRM數(shu)字版權(quan)管理);4-人類改變認知(接(jie)受(shou)忽(hu)略過去);5-創造良性的信息生(sheng)態(tai);6-語境化。

  但是這(zhe)些都ji)苣nan)立即見(jian)效或者有實質性的改善(shan)。

  比如,現在有一種(zhong)職業叫(jiao)刪帖人,專(zhuan)門負(fu)責(ze)幫人到各大(da)網(wang)站(zhan)刪帖,刪除評(ping)論(lun)。其實這(zhe)些人就是通過黑客技術侵入各大(da)網(wang)站(zhan),破獲管理員的密(mi)碼(ma)然後進行(xing)手工定向刪除。只不過他們保護(hu)的不是客戶(hu)的隱(yin)私,而(er)大(da)多(duo)是丑(chou)聞。還有一種(zhong)職業叫(jiao)人肉專(zhuan)家,他們負(fu)責(ze)從互聯網(wang)上(shang)xian)業揭桓  歉gen)本就無關系用(yong)戶(hu)的任wo)yi)信息。這(zhe)是很可怕的事情,也(ye)就是說,如果(guo)有人想找到你,只需要兩個條(tiao)件︰1-你上(shang)過網(wang),留(liu)下過痕跡;2-你的親zhou)peng)好友(you)或僅僅是認xian)賭愕娜松shang)過網(wang),留(liu)下過你的痕跡。這(zhe)兩個條(tiao)件滿足其一,人肉專(zhuan)家就可以(yi)很輕松的找到你,可能還知道你現在正在某個餐廳和誰一起共進晚餐。

  當很多(duo)互聯網(wang)企業意(yi)識到隱(yin)私對于用(yong)戶(hu)的重要性時,為(wei)了繼續得到jie)yong)戶(hu)的信任,他們采(cai)取了很多(duo)辦法,比如google承諾(nuo)僅保留(liu)用(yong)戶(hu)的nai)閹suo)記錄9個月,瀏覽(lan)器廠商提供(gong)了無痕沖浪模式(shi),社(she)交網(wang)站(zhan)拒絕(jue)公共搜索(suo)引擎的爬蟲進入,並將提供(gong)出去的數(shu)據(ju)全部采(cai)取匿名方式(shi)處(chu)理等。

  在這(zhe)種(zhong)zhi)叢擁幕(mu)肪忱錈媯 芏duo)人依然沒有建立對于信息隱(yin)私的保護(hu)意(yi)識,讓自(zi)己(ji)一直處(chu)于被滋擾,被精(jing)心設計,被利用(yong),被監視的處(chu)境chi)小?墑牽 wo)們能做(zuo)的幾fu)蹺 跗湮  蛭wei)個人隱(yin)私數(shu)據(ju)已經無法由(you)我(wo)們自(zi)己(ji)掌控了,就像(xiang)一首詩里說到的︰“如果(guo)你現在繼續麻(ma)木,那就別指(zhi)望這(zhe)麻(ma)木能抵擋得住(zhu)被”扒光”那qie)豢痰木 趾途jue)望……”

  和大(da)數(shu)據(ju)相(xiang)關的技術

   雲技術

  大(da)數(shu)據(ju)常(chang)和雲計算(suan)聯系到一起,因為(wei)實時的大(da)型數(shu)據(ju)集分析需要分布式(shi)處(chu)理框架來向數(shu)十、數(shu)百或甚至數(shu)萬的電腦分配(pei)工作。可以(yi)說,雲計算(suan)充當了si)?蹈ge)命時期(qi)的發動機的角色,而(er)大(da)數(shu)據(ju)則是電。

  雲計算(suan)思想的起源是麥卡錫在上(shang)xian)蘭0年(nian)代提出的︰把計算(suan)能力作為(wei)一種(zhong)像(xiang)水和電一樣的公用(yong)事業提供(gong)給用(yong)戶(hu)。

  如今,在Google、Amazon、Facebook等一批互聯網(wang)企業引領(ling)下,一種(zhong)行(xing)之有xing)?哪(na)Jshi)出現了︰雲計算(suan)提供(gong)基礎(chu)架構平台,大(da)數(shu)據(ju)應(ying)用(yong)運行(xing)在這(zhe)個平台上(shang)。

  業內是這(zhe)麼形(xing)容兩者的關系︰沒有大(da)數(shu)據(ju)的信息積澱(dian),則雲計算(suan)的計算(suan)能力再(zai)強大(da),也(ye)難(nan)以(yi)找到jie)yong)武之地;沒有雲計算(suan)的處(chu)理能力,則大(da)數(shu)據(ju)的信息積澱(dian)再(zai)豐富,也(ye)終zhan)恐皇薔禱ㄋ 隆/p>

  那麼大(da)數(shu)據(ju)到底需要哪(na)些雲計算(suan)技術呢?

  這(zhe)里暫且(qie)列舉一些,比如虛擬化技術,分布式(shi)處(chu)理技術,海量數(shu)據(ju)的存(cun)儲和管理技術,NoSQL、實時流數(shu)據(ju)處(chu)理、智能分析技術(類似模式(shi)識別以(yi)及自(zi)然語言(yan)理解)等。

  雲計算(suan)和大(da)數(shu)據(ju)之間的關系可以(yi)用(yong)下面的一張圖來說明,兩者之間結合後會(hui)產生(sheng)如下效應(ying)︰可以(yi)提供(gong)更(geng)多(duo)基于海量業務(wu)數(shu)據(ju)的創新型服務(wu);通過雲計算(suan)技術的不斷發展降低大(da)數(shu)據(ju)業務(wu)的創新成本。

  如果(guo)將雲計算(suan)與大(da)數(shu)據(ju)進行(xing)一些比較,最明顯的區分在兩個方面︰

  第一,在概念上(shang)兩者有所(suo)不同,雲計算(suan)改變了IT,而(er)大(da)數(shu)據(ju)則改變了業務(wu)。然而(er)大(da)數(shu)據(ju)必須有雲作為(wei)基礎(chu)架構,才能得以(yi)順暢運營。

  第二,大(da)數(shu)據(ju)和雲計算(suan)的na)勘曄shou)眾不同,雲計算(suan)是CIO等關心的技術層,是qie)桓黿jie)的IT解決方案。而(er)大(da)數(shu)據(ju)是CEO關注的、是qie)滴wu)層的產品,而(er)大(da)數(shu)據(ju)的決策者是qie)滴wu)層。

   分布式(shi)處(chu)理技術

  分布式(shi)處(chu)理系統(tong)可以(yi)將不同地點的mu)蚓哂脅煌 δ艿幕(mu)蠐滌脅煌 shu)據(ju)的多(duo)台計算(suan)機用(yong)通信網(wang)絡(luo)連接(jie)起來,在控制系統(tong)的統(tong)一管理控制下,協調地完成信息處(chu)理任務(wu)—這(zhe)就是分布式(shi)處(chu)理系統(tong)的定義。

  以(yi)Hadoop(Yahoo)為(wei)例進行(xing)說明,Hadoop是qie)桓鍪迪至apReduce模式(shi)的na)芄歡源da)量數(shu)據(ju)進行(xing)分布式(shi)處(chu)理的軟件框架,是qie)yi)一種(zhong)可靠(kao)、高效、可伸縮的方式(shi)進行(xing)處(chu)理的。

  而(er)MapReduce是Google提出的一種(zhong)雲計算(suan)的核心計算(suan)模式(shi),是qie)恢zhong)zhi)植際shi)運算(suan)技術,也(ye)是簡化的分布式(shi)編程模式(shi),MapReduce模式(shi)的主要思想是qiang) zi)yuan) 指(zhi)鉅 蔥xing)的問題(例如程序(xu))拆解成map(映射(she))和reduce(化簡)的方式(shi),在數(shu)據(ju)被huan)指(zhi)詈笸 ap 函數(shu)的程序(xu)將數(shu)據(ju)映射(she)成不同的區塊,分配(pei)給計算(suan)機機群處(chu)理達到分布式(shi)運算(suan)的效果(guo),在通過Reduce 函數(shu)的程序(xu)將結果(guo)匯整(zheng),從而(er)輸出開發者需要的結果(guo)。

  再(zai)來看看Hadoop的特性,第一,它(ta)是可靠(kao)的,因為(wei)它(ta)假(jia)設計算(suan)元素和存(cun)儲會(hui)失敗(bai),因此它(ta)維護(hu)多(duo)個工作數(shu)據(ju)副本,確保能夠針對失敗(bai)的節(jie)點重新lu)植即chu)理。其次(ci),Hadoop 是高效的,因為(wei)它(ta)以(yi)並行(xing)的方式(shi)工作,通過並行(xing)處(chu)理加快(kuai)處(chu)理速(su)度。Hadoop 還gu)強繕燜醯模 芄淮chu)理 PB 級(ji)數(shu)據(ju)。此song)猓adoop 依lan)滌諫she)區服務(wu)器,因此它(ta)的成本比較低ting) 魏穩碩伎梢yi)使用(yong)。

  你也(ye)可以(yi)這(zhe)麼理解Hadoop的構成,Hadoop=HDFS(文(wen)件系統(tong)chang) shu)據(ju)存(cun)儲技術相(xiang)關) HBase(數(shu)據(ju)庫) MapReduce(數(shu)據(ju)處(chu)理) ……Others

  Hadoop用(yong)到的一些技術有︰

  HDFS: Hadoop分布式(shi)文(wen)件系統(tong)(Distributed File System) - HDFS (HadoopDistributed File System)

  MapReduce︰並行(xing)計算(suan)框架

  HBase: 類似Google BigTable的分布式(shi)NoSQL列數(shu)據(ju)庫。

  Hive︰數(shu)據(ju)倉庫工具,由(you)Facebook貢獻zhu)/p>

  Zookeeper︰分布式(shi)鎖設施,提供(gong)類似Google Chubby的功能,由(you)Facebook貢獻zhu)/p>

  Avro︰新的數(shu)據(ju)序(xu)列化格式(shi)與傳輸工具,將逐步取代Hadoop原有的IPC機制。

  Pig:大(da)數(shu)據(ju)分析平台,為(wei)用(yong)戶(hu)提供(gong)多(duo)種(zhong)接(jie)口。

  Ambari︰Hadoop管理工具,可以(yi)快(kuai)捷(jie)的監控、部署(shu)、管理集群。

  Sqoop︰用(yong)于在Hadoop與傳統(tong)的數(shu)據(ju)庫間進行(xing)數(shu)據(ju)的傳遞。

  說了這(zhe)麼多(duo),舉個實際的例子,雖然這(zhe)個例子有xing)┌chen)舊,但是淘寶(bao)的海量數(shu)據(ju)技術架構還gu)怯兄諼wo)們理解對于大(da)數(shu)據(ju)的運作處(chu)理機制:

  如上(shang)圖所(suo)示,淘寶(bao)的海量數(shu)據(ju)產品技術架構分為(wei)五(wu)個層次(ci),從you)現料呂純此ta)們分別是︰數(shu)據(ju)源,計算(suan)層,存(cun)儲層,查(cha)詢(xun)層和產品層。

  數(shu)據(ju)來源層。存(cun)放著(zhou)淘寶(bao)各店的交易數(shu)據(ju)。在數(shu)據(ju)源層產生(sheng)的數(shu)據(ju),通過DataX,DbSync和Timetunel準實時的傳輸到下面第2點所(suo)述的“雲梯”。

  計算(suan)層。在這(zhe)個計算(suan)層內,淘寶(bao)采(cai)用(yong)的是Hadoop集群,這(zhe)個集群,我(wo)們暫且(qie)稱之為(wei)雲梯,是計算(suan)層的主要組成部分。在雲梯上(shang),系統(tong)每天會(hui)對數(shu)據(ju)產品進行(xing)不同的MapReduce計算(suan)。

  存(cun)儲層。在這(zhe)一層,淘寶(bao)采(cai)用(yong)了si)礁齠 鰨 桓鍪yFox,一個是Prom。MyFox是基于MySQL的分布式(shi)關系型數(shu)據(ju)庫的集群,Prom是基于Hadoop Hbase技術的一個NoSQL的存(cun)儲集群。

  查(cha)詢(xun)層。在這(zhe)一層中,Glider是qie)yi)HTTP協議對外提供(gong)restful方式(shi)的接(jie)口。數(shu)據(ju)產品通過一個唯一的URL來獲取到它(ta)想要的數(shu)據(ju)。同時,數(shu)據(ju)查(cha)詢(xun)即是通過MyFox來查(cha)詢(xun)的。

  最後一層是產品層,這(zhe)個就不用(yong)解釋(shi)了。

   存(cun)儲技術

  大(da)數(shu)據(ju)可以(yi)抽象(xiang)的分為(wei)大(da)數(shu)據(ju)存(cun)儲和大(da)數(shu)據(ju)分析,這(zhe)兩者的關系是︰大(da)數(shu)據(ju)存(cun)儲的na)康氖侵?糯da)數(shu)據(ju)分析。到目前為(wei)止,還gu)橇街zhong)截然不同的計算(suan)機技術領(ling)域(yu)︰大(da)數(shu)據(ju)存(cun)儲致力于研發可以(yi)擴(kuo)展至PB甚至EB級(ji)別的數(shu)據(ju)存(cun)儲平台;大(da)數(shu)據(ju)分析關注在最短時間內處(chu)理大(da)量不同類型的數(shu)據(ju)集。

  提到存(cun)儲,有一個著名的na)Χ 上(shang)xiang)信大(da)家都听過︰18個月集成電路(lu)的復雜性就增加you)槐丁Ksuo)以(yi),存(cun)儲器的成本大(da)約每18-24個月就下降一半。成本的不斷下降也(ye)造就了大(da)數(shu)據(ju)的可存(cun)儲性。

  比如,Google大(da)約管理著(zhou)超過50萬台服務(wu)器和100萬塊硬盤,而(er)且(qie)Google還在不斷的擴(kuo)大(da)計算(suan)能力和存(cun)儲能力,其中很多(duo)的擴(kuo)展都是基于在廉價服務(wu)器和普通存(cun)儲硬盤的mu)chu)上(shang)進行(xing)的,這(zhe)大(da)大(da)降低了其服務(wu)成本,因此可以(yi)將更(geng)多(duo)的資shi)鶩度氳郊際醯難(nan)蟹 敝小/p>

  以(yi)Amazon舉例,Amazon S3 是qie)恢zhong)面向 Internet 的存(cun)儲服務(wu)。該服務(wu)旨在讓開發人員能更(geng)輕松的進行(xing)網(wang)絡(luo)規模計算(suan)。Amazon S3 提供(gong)一個簡明的 Web 服務(wu)界面,用(yong)戶(hu)可通過它(ta)隨時在 Web 上(shang)的任何位置存(cun)儲和檢索(suo)的任wo)yi)大(da)小的數(shu)據(ju)。此服務(wu)讓所(suo)有開發人員都ji)芊fang)問shi) 桓鼉弒父呃kuo)展性、可靠(kao)性、安(an)全性和快(kuai)速(su)價廉的mu)chu)設施,Amazon 用(yong)它(ta)來運行(xing)其全球的網(wang)站(zhan)網(wang)絡(luo)。再(zai)看看S3的設計指(zhi)標︰在特定年(nian)度內為(wei)數(shu)據(ju)元提供(gong) 99.999999999% 的na)途jiu)性和 99.99% 的可用(yong)性,並能夠huai)惺shou)兩個設施中的數(shu)據(ju)同時丟失。

  S3很成功也(ye)確實卓有成效,S3雲的存(cun)儲對象(xiang)已達到萬億級(ji)別,而(er)且(qie)性能表現相(xiang)當良ji)謾3雲已經擁萬億跨地域(yu)存(cun)儲對象(xiang),同時AWS的對象(xiang)執行(xing)請(qing)求也(ye)達到百萬的峰值數(shu)量。目前全球範圍內已經有數(shu)以(yi)十萬計的企業在通過AWS運行(xing)自(zi)己(ji)的全部或者部分日常(chang)業務(wu)。這(zhe)些企業用(yong)戶(hu)遍(bian)布190多(duo)個國家,幾fu)跏瀾縞shang)的每個角落都有Amazon用(yong)戶(hu)的身影(ying)。

   感(gan)知技術

  大(da)數(shu)據(ju)的采(cai)集和感(gan)知技術的發展gu)牆(qiang)裘mi)聯系的。以(yi)傳感(gan)器技術,指(zhi)紋識別技術,RFID技術,坐標定位技術等為(wei)基礎(chu)的感(gan)知能力提升同樣是物聯網(wang)發展的mu) H 瀾緄墓?瞪璞浮?怠 綾砩shang)有著(zhou)無數(shu)的數(shu)碼(ma)傳感(gan)器,隨時測量和傳遞著(zhou)有關位置、運動、震動、溫度、濕度乃(nai)至空(kong)氣(qi)中化學(xue)物質的變化,都會(hui)產生(sheng)海量的數(shu)據(ju)信息。

  而(er)隨著(zhou)智能手機的普及,感(gan)知技術可謂jie) 戳朔 溝母叻迤qi),除了地理位置信息被廣泛的應(ying)用(yong)外,一些新的感(gan)知手段wo)部 嫉巧shang)舞台,比如,最新的”iPhone 5S”在home鍵內嵌(qian)指(zhi)紋傳感(gan)器,新型手機可通過呼氣(qi)直接(jie)檢測燃燒脂肪量,用(yong)于手機的嗅(xiu)覺傳感(gan)器面世可以(yi)監測從空(kong)氣(qi)污染到危險(xian)的mu) xue)藥品,微軟正在研發可感(gan)知用(yong)戶(hu)當前心情智能手機技術,谷歌眼鏡InSight新技術可通過衣著(zhou)進行(xing)人物識別。

  除此之外,還有很多(duo)與感(gan)知相(xiang)關的技術革(ge)新讓我(wo)們qian)懇恍攏罕熱紓 萊荽 gan)器實時監控口腔活動及飲食狀況,嬰兒(er)穿(chuan)戴設備可用(yong)大(da)數(shu)據(ju)去養育寶(bao)寶(bao),Intel正研發3D筆(bi)記本攝像(xiang)頭fang)勺紛傺矍蚨du)懂情緒,日本公司開發新型可監控用(yong)戶(hu)心率的紡織材料,業界正在嘗試將生(sheng)物測定技術引入支付(fu)du)ling)域(yu)等。

  其實,這(zhe)些感(gan)知被逐漸(jian)捕獲的過程就是就世界被數(shu)據(ju)化的過程,一旦世界被完全數(shu)據(ju)化了,那麼世界的本質也(ye)就是qie)畔 恕/p>

  就像(xiang)一句名言(yan)所(suo)說,“人類以(yi)前延續的是文(wen)明,現在傳承的是qie)畔 !/p>

  大(da)數(shu)據(ju)的實踐

  互聯網(wang)的大(da)數(shu)據(ju)

  互聯網(wang)上(shang)的數(shu)據(ju)每年(nian)增長50%,每兩年(nian)便將翻一huan)  er)目前世界上(shang)90%以(yi)上(shang)的數(shu)據(ju)是最近幾年(nian)才產生(sheng)的。據(ju)IDC預測,到2020年(nian)全球將總共擁有35ZB的數(shu)據(ju)量。互聯網(wang)是大(da)數(shu)據(ju)發展的前哨陣地,隨著(zhou)WEB2.0時代的發展,人們似乎都習慣了將自(zi)己(ji)的生(sheng)活通過網(wang)絡(luo)進行(xing)數(shu)據(ju)化,方便分享以(yi)及記錄並回憶。

  互聯網(wang)上(shang)的大(da)數(shu)據(ju)很難(nan)清(qing)晰的界定分類界限,我(wo)們先看看BAT的大(da)數(shu)據(ju)︰

  百度擁有兩種(zhong)類型的大(da)數(shu)據(ju)︰用(yong)戶(hu)搜索(suo)表征的需求數(shu)據(ju);爬蟲和阿(a)拉丁獲取的公共web數(shu)據(ju)。搜索(suo)巨頭百度圍繞(rao)數(shu)據(ju)而(er)生(sheng)。它(ta)對網(wang)頁數(shu)據(ju)的爬取、網(wang)頁內容的組織和解析,通過語義分析對搜索(suo)需求的精(jing)準理解進而(er)從海量數(shu)據(ju)中找準結果(guo),以(yi)及精(jing)準的nai)閹suo)引擎關鍵字廣告(gao),實質上(shang)就是qie)桓鍪shu)據(ju)的mu)袢  櫓  治齪屯誥虻墓獺K閹suo)引擎在大(da)數(shu)據(ju)時代面臨(lin)的挑戰jie)校焊geng)多(duo)的暗網(wang)數(shu)據(ju);更(geng)多(duo)的WEB化但是沒有結構化的數(shu)據(ju);更(geng)多(duo)的WEB化、結構化但是封閉的數(shu)據(ju)。

  阿(a)里巴巴擁有交易數(shu)據(ju)和信用(yong)數(shu)據(ju)。這(zhe)兩種(zhong)數(shu)據(ju)更(geng)容易變現,挖掘出商業價值。除此之外阿(a)里巴巴還gu) 蹲實確絞shi)掌握了部分社(she)交數(shu)據(ju)、移(yi)動數(shu)據(ju)。如微博(bo)和高德(de)。

  騰訊擁有用(yong)戶(hu)關系數(shu)據(ju)和基于此產生(sheng)的社(she)交數(shu)據(ju)。這(zhe)些數(shu)據(ju)可以(yi)分析人們的生(sheng)活和行(xing)xing)wei),從里面挖掘出政治、社(she)會(hui)、文(wen)化、商業、健康等領(ling)域(yu)的信息,甚至預測未來chu)/p>

  在信息技術更(geng)為(wei)發達的美國,除了行(xing)業知名的類似Google,Facebook外,已經涌現了很多(duo)大(da)數(shu)據(ju)類型的公司,它(ta)們專(zhuan)門經營數(shu)據(ju)產品,比如︰

  Metamarkets︰這(zhe)家公司對Twitter、支付(fu)、簽到和一些與互聯網(wang)相(xiang)關的問題進行(xing)了分析,為(wei)客戶(hu)提供(gong)了很好的數(shu)據(ju)分析支持(chi)。

  Tableau︰他們的精(jing)力主要集中于將海量數(shu)據(ju)以(yi)可視化的方式(shi)展現出來chu)ableau為(wei)數(shu)字媒體(ti)提供(gong)了一個新的展gu)臼shu)據(ju)的方式(shi)。他們提供(gong)了一個免(mian)費工具,任何人在沒有編程知識背景的情況下都ji)苤圃斐鍪shu)據(ju)專(zhuan)用(yong)圖表。這(zhe)個軟件還能對數(shu)據(ju)進行(xing)分析,並提供(gong)有價值的建議。

  ParAccel︰他們向美國執法機構提供(gong)了數(shu)據(ju)分析,比如對15000個有犯罪前科的人進行(xing)跟蹤,從而(er)向執法機構提供(gong)了參考性較高的犯罪預測。他們是犯罪的預言(yan)者。

  QlikTech︰QlikTech旗下的Qlikview是qie)桓鏨桃抵悄芰ling)域(yu)的自(zi)主服務(wu)工具,能夠應(ying)用(yong)于科學(xue)研究和藝(yi)術等領(ling)域(yu)。為(wei)了幫助開發者對這(zhe)些數(shu)據(ju)進行(xing)分析,QlikTech提供(gong)了對原始數(shu)據(ju)進行(xing)可視化處(chu)理等功能的工具。

  GoodData︰GoodData希望幫助客戶(hu)從數(shu)據(ju)中挖掘財富。這(zhe)家創業公司主要面向商業用(yong)戶(hu)和IT企業高管,提供(gong)數(shu)據(ju)存(cun)儲、性能報告(gao)、數(shu)據(ju)分析等工具。

  TellApart︰TellApart和電商公司進行(xing)合作,他們會(hui)根(gen)據(ju)用(yong)戶(hu)的瀏覽(lan)行(xing)xing)wei)等數(shu)據(ju)進行(xing)分析,通過鎖定潛在買家方式(shi)提高電商企業的收入。

  DataSift︰DataSift主要收集並分析社(she)交網(wang)絡(luo)媒體(ti)上(shang)的數(shu)據(ju),並幫助品牌公司掌握突huan) 攣諾(nuo)撓唄lun)點,並制定有針對yun)緣撓 xiao)方案。這(zhe)家公司還和Twitter有合作協議,使得自(zi)己(ji)變成了行(xing)業中xing)wei)數(shu)不多(duo)可以(yi)分析早期(qi)tweet的創業公司。

  Datahero︰公司的na)勘曄牆(qiang) 叢擁氖shu)據(ju)變得更(geng)加簡單明了,方便普通人去理解和想象(xiang)。

  舉了很多(duo)例子,這(zhe)里簡要歸納一下,在互聯網(wang)大(da)數(shu)據(ju)的典型代表性包括(kuo)︰

  1-用(yong)戶(hu)行(xing)xing)wei)數(shu)據(ju)(精(jing)準廣告(gao)投dou)擰 諶萃萍觥 xing)xing)wei)習慣和喜好分析、產品優化等)

  2-用(yong)戶(hu)消費數(shu)據(ju)(精(jing)準營銷(xiao)、信用(yong)記錄分析、活動促銷(xiao)、理財等)

  3-用(yong)戶(hu)地理位置數(shu)據(ju)(O2O推廣,商家推薦,交友(you)推薦等)

  4-互聯網(wang)金融(rong)數(shu)據(ju)(P2P,小額貸款,支付(fu),信用(yong),供(gong)應(ying)鏈金融(rong)等)

  5-用(yong)戶(hu)社(she)交等UGC數(shu)據(ju)(趨(qu)勢分析、流行(xing)元素分析、受(shou)歡迎程度分析、輿論(lun)監控分析、社(she)會(hui)問題分析等)

   政府的大(da)數(shu)據(ju)

  近期(qi),奧巴馬政府宣布投資2億美元拉動大(da)數(shu)據(ju)相(xiang)關產業發展,將“大(da)數(shu)據(ju)戰略”上(shang)升為(wei)國家意(yi)志。奧巴馬政府將數(shu)據(ju)定義為(wei)“未來的新石油(you)”,並表示一個國家擁有數(shu)據(ju)的規模、活性及解釋(shi)運用(yong)的na)芰  晌wei)綜合國力的重要組成部分,未來,對數(shu)據(ju)的佔有和控制甚至將成為(wei)陸權(quan)、海權(quan)、空(kong)權(quan)之外的另一種(zhong)國家核心資產。

  在國內,政府各個部門都握有構成社(she)會(hui)基礎(chu)的原始數(shu)據(ju),比如,氣(qi)象(xiang)數(shu)據(ju),金融(rong)數(shu)據(ju),信用(yong)數(shu)據(ju),電力數(shu)據(ju),煤(mei)氣(qi)數(shu)據(ju),自(zi)來水數(shu)據(ju),道路(lu)交通數(shu)據(ju),客運數(shu)據(ju),安(an)全刑事案件數(shu)據(ju),住(zhu)房(fang)數(shu)據(ju),海關數(shu)據(ju),出入境數(shu)據(ju),旅游數(shu)據(ju),醫療(liao)數(shu)據(ju),教育數(shu)據(ju),環(huan)保數(shu)據(ju)等等。這(zhe)些數(shu)據(ju)在每個政府部門里面看起來是單一的,靜態(tai)的。但是,如果(guo)政府可以(yi)將這(zhe)些數(shu)據(ju)關聯起來,並對這(zhe)些數(shu)據(ju)進行(xing)有xing)?墓亓 治齪屯tong)一管理,這(zhe)些數(shu)據(ju)必定將獲得新生(sheng),其價值是無法估(gu)量的。

  具體(ti)來說,現在城市都在走向智能和智慧,比如,智能電網(wang)、智慧交通、智慧醫療(liao)、智慧環(huan)保、智慧城市,這(zhe)些都依托于大(da)數(shu)據(ju),可以(yi)說大(da)數(shu)據(ju)是智慧的核心na)茉礎(chu)4庸謖zheng)體(ti)投資規模來看,到2012年(nian)底全國開建智慧城市的城市數(shu)超過180個,通信網(wang)絡(luo)和數(shu)據(ju)平台等基礎(chu)設施建設投資規模接(jie)近5000億元。“十二五(wu)”期(qi)間智慧城市建設拉動的設備投資規模將達1萬億元人民幣。大(da)數(shu)據(ju)為(wei)智慧城市的各個領(ling)域(yu)提供(gong)決策支持(chi)。在城市規劃方面,通過對城市地理、氣(qi)象(xiang)等自(zi)然信息和經濟、社(she)會(hui)、文(wen)化、人口等人文(wen)社(she)會(hui)信息的挖掘,可以(yi)為(wei)城市規劃提供(gong)決策,強化城市管理服務(wu)的科學(xue)性和前瞻性。在交通管理方面,通過對道路(lu)交通信息的實時挖掘,能有xing)?航飩煌ㄓ刀攏  kuai)速(su)響應(ying)突huan) 純觶 wei)城市交通的良性運轉提供(gong)科學(xue)的決策依據(ju)。在輿情監控方面,通過網(wang)絡(luo)關鍵詞搜索(suo)及語義智能分析,能提高輿情分析的及時性、全面性,全面掌握社(she)情民意(yi),提高公共服務(wu)能力,應(ying)對網(wang)絡(luo)突huan) 墓 彩錄 蚧ji)違(wei)法犯罪。在安(an)防與防災(zai)領(ling)域(yu),通過大(da)數(shu)據(ju)的挖掘,可以(yi)及時發現人為(wei)或自(zi)然災(zai)害、恐怖事件,提高應(ying)急處(chu)理能力和安(an)全防範能力。

  另外,作為(wei)國家的管理者,政府應(ying)該有勇(yong)氣(qi)將手zhong)械氖shu)據(ju)逐步開放,供(gong)給更(geng)多(duo)有能力的mu)棺櫓 蚋鋈死捶治霾 右(you)yi)利用(yong),以(yi)加速(su)造福人類。比如,美國政府就tong)鎝 艘桓ata.gov網(wang)站(zhan),這(zhe)是奧巴馬任期(qi)內的一個重要舉措︰要求政府公開透明,而(er)核心就是實現政府機構的數(shu)據(ju)公開。截止目前,已經開放了有91054 個datasets;349citizen-developed apps;137 mobile apps;175 agencies and subagencies;87 galleries;295 Government APIs。

分享︰
延you)煸畝du)
    數(shu)博(bo)故(gu)事
    貴州(zhou)

    貴州(zhou)大(da)數(shu)據(ju)產業政策

    貴州(zhou)大(da)數(shu)據(ju)產業動態(tai)

    貴州(zhou)大(da)數(shu)據(ju)企業

    更(geng)多(duo)
    大(da)數(shu)據(ju)概念_大(da)數(shu)據(ju)分析_大(da)數(shu)據(ju)應(ying)用(yong)_大(da)數(shu)據(ju)百科專(zhuan)題
    企業
    更(geng)多(duo)
    快3彩票源代码 | 下一页