2020-05-19 15:15:36
浏覽:
内容提要:大(dà)數據作爲重要的數據資(zī)源存在,不論是其内在蘊含的信息價值還是其已經成爲人類社會所需數據有機組成的客觀事實,都迫使我(wǒ)(wǒ)們去(qù)不斷加強對大(dà)數據的應用。然而,由于大(dà)數據作爲信息技術應用的副産品,其複雜(zá)性、不确定性和湧現性決定了我(wǒ)(wǒ)們應用大(dà)數據并非易事,存在着很多質量上的問題,除了具有傳統數據所有的質量問題外(wài),還包括一(yī)些獨特的新問題。爲了更好地應用大(dà)數據,本文對如何進行大(dà)數據應用的質量控制進行了初步的研究。主要内容包括以下(xià)三個方面:一(yī)是對什麽是大(dà)數據質量、受哪些因素影響、可能存在哪些質量問題進行了探讨;二是從做好理論準備、建立質量控制方案、重視對小(xiǎo)數據研究、加強大(dà)數據管理、加強大(dà)數據人才培養和加強大(dà)數據法制建設六個方面,提出了大(dà)數據應用的質量控制的基本想法;三是對大(dà)數據應用中(zhōng)需要引起注意的幾個方面進行了讨論,結合例子進行了闡釋。
一(yī)、引言
大(dà)數據作爲重要的數據資(zī)源,已經受到了越來越普遍的關注和重視。如今,利用大(dà)數據改變生(shēng)産生(shēng)活和服務方式、使用大(dà)數據發掘商(shāng)業價值、運用大(dà)數據進行科學研究等等,都取得了實實在在的進展。政府統計利用大(dà)數據也已進行了有益的初步探索,在有關數據獲得、數據補充、指标估算與驗證、經濟運行與社會發展監測等方面,都取得了一(yī)定的成效,今後還将進一(yī)步擴大(dà)對大(dà)數據的應用範圍。
但是,我(wǒ)(wǒ)們在充分(fēn)享受和運用大(dà)數據的同時,也應該清醒地認識到,大(dà)數據并非都是完美無瑕的,很可能由于其自身的複雜(zá)性、不确定性和湧現性(王元卓等,2013) [1]而存在這樣或那樣的一(yī)些問題,稍不留意,大(dà)數據可能就成爲了大(dà)迷惑、大(dà)忽悠、大(dà)混亂。因此,對于大(dà)數據應用者來說,大(dà)數據并不一(yī)定都是理想的數據。我(wǒ)(wǒ)們知(zhī)道,大(dà)數據有“4V”特征(郭曉科,2013)[2],即Volume(體(tǐ)量大(dà))、Variety(樣式多)、Velocity(速度快)和Value(價值密度低),如何透過前三個“V”而獲得第四個“V”?這既涉及到應用目的,也關乎方法技術,同時也取決于大(dà)數據自身的質量及其應用過程中(zhōng)的質量控制。可見,要利用好大(dà)數據并非易事。
無疑,大(dà)數據一(yī)方面有許許多多可利用的信息資(zī)源,另一(yī)方面也存在不少新的數據質量隐患,因此在當前大(dà)數據處于自然生(shēng)成、各自擁有、相互隔離(lí)和缺乏統一(yī)測度标準與相關法規的情況下(xià),如何保證大(dà)數據應用的質量,是一(yī)個必須慎之又(yòu)慎的基礎性問題。爲此,本文拟就大(dà)數據質量及其應用控制問題做一(yī)探讨。
二、大(dà)數據質量及大(dà)數據應用的主要質量問題
(一(yī))什麽是大(dà)數據質量
數據質量一(yī)直是數據收集和分(fēn)析使用的核心問題。對于什麽是大(dà)數據質量,目前并沒有一(yī)緻的認識。就文獻檢索來看,有關大(dà)數據質量讨論的文獻并不多,國外(wài)的有UNECE Statistics(2013)[3]、AAPOR Big Data Task Force(2015)[4]、Buelens等(2014)[5]、Couper(2013)[6]、Prewitt(2013)[7]等分(fēn)别從分(fēn)析框架、數據代表性、數據可得性、數據分(fēn)析與推斷等方面進行過相應的讨論,國内學者則有李金昌(2015,2017)[8] [9]、黃恒君(2017,2018)[10] [11]等進行過相關的探讨。
基于使用者的視角和數據的一(yī)般特征,我(wǒ)(wǒ)認爲大(dà)數據質量也應該包括準确性、及時性、完整性、适用性和經濟性等要素。考慮到大(dà)數據來源與構成的不确定性和極端複雜(zá)性,它還應該包括數據的可得性和可分(fēn)析性等要素。所以,所謂大(dà)數據質量就是基于以上這些因素而衡量的數據滿足使用者需求的程度,它貫穿于從數據産生(shēng)、數據選擇到數據分(fēn)析的全過程。當然,準确性依然是其中(zhōng)最關鍵的要素。
然而,大(dà)數據畢竟有别于傳統數據,其質量問題具有以下(xià)兩個明顯的特征:
1.它不是“無中(zhōng)生(shēng)有”的質量問題,而是“有中(zhōng)選用”的質量問題。傳統數據大(dà)多數是根據特定目的、以專門調查的方式獲取的(特别是政府統計數據),它有嚴格的數據收集和分(fēn)析方案,可以說自始至終都處于質量控制之中(zhōng)。雖然依據嚴格的方案傳統數據仍然會出現各種質量問題,但那是“無中(zhōng)生(shēng)有”的質量問題,人們對各種可能出現的質量問題是有預見和預案的,也是可以進行事後核實檢查的,盡管有時候也很困難、很費(fèi)勁,但終歸可以進行總體(tǐ)評估和控制。但大(dà)數據不是根據數據使用者的目的、以事先設定的方式與型态而産生(shēng)的(除了生(shēng)物(wù)醫學大(dà)數據等以外(wài)),很多時候是以一(yī)種“意外(wài)”的副産品的身份存在的,因此我(wǒ)(wǒ)們在從中(zhōng)選擇使用數據過程中(zhōng)所産生(shēng)的各種質量問題,是難以事先預見和預防的,是“有中(zhōng)選用”的質量問題,并且大(dà)多數情況下(xià)難以進行事後審核檢查和評估(例如網購客戶的性别、職業、文化程度等身份的識别)。
2.構成大(dà)數據質量的各要素,優缺點基本固化,相互之間難以協調兼顧。雖然傳統數據質量的各要素在不同調查方式上也是長短不一(yī),例如普查方式的完整性較好、但時效性和經濟性較差,抽樣調查則時效性和經濟性較好、但完整性較差,但它們之間是可以根據總體(tǐ)要求事先加以綜合考量和協調兼顧的,特别是抽樣調查可以根據要求制定出最佳綜合方案(最佳樣本量)。但大(dà)數據則不然,幾乎所有的大(dà)數據都具有極好的及時性、局部的完整性(對于覆蓋面而言)、相對的準确性(生(shēng)物(wù)醫學大(dà)數據等比較準确,社交網絡大(dà)數據等則可能虛假數據比較多)和較差的适用性。至于經濟性、可得性和可分(fēn)析性,則依不同類型的大(dà)數據而有所不同。這些要素之間幾乎并不存在此消彼長的關系。
總之,大(dà)數據質量既包括了傳統數據質量的全部特征,又(yòu)有自身獨特的特征。了解這些特征,對于我(wǒ)(wǒ)們科學合理運用大(dà)數據、控制大(dà)數據應用質量十分(fēn)必要。
(二)影響大(dà)數據質量的因素
影響數據質量的因素是極爲錯綜複雜(zá)的,大(dà)的方面可以分(fēn)爲人爲主觀因素和各種客觀因素,已有衆多專家學者對此進行了專門的分(fēn)析讨論,本文不再贅述。與傳統數據相比較,影響大(dà)數據質量的因素更爲盤根錯節,更加令人眼花缭亂。因爲它不僅保留了影響傳統數據質量的各種因素,而且還至少新增了以下(xià)一(yī)些因素:
1.大(dà)數據來源多元化。
大(dà)數據是基于現代信息技術而産生(shēng)的一(yī)種現象,大(dà)部分(fēn)數據都屬于人們基于現代信息技術平台從事某些活動所産生(shēng)的副産品,例如網購數據是人們在完成商(shāng)品交易過程中(zhōng)産生(shēng)的,病例數據是人們在完成醫治過程中(zhōng)産生(shēng)的,社交數據是人們在完成情感交流過程中(zhōng)産生(shēng)的,如此等等。不同的信息技術平台,會産生(shēng)不同的大(dà)數據,無論是其來源還是構成或是型态,都是各式各樣的。大(dà)量的非結構化數據、網絡社交數據和一(yī)些交易型數據,都是在自由開(kāi)放(fàng)的狀态下(xià)産生(shēng)的,都是多元化的。因此,大(dà)數據作爲信息化平台的多元化副産品,事前是沒有任何有關質量方面的充分(fēn)準備的,對于數據使用者來說必然會存在這樣或那樣的問題,例如缺乏定義、标識不全不清、難以分(fēn)組等等。
2.數據總體(tǐ)多變且覆蓋不全。
分(fēn)析和掌握總體(tǐ)數量特征是統計研究的根本任務所在,但大(dà)數據總體(tǐ)始終處于變化之中(zhōng),而且是“先有數據、後有總體(tǐ)”(李金昌,2017)[9],這就給我(wǒ)(wǒ)們運用大(dà)數據帶來了麻煩。快速動态變化是大(dà)數據區别于傳統大(dà)規模數據的重要特征之一(yī),例如經濟普查、人口普查等數據,規模都很大(dà),但都不是嚴格意義上的大(dà)數據,因爲它們是一(yī)次性、非動态的,而且是先确定總體(tǐ)再獲取數據的。正因爲大(dà)數據的這種快速變化性,使得截止至任何一(yī)個時點的大(dà)數據都隻是一(yī)個樣本,這就産生(shēng)了這樣一(yī)個問題:後續增加的數據是否與以前的數據保持同樣的結構?會不會出現突變?這就存在着不确定性。與此同時,目前的大(dà)數據并未覆蓋到所有的人和事,它隻是一(yī)定條件下(xià)的全體(tǐ)數據。因此,如果大(dà)數據所體(tǐ)現的特征與未覆蓋到部分(fēn)的特征有明顯的差異,那麽運用大(dà)數據就存在以偏概全的風險。
3.數據表現非标準、含義非單一(yī)。
大(dà)數據由于前述的多元化,勢必帶來數據表現的非标準化和數據含義的非單一(yī)性。不同來源的大(dà)數據,由于基礎條件、訴求、算法、儲存方式和定義的不同,數據的表現方式是不一(yī)樣的,并沒有一(yī)個統一(yī)的标準,因此它們相互之間往往是不可比的,存在着所謂的邏輯隔離(lí),而且各自也會随着時間的變化而變化。更甚的是,由于不同的人對非結構化數據的表現方式(例如各種符号、表情、文句等)存在不同的理解,因此大(dà)數據中(zhōng)相同的數據表現并不意味有相同的含義,在不同的語境或情節下(xià)可能具有截然不同的含義。例如,有時候一(yī)個微笑的表情并不一(yī)定代表“友好”或“認可”。再者,大(dà)量網絡用語的出現,進一(yī)步幹擾了人們對一(yī)些詞語的正常理解。例如,“童鞋”、“老闆”、“趕腳”、“香菇”、“Jobs(工(gōng)作)”等詞語,與“同學”、“老師”、“感覺”、“想哭”、“Jobs(喬布斯)”等之間怎麽區分(fēn)?它們何時是指本來的含義、何時是指後者的意思?所有這些,都給大(dà)數據的應用造成了障礙、帶來了困難。
4.數據真僞難分(fēn)辨。
真實、準确是數據價值的根本所在。與傳統數據相比,大(dà)數據的真實性問題可能會颠覆我(wǒ)(wǒ)們原有的認知(zhī)。大(dà)數據是由小(xiǎo)數據構成的,但大(dà)量的小(xiǎo)數據是否真實可信很難加以分(fēn)辨、也很難加以核實。例如社交網絡平台中(zhōng)注冊的個人有關資(zī)料、網購商(shāng)店(diàn)商(shāng)品銷售數量、客戶評價等信息,可能因爲涉及到個人隐私或者出于商(shāng)業利益而不夠真實、甚至是造假。此外(wài),社交網絡數據中(zhōng)大(dà)量的非結構化數據所要表達的真實意圖是什麽,很多時候也是難以判斷,我(wǒ)(wǒ)們所看到的内容不一(yī)定就是其真實的面目,這背後涉及到人物(wù)關系、情景情境、區域習慣、風俗習慣、用語習慣等衆多因素。
(三)大(dà)數據應用可能存在的質量問題
基于上述因素,我(wǒ)(wǒ)認爲大(dà)數據應用可能存在的質量問題主要有以下(xià)一(yī)些方面:
1.與數據使用目的的契合度可能比較差。
站在數據使用者的角度,契合度欠缺是大(dà)數據的最大(dà)問題。如前所述,除了基因檢測、天文觀測等數據外(wài),大(dà)數據通常情況下(xià)不是針對特定的數據使用目的而産生(shēng)的,而是現代信息技術應用的副産品。某種意義上講,大(dà)數據是自然生(shēng)成的,不像傳統數據那樣具有很強的滿足于統計需要的目的性和針對性。因此,能否從中(zhōng)篩選出合适有用的數據,顯然是一(yī)個無法回避的問題。我(wǒ)(wǒ)們運用大(dà)數據進行分(fēn)析,之所以稱之爲數據挖掘,有人甚至把它形容爲“大(dà)海撈針”,原因就在這裏。大(dà)數據的價值密度低這一(yī)特征,也是針對契合度差而言的。我(wǒ)(wǒ)國政府統計在嘗試運用大(dà)數據的過程中(zhōng),其契合性差的問題一(yī)開(kāi)始就顯現出來了。
2.産生(shēng)系統性誤差的可能性更大(dà)。
任何數據都可能存在誤差,大(dà)數據也不例外(wài)。數據誤差的構成是極其複雜(zá)的,有些屬于客觀原因,有的屬于主觀因素,有些屬于偶然性誤差,有的則屬于系統性誤差。相比較而言,系統性誤差由于難以預防、難以甄别、難以測度而更加令人頭疼,尤其是人爲因素造成的系統性誤差更難以被發現。概括之,大(dà)數據可能産生(shēng)的系統性誤差有以下(xià)幾種情況:①數據覆蓋面不全造成的代表性偏差,即大(dà)數據所體(tǐ)現的特征與大(dà)數據未覆蓋部分(fēn)人或物(wù)的特征之間的差異;②社交人群相互影響而産生(shēng)的、具有一(yī)定方向性的數據偏差,例如微信群中(zhōng)群友所讨論的内容就可能因爲相互影響而具有一(yī)定的共同性偏向;③個體(tǐ)小(xiǎo)數據的不真實而産生(shēng)的傾向性虛假偏差,例如人們在社交平台中(zhōng)提供的年齡、外(wài)表、收入甚至性别等具有一(yī)定隐私性的信息,往往會出于自我(wǒ)(wǒ)保護而存在偏差;也可能出于虛榮心而存在故意誇大(dà)收入、美化外(wài)表等行爲;④受制于某些規制或出于一(yī)些看不見的動機,數據提供者在社交網絡平台上發布的信息往往具有傾向性或選擇性,例如在微信朋友圈上發布一(yī)些容易引起注意或更有利于展示自我(wǒ)(wǒ)形象的信息,發布經過精心挑選的圖片等等。⑤某些數據由于太受社會或網民關注、從而受到外(wài)部幹擾而産生(shēng)系統性偏差,例如2008年以後各年,谷歌關于流感預測的結果就因爲相關關聯詞受到網民的檢索幹擾而系統性偏高了。上述這些系統性誤差都會使數據的代表性受到影響。
3.數據的可比性問題可能更爲突出。
可比性是數據應用的基本要求之一(yī)。傳統數據事先都有嚴格的指标定義、測度标準、獲取範圍、具體(tǐ)來源、獲取方式和銜接調整方法等規定,以便保證其既在時間上可比、也在空間上可比。但大(dà)數據卻不具備這樣的條件,由于其動态多變性、型态複雜(zá)性、表現多樣性、含義湧現性、測度非标準性、語境差異性、來源區域性以及分(fēn)類儲存的非統一(yī)性等原因,使得數據既在時間上缺乏連續可比性,也在空間上缺乏橫向可比性。即使是像谷歌、百度這樣相對穩定的大(dà)數據生(shēng)産者,也由于業務範圍、相關标準和範疇的變化而難以保持前後數據的一(yī)緻性(黃恒君,2019),難以滿足統計分(fēn)析嚴格的可比性要求。更何況不同的大(dà)數據來源之間也存在定義、測度标準、分(fēn)類等的不同。
4.其他相關質量隐患。
除了上述突出的質量問題外(wài),大(dà)數據應用還可能存在如下(xià)一(yī)些質量隐患:①難以追蹤審核。傳統數據在運用統計調查方式獲取後,都可對其進行必要的檢查和審核,因爲它事先制定了完整的調查方案,有比較清晰的數據追蹤路徑(即掌握數據的來源與提供路徑)。但大(dà)數據的追蹤與審核,可能受到數據所有權、商(shāng)業機密與隐私保護等限制而受阻,多數情況下(xià)是難以尋找到數據提供者的,即使可以通過網絡平台進行聯系或詢問,也很難得到真實的回應,從而給數據評估帶來困難。②數據之間的匹配性較差。傳統數據是根據統計研究目的整體(tǐ)設計、同步獲取的,具有很強的匹配性。即使是不同研究目的、不同途徑和方式獲得的數據,隻要遵循了國家統計局制定和頒布的一(yī)系列标準,相互之間也是可以協調、銜接和匹配的。哪怕存在某些不足,也容易找到解決的辦法。但大(dà)數據既缺乏事先的整體(tǐ)設計,也缺乏各方面的統一(yī)标準,因而不同數據源、甚至同一(yī)數據源内部的數據之間都是缺乏銜接性和匹配性的。此外(wài),分(fēn)布式儲存的數據也可能由于制式、格式的原因導緻匹配性較差,給數據建模帶來困難。③目前普遍存在的數據孤島現象,除了會産生(shēng)上述的可比性、匹配性較差等問題外(wài),還勢必造成數據含義、分(fēn)類、解讀等方面的邏輯混亂,給數據的理解或解釋帶來困難。
三、大(dà)數據應用的質量控制
雖然大(dà)數據可能存在上述的各種質量問題,但由于其中(zhōng)蘊含着可期待的有價值信息,因而充分(fēn)利用大(dà)數據是一(yī)種不可抗拒的趨勢,對于政府統計來說更是如此,決不能遇阻止步、因噎廢食。那麽,我(wǒ)(wǒ)們在大(dà)數據應用過程中(zhōng),該如何對上述質量問題進行有效控制呢?
(一(yī))做好相關理論準備
實踐需要理論指導。盡管我(wǒ)(wǒ)們現在對大(dà)數據還不夠了解,但基于科學研究的基本認知(zhī)和學科發展的基本邏輯,可以先從理論上探讨其基本特征和主要表現,從而減少實踐探索的盲目性,提高運用大(dà)數據的有效性。就當前情況而言,除了進一(yī)步加深理解大(dà)數據的内涵和“4V”特征外(wài),我(wǒ)(wǒ)認爲最重要的理論準備應該有以下(xià)三點:
1.改變對數據及其來源的認識。
在大(dà)數據和人工(gōng)智能迅速發展的今天,人類把一(yī)切可記錄的事實都看成了數據,它不再是傳統意義上隻能進行加減乘除運算的、以阿拉伯數字爲表現的數據。我(wǒ)(wǒ)們要有把表現爲文字、文本、表情、聲音、圖片、視頻(pín)等的非結構化數據以及其他格式的各種數字化信息都當作爲數據的勇氣與準備,要把它們納入統計學的研究範圍,并且在相關統計學教材中(zhōng)增補這方面的内容,以盡早拓展人們對數據認識的視野。要加強對非結構化數據特征及其測度方法、分(fēn)析方法的理論研究和學術探讨。要改變傳統的“無中(zhōng)生(shēng)有”式的數據獲取理念,樹(shù)立從大(dà)數據中(zhōng)有效、充分(fēn)地選擇使用數據的意識。要對如何篩選使用大(dà)數據進行有針對性的探讨和研究。
2.改變對總體(tǐ)、個體(tǐ)、變量等的認識。
我(wǒ)(wǒ)們使用數據,必須弄明白(bái)它是關于什麽的數據,即數據所對應的總體(tǐ)是誰、個體(tǐ)是誰,以及表達數據的變量名稱(指标或标志(zhì)名稱)是什麽。以往,我(wǒ)(wǒ)們爲了獲得數據,必須先根據統計研究目的确定唯一(yī)界定的總體(tǐ)以及構成總體(tǐ)的個體(tǐ),必須事先确定用以表達數據的标志(zhì)與指标,然後運用普查或抽樣調查的方式,按圖索骥,從個體(tǐ)到總體(tǐ)、從标志(zhì)到指标,獲得标志(zhì)值,加工(gōng)成指标。關于總體(tǐ)、個體(tǐ)和變量,都有嚴格明确的定義。然而對于大(dà)數據,它是先有數據後有總體(tǐ),我(wǒ)(wǒ)們事先并不知(zhī)道由什麽樣的人或物(wù)提供了什麽樣的數據,所以原有的關于總體(tǐ)、個體(tǐ)和變量的定義方式就不适用了,要有新的認識。要基于以下(xià)兩種不同情況進行不同的處理:一(yī)是如果隻想對大(dà)數據進行探索性的分(fēn)析,隻想從整體(tǐ)上發現隐含其中(zhōng)的某種規律或關系,那麽就可以以截止至某時刻的所有數據作爲總體(tǐ),而其中(zhōng)的每一(yī)個具體(tǐ)數據就是個體(tǐ)。此時不必知(zhī)道數據背後的人或物(wù),也不必定義傳統意義上的總體(tǐ)與個體(tǐ)。至于會涉及到什麽樣的變量,就要取決于大(dà)數據分(fēn)析的關注點和方向。二是如果要對大(dà)數據進行結構性的分(fēn)析或從中(zhōng)提取特定的數據,那麽就要根據截止至某時刻的所有數據這個範圍,從每一(yī)個具體(tǐ)數據着手,反查其背後的人或物(wù),編制數據來源者的清單,經過核對檢查之後,再給出傳統意義上的總體(tǐ)與個體(tǐ)的定義。至于變量,則需要根據分(fēn)析目的或特定數據訴求加以定義。或許,原來比較簡單的關于總體(tǐ)、個體(tǐ)和變量問題,在大(dà)數據運用過程中(zhōng)變得複雜(zá)了。因此,如何根據所掌握數據反向定義總體(tǐ)、個體(tǐ)和變量,我(wǒ)(wǒ)們既要進行理論探讨、也要從實踐中(zhōng)總結經驗。爲了保證大(dà)數據運用質量,我(wǒ)(wǒ)們需要在這方面花費(fèi)較大(dà)的精力和時間,這也是把傳統數據與大(dà)數據進行對接的一(yī)個不可逾越的重要方面。
3.改變對數據分(fēn)析思路的認識。
大(dà)數據的複雜(zá)性以及其非結構化數據的絕對主體(tǐ)性,決定了傳統的數據分(fēn)析思路與方法不再适用于大(dà)數據分(fēn)析,即不能再簡單地按照以往的方法或模型進行分(fēn)析了。如果說傳統的數據分(fēn)析是基于數學運算的分(fēn)析,那麽大(dà)數據分(fēn)析則是基于數學運算與挖掘算法相結合的分(fēn)析,其中(zhōng)包括大(dà)數據篩選、清洗(整理)、對接、建模(挖掘分(fēn)析)、預測和估計等方法。無疑,大(dà)數據分(fēn)析方法要複雜(zá)得多,隻有找到适合于大(dà)數據分(fēn)析的方法才能保證大(dà)數據應用的質量。目前,各種提供明确、有效結果(例如可視化結果)的算法研究正在不斷完善與發展。雖然基于統計學的角度,我(wǒ)(wǒ)們依然以獲得定量結果爲最終目标,但大(dà)數據分(fēn)析的結果并非都能直接體(tǐ)現爲傳統意義上的定量結果,有時候是間接定量或隐性定量的。當然,剛開(kāi)始起步階段,政府統計所選擇使用的大(dà)數據,主要還是結構化數據部分(fēn),重點需要關注的依然是測度标準和數據銜接(匹配)等問題。
(二)建立完整的大(dà)數據應用質量控制方案
爲了有效使用大(dà)數據,我(wǒ)(wǒ)們必須建立完整的數據應用質量控制方案,這對于需經常性選擇使用大(dà)數據作爲重要補充的政府統計更爲必要。質量控制方案應該涵蓋事前、事中(zhōng)和事後三個方面。
一(yī)是要事前充分(fēn)準備。我(wǒ)(wǒ)們常說不打無準備之仗,對于大(dà)數據應用也是如此。首先,要對數據使用目的與可供選擇使用的數據源進行對應性研究。一(yī)方面,隻有明确數據使用目的才能确定需要什麽樣的大(dà)數據;另一(yī)方面,隻有具備能滿足需要的大(dà)數據才能實現數據使用目的。兩者缺一(yī)不可。例如,政府統計CPI需要補充定點采樣以外(wài)的商(shāng)品與服務的價格和數量,而阿裏巴巴、京東等公司則具有這方面的大(dà)數據,因而具備了使用大(dà)數據的條件。在這過程中(zhōng),要對大(dà)數據進行多角度的評估,特别是适用性評估。若有多個可供選擇的大(dà)數據源,還必須進行比較評估,以确定選擇使用的程度(全部選用還是部分(fēn)選用)。其次,必須明确大(dà)數據擁有者是否願意提供數據、在多大(dà)範圍和程度提供數據等問題,需要依據有關法律法規達成數據提供和使用的協議,确定雙方的權利、義務和職責。這一(yī)點十分(fēn)重要。然後在此基礎上,要基于數據使用目的構建詳細的數據使用規則,特别是要建立數據分(fēn)類、測度等規則,以便與常規數據相一(yī)緻。
二是要事中(zhōng)同步控制。首先要做好數據對接工(gōng)作,即按照數據使用目的和所選用數據的特點,以及事先确定的數據分(fēn)類、測度等規則,做好具體(tǐ)的大(dà)數據标準化及其與其他數據的銜接等工(gōng)作。例如,政府CPI編制想要利用阿裏巴巴、京東等網購平台的大(dà)數據,就需要按照國家統計局CPI編制的基本原則和方法,對上述大(dà)數據重新進行商(shāng)品和服務的分(fēn)類(因爲不同網購平台關于商(shāng)品和服務的分(fēn)類是不一(yī)緻的),并依據它們的銷售數量和價格情況,做好CPI中(zhōng)的各層次權數的調整工(gōng)作,把這些大(dà)數據所體(tǐ)現的信息完整地納入CPI的大(dà)盤子中(zhōng),實現有效對接。其次要對數據進行審核與修補,包括準确性審核和完整性修補。如前所述,大(dà)數據會存在這樣或那樣的一(yī)些準确性問題或者完整性問題,因此在使用過程中(zhōng)要及時加以清洗、修正或修補。例如,CPI編制中(zhōng)來自各網購平台的商(shāng)品銷售量和價格數據是否真實、分(fēn)類是否完整、是否包括了所有網點和區域的數據等等,都需要進行審核和檢查,發現問題及時解決。第三要邊使用數據邊比較、驗證。例如,在CPI編制過程中(zhōng),要同步對不同來源數據之間的差異進行比較,不僅要觀察同類商(shāng)品或服務之間的價格差異,還要觀察其背後的内涵質量之間的差異,以解決可比性問題。同時,要及時驗證使用大(dà)數據後的數據分(fēn)析結果是否更符合客觀實際、更具有說服力。
三是事後及時評估。這其實是上一(yī)步的後續,即回過頭對使用大(dà)數據的整個過程進行總結和評估,包括邏輯性檢查和合理性、有效性評估。要對使用大(dà)數據前後的統計結果之間的差異進行分(fēn)析,确認導緻差異的原因以及差異是否合理。要總結經驗與不足,爲後續使用大(dà)數據提供意見建議。
(三)重視對小(xiǎo)數據的研究
大(dà)數據是由小(xiǎo)數據構成的。所謂小(xiǎo)數據就是反映單個人、單個事物(wù)特征的數據,或者是記錄個人言行舉止和物(wù)體(tǐ)運動狀态的數據。每個個人或物(wù)體(tǐ)多方面的小(xiǎo)數據就構成了小(xiǎo)數據集。例如,姓名、性别、年齡、籍貫(出生(shēng)地)、民族、受教育程度、職業、身高、體(tǐ)重、長相等數據就構成了反映個人基本特征的小(xiǎo)數據集;血常規、眼鼻喉、内外(wài)科、B超透視掃描等各種體(tǐ)檢數據就構成了反映個人基本身體(tǐ)健康狀況的小(xiǎo)數據集;微信用戶在微信平台上發布的所有信息就構成了其個人的微信小(xiǎo)數據集。無疑,大(dà)數據是由大(dà)量不斷增加的、來自于單個人或物(wù)的小(xiǎo)數據疊加所形成的,沒有小(xiǎo)數據就沒有大(dà)數據。所以,我(wǒ)(wǒ)們與其說是利用大(dà)數據,還不如說是利用小(xiǎo)數據。顯然,大(dà)數據質量取決于小(xiǎo)數據質量,前面談到的大(dà)數據契合性不強、容易産生(shēng)系統性誤差、可比性較差等問題,是由全部小(xiǎo)數據所共同決定的,是小(xiǎo)數據特性不斷累積疊加的結果。
可見,我(wǒ)(wǒ)們想要提高大(dà)數據應用質量,就必須從小(xiǎo)數據着手,必須加強對小(xiǎo)數據的評估與研究。隻有了解和掌握了小(xiǎo)數據的特性,才能真正駕馭和使用好大(dà)數據。否則,對大(dà)數據的應用就抓不住根。在沒有搞清楚每一(yī)個小(xiǎo)數據的含義以前,或者說在沒有制定出相應的定義小(xiǎo)數據含義的規則以前,任何大(dà)數據“挖掘”都是徒勞的。因此,大(dà)數據分(fēn)析的本質依然是小(xiǎo)數據的測度問題,或者說是小(xiǎo)數據涵義的解讀問題。爲此,要特别重視對小(xiǎo)數據的來龍去(qù)脈、影響因素、含義及其變化等的分(fēn)析與研究。與此同時,還需要重點做好如下(xià)三方面的工(gōng)作:一(yī)是要對小(xiǎo)數據的真實性、完整性進行系統的審核與評估;二是要梳理、研究個體(tǐ)小(xiǎo)數據集的動态變化過程,以了解和掌握其構成特性與變化規律;三是要研究個體(tǐ)小(xiǎo)數據之間、小(xiǎo)數據集之間、小(xiǎo)數據與整體(tǐ)大(dà)數據之間的關系,爲大(dà)數據應用及其總體(tǐ)分(fēn)析提供準備。
(四)加強大(dà)數據管理,引導大(dà)數據企業做好基礎性工(gōng)作
面對大(dà)數據,各國反應都非常迅速,紛紛把大(dà)數據技術及其應用作爲國家發展戰略。我(wǒ)(wǒ)國也于2015年8月發布了《促進大(dà)數據發展行動綱要》,明确指出其重要意義是:大(dà)數據成爲推動經濟轉型發展的新動力;大(dà)數據成爲重塑國家競争優勢的新機遇;大(dà)數據成爲提升政府治理能力的新途徑。主要任務則包括了“加快政府數據開(kāi)放(fàng)共享,推動資(zī)源整合,提升治理能力;大(dà)力推動政府部門數據共享,穩步推動公共數據資(zī)源開(kāi)放(fàng);統籌規劃大(dà)數據基礎設施建設”等等。無疑,要實現這些任務,國家相關職能部門(特别是統計局)責無旁貸,要主動承擔起大(dà)數據資(zī)源整合、開(kāi)發與共享的重任,加強對數據資(zī)源的調查與管理。這其中(zhōng),首先要從研究大(dà)數據的複雜(zá)性、不确定性和湧現性着手,專班研究大(dà)數據(特别是非結構化數據)有關方面的标準化問題,加快建立大(dà)數據分(fēn)析的基本框架、測度規則和有關方法制度。在此基礎上,爲大(dà)數據企業提供數據定義、數據分(fēn)類、數據解讀、數據儲存、數據提供等方面的标準化建議,引導大(dà)數據企業做好基礎性工(gōng)作,爲以後提高利用大(dà)數據的契合度和針對性奠定基礎。其實,加強對大(dà)數據企業的管理與引導,也是進一(yī)步規範和發展數字經濟的重要内容之一(yī),更是發展新經濟、培育新動能的重要組成部分(fēn)。
(五)加強大(dà)數據人才的培養培訓
應用大(dà)數據,關鍵靠人才。總體(tǐ)上看,我(wǒ)(wǒ)國大(dà)數據人才非常短缺,特别是既懂大(dà)數據技術(例如雲計算技術、區塊鏈技術等)又(yòu)懂大(dà)數據分(fēn)析(能夠運用各種統計軟件、數據挖掘軟件進行數據處理和分(fēn)析)的人才更爲稀缺。因此,我(wǒ)(wǒ)們一(yī)方面要基于高校本科、碩士乃至博士層次的大(dà)數據人才的培養體(tǐ)系,不斷提升大(dà)數據人才培養質量,另一(yī)方面,要廣泛持續地組織開(kāi)展大(dà)數據人才的專題培訓教育,以不斷提高人們使用大(dà)數據的技術能力與方法水平。
(六)建立與大(dà)數據應用有關的法律法規
由于大(dà)數據涉及數據所有者的商(shāng)業信息、核心機密或有關隐私,因此如何在使用大(dà)數據的同時不損害大(dà)數據所有者的利益,是一(yī)個迫切需要解決的問題。必須從進一(yī)步建立健全有關法律法規着手,通過建立安全、保密與有效使用并重的法制去(qù)規範數據提供者與數據使用者的權利與義務。
四、值得注意的幾個方面
盡管大(dà)數據應用曆史不長,但已有許多成功的案例,同時也有一(yī)些值得吸取的教訓。經過總結,我(wǒ)(wǒ)認爲特别要注意以下(xià)幾個方面[12]:
(一(yī))不要盲目在路燈下(xià)面找鑰匙
我(wǒ)(wǒ)們使用大(dà)數據,一(yī)定要有明确的方向。都說數據挖掘如同大(dà)海撈針,但大(dà)海撈針如果沒有正确的方位,不能确定針之所在,那終究會竹籃打水一(yī)場空。我(wǒ)(wǒ)們不能學醉漢在路燈下(xià)面找鑰匙。醉漢在不知(zhī)道鑰匙丢失于何處的情況下(xià),僅僅因爲路燈下(xià)面有亮光、看得見,就在路燈下(xià)面尋找,顯然是一(yī)種自欺欺人的做法,最多是尋求自我(wǒ)(wǒ)安慰罷了。這種盲目的尋找,找再長的時間也不可能找到鑰匙。我(wǒ)(wǒ)們選擇運用大(dà)數據也是如此,不能拿來就用,而是要先弄明白(bái)能不能用、有沒有使用價值。如果不知(zhī)道大(dà)數據裏面有什麽就盲目亂用,那無疑如同醉漢在路燈下(xià)面找鑰匙。
(二)不要輕易相信“樣本就是總體(tǐ)”
大(dà)數據是一(yī)定條件下(xià)的全體(tǐ)數據,因此,我(wǒ)(wǒ)們利用大(dà)數據技術有針對地去(qù)獲取一(yī)定條件下(xià)的全體(tǐ)數據是一(yī)種很好的思路,應該大(dà)膽嘗試。但是,這個“一(yī)定條件”是否具備?這方面我(wǒ)(wǒ)們要吸取波士頓市政想利用居民手機來收集街道路面颠簸信息教訓。波士頓市政的出發點是,如果開(kāi)車(chē)的居民都能在手機上下(xià)載一(yī)個市政開(kāi)發的專門軟件,并在開(kāi)車(chē)時打開(kāi)這個軟件,那麽手機就能自動記錄并向後台反饋車(chē)輛行過道路的颠簸狀況,市政就可以利用這個手機大(dà)數據來分(fēn)析城市道路路面的破損情況及各處的破損程度,從而改變以往需要派出市政人員(yuán)到處巡邏檢查路面是否破損的局面,既提高效率又(yòu)減少成本。想法很好,但事實上未能獲得成功。原因就在于下(xià)載市政軟件需要智能手機,而擁有智能手機的大(dà)多是不關心市政事務的年輕人,願意配合市政号召的老年人則往往不使用智能手機或不會下(xià)載手機軟件,所以市政收集到的數據并非理想的全部數據,未能實現樣本就是總體(tǐ)的美好願望。
(三)不要忘了事物(wù)的本來規律
人類認識事物(wù)以把握其内在本質規律爲根本,爲此需要全過程全方位加以觀察和研究。大(dà)數據應用和分(fēn)析也是如此,否則大(dà)數據是會騙人的。如果我(wǒ)(wǒ)們所掌握的隻是局部的或者其中(zhōng)某一(yī)個階段的數據,那麽據以得出的結論就可能是片面的、扭曲的甚至截然相反的。例如,肉牛的命運終究是在被養大(dà)養肥以後要被宰殺、被食用的,這是它的本來規律。但是,在被養大(dà)宰殺以前,它的生(shēng)活或許是無憂無慮的,甚至是每天迎着朝霞在肥沃的草地上享受美味,在美麗的河邊漫步聽(tīng)濤,在飽食之後尋找一(yī)處淨土卧地打盹…,日複一(yī)日,一(yī)切都是那麽的美好。然而,待到将被宰殺之時,肉牛才明白(bái)這一(yī)切都是“騙人”的,享受美好生(shēng)活的背後是生(shēng)命的代價。牛從出生(shēng)到被宰殺、被食用的全過程才是完整的大(dà)數據,以前的生(shēng)活隻是不完整的階段性數據,拐點就發生(shēng)在它被養大(dà)、養肥了的時候。所以,應用和分(fēn)析大(dà)數據一(yī)定要注意其量變質變的特征,準确把握其本來規律。
(四)不要過分(fēn)依賴純定量結果
統計分(fēn)析曆來注重定量與定性相結合,大(dà)數據分(fēn)析也是如此。尤其是對于非結構化、半結構化數據,在目前缺乏科學的測度标準和量化方法的情況下(xià),更需要定量分(fēn)析與定性分(fēn)析相結合,更不能過分(fēn)依賴純定量結果。例如,足球比賽,球隊的實力取決于所有球員(yuán),那麽如何挑選球員(yuán)?我(wǒ)(wǒ)們當然可以依據以往所有比賽有關各位球員(yuán)在控球時間、傳球次數、搶球次數、射門次數、場均得分(fēn)、任意球或定位球情況等各個方面數據的定量分(fēn)析,來判斷球員(yuán)的能力與水平,但這并不全面,因爲球員(yuán)的表現是整體(tǐ)的,其跑位意識、控球技術、傳球質量、配合能力等是很難加以測度和量化分(fēn)析的。數據好看的球員(yuán)不一(yī)定都很優秀,數據不夠好看的球員(yuán)水平未必真的很差,這裏面存在各種複雜(zá)的因素。同時,球員(yuán)之間的默契程度也很重要。因此,對球員(yuán)水平的評估還需要依據專家的經驗判斷,還需要發揮球探的作用。可見,我(wǒ)(wǒ)們應用分(fēn)析大(dà)數據,離(lí)不開(kāi)對事物(wù)本身的定性認識,離(lí)不開(kāi)人類所積累的關于所研究事物(wù)的已有知(zhī)識和經驗教訓。否則,純定量結果就可能隻是一(yī)堆說明不了任何問題的擺件。
(五)不要迷信數據量越大(dà)越好
大(dà)數據的第一(yī)特征就是數據量大(dà),但是否有利用價值并不取決于其大(dà)小(xiǎo),而是取決于能否用以說明所要探讨的問題,是否具有代表性。在1936年的美國總統競選預測調查中(zhōng),當時大(dà)名鼎鼎的《文學文摘》基于240萬份問卷調查的預測失敗了,而名不見經傳的蓋勒普咨詢公司基于3000份問卷調查的預測卻成功了。原因在于前者的調查對象大(dà)多屬于有一(yī)定經濟實力的中(zhōng)産階層選民,他們更傾向于擁護共和黨候選人蘭登,而低層選民則更喜歡民主黨候選人羅斯福。顯然,《文學文摘》使用了一(yī)個有偏的樣本。而蓋勒普咨詢公司的選民樣本則按一(yī)定的比例在不同黨派、膚色、職業、性别、年齡者中(zhōng)進行了分(fēn)配,從而具有良好的代表性。這說明,數據量并非越大(dà)越好,相比之下(xià)代表性更爲重要。這也正是各國主要依靠科學的抽樣調查而不是普查來獲取數據的主要原因所在。這也告訴我(wǒ)(wǒ)們,使用大(dà)數據時一(yī)定要注意其涵蓋面,一(yī)定要分(fēn)析大(dà)數據信息與大(dà)數據未涵蓋部分(fēn)信息之間的差異,否則就可能重蹈《文學文摘》的覆轍。同樣,如果要從大(dà)數據中(zhōng)抽取樣本進行分(fēn)析,那麽我(wǒ)(wǒ)們的關注點也首先應該是樣本的代表性而不是樣本的大(dà)小(xiǎo)。
(六)不要陷入“測不準”迷途
基于數據分(fēn)析對事物(wù)發展趨勢及其可能結果做出預測,是統計研究的一(yī)大(dà)任務,也是大(dà)數據分(fēn)析與應用的重點所在。但是在現實中(zhōng)存在着這樣一(yī)種現象:越受人們關注的事物(wù),越難搞準其數據,越難給予準确預測,我(wǒ)(wǒ)們稱之爲“測不準”規律。因爲,越受人們關注的事物(wù),越容易受各種外(wài)部因素的幹擾。例如,前述的Google于2008年成功進行了流感爆發預測,但之後各年再也未能取得同樣的成功,而是預測結果明顯偏大(dà)。究其原因,人們在得知(zhī)Google成功預測了流感之後,與流感檢索有關的詞彙受到了大(dà)量而廣泛的關注,而預測模型卻難以及時應對這種外(wài)部信息幹擾,不知(zhī)不覺中(zhōng)放(fàng)大(dà)了預測結果。事實上,很多人檢索與流感有關的詞彙不是因爲感冒或即将感冒了,而是因爲想去(qù)了解Google是如何進行流感預測的。這些檢索數據,我(wǒ)(wǒ)們不妨稱之爲“範圍外(wài)的數據”。一(yī)旦受到外(wài)部數據的幹擾,大(dà)數據分(fēn)析就會陷入“測不準”的迷途。因此,我(wǒ)(wǒ)們應用大(dà)數據,必須十分(fēn)注意哪些是範圍内的數據、哪些是範圍外(wài)的數據。或許,這種區分(fēn)本身就十分(fēn)困難。此外(wài),基于機器學習的預測模型的構建,也要注意用于訓練的數據與其他數據(特别是新增加的數據)之間的差異性,以避免過度拟合問題。過度拟合的模型對于有差異的數據就缺乏處理能力,從而也會掉入“測不準”的陷阱。
五、結語
廣泛應用大(dà)數據的時代已經來臨,關鍵在于如何應用才能産生(shēng)更好的效果,真正使大(dà)數據資(zī)源得到充分(fēn)的挖掘和利用。我(wǒ)(wǒ)們必須兩手抓,即一(yī)手抓規範化性建設,包括數據定義、數據分(fēn)類、數據測度、數據儲存、數據使用等的規範化,一(yī)手抓應用過程的質量控制,包括數據選擇、數據銜接、數據分(fēn)析、數據審核等的規範化。隻有早做準備,我(wǒ)(wǒ)們才能不斷提升應用大(dà)數據的能力和水平,确保大(dà)數據應用的質量。