2020-05-20 17:41:54
浏覽:
“數據”二字,大(dà)家耳熟能詳。特别是本次新冠疫情,大(dà)家每天都在關注與疫情有關的數據。然而,到底什麽是數據、有什麽作用,并非人人都能道出一(yī)二。事實上,沒有人能真正弄明白(bái)什麽是數據,因爲它實在是太深奧了。或許,有人會說,我(wǒ)(wǒ)們每天都與數據打交道,怎麽會不了解數據?數據不就是通過觀察、測量、調查等手段和加減乘除等計算方式得到的,用以體(tǐ)現事物(wù)大(dà)小(xiǎo)、多少、強弱、快慢(màn)等的一(yī)組組數字麽?沒錯,這樣的數字當然是數據,
但這隻是數據最原始、最基礎的型态和最外(wài)在、最粗略的功能。客觀情況是,數據無處不在,但我(wǒ)(wǒ)們又(yòu)永遠缺少數據、永遠看不透數據。正所謂:不識廬山真面目,隻緣身在此山中(zhōng)。既然我(wǒ)(wǒ)們被數據所包圍、難以做到跳出數據山而一(yī)覽衆山小(xiǎo),那麽我(wǒ)(wǒ)們就隻能在數據的群山中(zhōng)摸爬滾打、探索前行。前行的不二法則就是不斷獲取和認識真實的數據,用真實的數據去(qù)破解一(yī)切未知(zhī),開(kāi)辟出一(yī)條條前進的路徑。
去(qù)年12月底,華東師範大(dà)學成立了統計交叉科學研究院,同時還舉行了交叉科學學術前沿研讨會。接到會議邀請函後,我(wǒ)(wǒ)就思考:爲什麽要成立統計交叉科學研究院?爲什麽能夠交叉?潛意識中(zhōng)腦海裏就跳出來一(yī)個概念:數據。我(wǒ)(wǒ)認爲,統計學與其他學科結合開(kāi)展交叉科學研究是爲了更有效地獲取數據、處理數據和分(fēn)析數據,進一(yī)步拓展統計學的研究領域、提升統計學的研究能力,以更好地解決實際問題。而統計學之所以可以與其他學科進行交叉融合,是因爲有數據這個共同的基礎,不同領域的數據可以通過翻譯轉換而成爲通用的語言。
問題的關鍵就是如何翻譯轉換,而交叉科學研究就是爲了尋找不同領域數據翻譯轉換的途徑,破解基于數據去(qù)認知(zhī)社會的密碼。這一(yī)點在如今的大(dà)數據時代更爲突出,因爲大(dà)量的非結構化數據是難以用傳統的統計方法去(qù)處理的,必須依賴各種先進的算法去(qù)揭開(kāi)其中(zhōng)的奧妙。學術會上,馬志(zhì)明院士等專家的大(dà)會報告給人以啓迪,也證實了我(wǒ)(wǒ)當時的初步感受。這也是促使我(wǒ)(wǒ)寫這篇文章的動因之一(yī)。
關于什麽是數據,限于篇幅,本文不再闡述。概言之,數據就是一(yī)切可以被記錄的事實。當然,這是廣義的理解。我(wǒ)(wǒ)想在此強調的是我(wǒ)(wǒ)曾經表達過的一(yī)個觀點:數據是人類最短缺、而且永遠短缺的資(zī)源。如今,數據已與勞動、技術、資(zī)本、土地、知(zhī)識、管理等并列作爲生(shēng)産要素,這是人類認知(zhī)的一(yī)大(dà)飛躍。但在我(wǒ)(wǒ)看來,在所有的生(shēng)産要素中(zhōng),數據才是最重要也是最短缺的。因爲,沒有數據就不可能有其他一(yī)切。無論是勞動效率的提高、資(zī)本效益的提升、土地效能的增強,還是技術層次的上升、知(zhī)識水平的創新、管理能力的進步,都離(lí)不開(kāi)數據這把金鑰匙幫助它們破解一(yī)個個密碼、打開(kāi)一(yī)條條通道。
按照如今我(wǒ)(wǒ)們對數據的理解,不難發現,古往今來,無論是戰争雙方竭力想獲取的情報還是各種占蔔算卦所謂的依據(例如我(wǒ)(wǒ)國的易經),無論是天文觀測所掌握的規律(例如一(yī)年365天、一(yī)天24小(xiǎo)時,我(wǒ)(wǒ)國的二十四節氣等)還是物(wù)理、化學、生(shēng)物(wù)等各種實驗研究得到的結果,無論是經濟運行各種關系的發現和結果呈現還是社會治理規則和法律法規的制定,如此等等,說到底它們都是數據、數據體(tǐ)系或者是以數據爲依據的信息。掌握了這些數據,就等于掌握了知(zhī)識。特别地,如果誰擁有了獨一(yī)無二的重要數據,那就意味着他擁有了某個方面的主導權或者壟斷地位。
人類爲什麽會有專利申請和保護?爲什麽要制定有關知(zhī)識産權的法律法規?因爲專利、知(zhī)識産權的核心就是數據,保護專利和知(zhī)識産權其實就是保護合法的數據所有權,也就是保護密碼權。它們既是一(yī)個國家或地區科技水平的重要标志(zhì),也是一(yī)個國家或地區核心競争力的重要體(tǐ)現。因此,國家之間的競争其實就是數據資(zī)源的競争。
爲了進一(yī)步強化對數據資(zī)源的理解,我(wǒ)(wǒ)們以我(wǒ)(wǒ)國傳統中(zhōng)醫爲例來加以說明。中(zhōng)醫講究望聞問切,越是老中(zhōng)醫越吃香,因爲他們越有經驗。名老中(zhōng)醫的價值就體(tǐ)現在藥方上。藥方是什麽?藥方就是數據,藥方就是治病的密碼。根據病症,需要哪些中(zhōng)藥、分(fēn)别需要幾克,那是很有講究的。爲什麽有些藥方看起來差不多,隻差了一(yī)兩味藥或藥量隻差了一(yī)兩克,效果卻大(dà)不一(yī)樣呢?因爲藥方的數據密碼不一(yī)樣了。從學徒到名醫,一(yī)方面靠天賦,但另一(yī)方面更靠望聞問切各個方面數據的積累。醫師看診過的病人越多,積累的數據自然就越多,隻不過以往的中(zhōng)醫全憑人腦記憶而不是用電腦儲存。事實上,他看診過程中(zhōng)所接受的許多信息是隻能意會而難以客觀記錄的。從每個個體(tǐ)病症的觀察、判斷到病症一(yī)般特征的總結、再從一(yī)般病症機理到個體(tǐ)病症施治,實際上就包含了數據收集、整理、分(fēn)析和運用的全過程,全都裝在中(zhōng)醫師的大(dà)腦之中(zhōng)。
很顯然,醫師看診過的病例越多,就相當于他調查的樣本量越大(dà),他的認知(zhī)就越穩定,從而對每個病人做出正确判斷的可能性就越大(dà),從而就越可以對症下(xià)藥。随着病例的增多,名老中(zhōng)醫不僅能很熟練診斷常規化的病症,而且還能應對各種疑難雜(zá)症。這些疑難雜(zá)症就相當于統計中(zhōng)的異常值或一(yī)定概率下(xià)某種分(fēn)布置信區間外(wài)的數值,這些數據對于生(shēng)命來說十分(fēn)重要,不能輕易删除。其實,基于每個病人通過望聞問切得到的信息,就是該病人的小(xiǎo)數據,如果這些小(xiǎo)數據都能夠加以完整客觀地記錄,那麽不斷增加的小(xiǎo)數據就相當于構成了大(dà)數據。可以說,名老中(zhōng)醫的威望建立在大(dà)數據基礎上,水平體(tǐ)現在對小(xiǎo)數據的把握上,價值隐含在藥方上。毫無疑問,中(zhōng)醫的診治過程就是數據的分(fēn)析過程,或者說破解病症密碼的過程。當然,依賴于儀器設備的西醫也是如此,基因測序就是基于數據的基因密碼破解。
對于人類來說,需要破解的密碼是無窮的。例如本次疫情,若我(wǒ)(wǒ)們能夠更早掌握其傳染力數據(R0),就可以更早做出預防。若我(wǒ)(wǒ)們能夠及時掌握出病毒構成及産生(shēng)的有關數據,就可以及早研制出有效的治療藥品和疫苗。人類認知(zhī)越多,未知(zhī)也就越多,因爲任何未知(zhī)都是由已知(zhī)引起的,有所知(zhī)就想知(zhī)更多未知(zhī)。由于已被知(zhī)者相對易知(zhī),而未被知(zhī)者越來越難以知(zhī),因此人類想要認識更多的未知(zhī),惟一(yī)的途徑就是從數據這一(yī)通用的語言着手,即通過數據研究去(qù)破解認知(zhī)的密碼。
數據研究本身也是密碼破解的過程。在這方面,我(wǒ)(wǒ)們統計學是可以大(dà)有作爲的,因爲統計認識是人類最重要的認識手段,統計方法是最重要的數據研究方法。但是,統計認識不是萬能的,因爲數據在變,人類的期望也在變。特别是在如今“凡事皆爲數”的大(dà)數據時代,我(wǒ)(wǒ)們怎麽樣實現數據的翻譯轉換從而獲取新的知(zhī)識,是擺在我(wǒ)(wǒ)們面前的一(yī)大(dà)問題。爲此,我(wǒ)(wǒ)們一(yī)定要基于數據的定義弄清楚數據是怎麽形成的,其中(zhōng)尤爲重要的是要弄清楚它是随機的還是非随機的,因爲随機數據與非随機數據、半随機數據的研究方法是不同的,如果不管什麽數據都用随機性方法去(qù)研究是難以得出正确結論的。但這卻是我(wǒ)(wǒ)們目前正在犯的常見錯誤之一(yī)。其次,我(wǒ)(wǒ)們要弄清楚數據是以怎樣的類型或方式表現出來的,不同類型或方式的數據需要不同的方法去(qù)研究,在大(dà)數據中(zhōng)稱爲算法研究,包括編碼研究與譯碼研究。如果我(wǒ)(wǒ)們仍然用結構型數據的研究方法去(qù)研究其他類型的數據,那麽破解密碼的路徑就錯了。最後也是最重要的一(yī)是,我(wǒ)(wǒ)們要能讀懂數據中(zhōng)的含義,否則妄想進行數據分(fēn)析。對于統計認識而言,讀懂數據含義就意味着進行了正确的統計測度。然而讀懂數據是困難的,因爲數據經常處于内涵不明、界限不清、夾雜(zá)着各種白(bái)噪聲的狀态,同時往往還具有很強的行業領域特征。爲此,統計學需要與其他學科交叉融合,形成交叉科學研究方法,隻有這樣才能不斷拓展統計認識的視野、提升統計認識的水平、增強統計翻譯轉換數
據和破解密碼的能力。
總之,隻要人類的認知(zhī)活動不停步,那麽所需的數據就永遠會短缺,從而獲取數據、讀懂數據、分(fēn)析數據、從數據中(zhōng)尋找認知(zhī)密碼的步伐也就不會停止。數中(zhōng)自有黃金屋,數中(zhōng)自有顔如玉。讓我(wǒ)(wǒ)們充分(fēn)利用好寶貴的數據資(zī)源,不斷完善數據研究方法,爲人類認知(zhī)提供更多的密碼。