圖片展示

社會調查數據建模及基于超圖的數據分(fēn)析方法

2019-03-15 14:44:10

浏覽:

針對現今的社會調查數據處理與分(fēn)析中(zhōng)存在的問題,該文通過三維矩陣建立了社會調查數據的數學模型。将每一(yī)題表示爲空間中(zhōng)的一(yī)個維度,每一(yī)張問卷表示成一(yī)個矩陣,将多個矩陣疊加即可得到社會調查數據的三維矩陣模型。在建立三維矩陣模型的基礎上,可以利用三維矩陣的性質對其進行多種數學處理,也可以采用超圖理論對數據進行進一(yī)步的分(fēn)析,大(dà)大(dà)豐富了調查數據的處理方法。

社會調查數據建模及基于超圖的數據分(fēn)析方法


社會調查數據如何建模?

針對現今的社會調查數據處理與分(fēn)析中(zhōng)存在的問題,該文通過三維矩陣建立了社會調查數據的數學模型。将每一(yī)題表示爲空間中(zhōng)的一(yī)個維度,每一(yī)張問卷表示成一(yī)個矩陣,将多個矩陣疊加即可得到社會調查數據的三維矩陣模型。在建立三維矩陣模型的基礎上,可以利用三維矩陣的性質對其進行多種數學處理,也可以采用超圖理論對數據進行進一(yī)步的分(fēn)析,大(dà)大(dà)豐富了調查數據的處理方法。

社會調查是了解各方面信息的重要途徑之一(yī),社會調查數據主要是通過調查問卷的方法得到的。由于社會調查數據的維數較高,加上人爲主觀因素,數據類型主要爲二元變量、離(lí)散變量、序數變量等爲主,所以對于社會調查數據的分(fēn)析和處理大(dà)都基于統計學,隻對單一(yī)題目進行統計學分(fēn)析,其分(fēn)析方法主要是基于題型進行處理的,對于題目和題目之間的關系很少關心[1]。許多數據挖掘算法因爲種種限制無法在社會調查的數據分(fēn)析中(zhōng)得到應用。因爲方法的限制,所以現在很多社會調查隻能驗證事先想好的内容和假設,很少可以對高維數據進行相對複雜(zá)的回歸分(fēn)析處理。

根據以上存在的問題,該文建立了基于三維矩陣的數學模型,将單選題、多選題和排序題用向量形式進行表示,每一(yī)題定義爲空間中(zhōng)的一(yī)個維度,從而所有的題目就可以構成一(yī)個N維空間。每份問卷的信息用一(yī)個M×N矩陣表示。這樣表示可以将所有問卷内容當作一(yī)個整體(tǐ),作爲後續算法的基礎。


一(yī)、社會調查數據的特點

通常情況下(xià),社會調查數據特點如下(xià)。

(1)相關性

對于一(yī)個樣本個體(tǐ)而言,它具有本身的多個特征,這些特征之間就具有一(yī)定的相關性。對于多個樣本而言,個體(tǐ)與個體(tǐ)的特征之間具有相關性。如果樣本随時間而變化,那麽該樣本在不同時刻的特征之間又(yòu)具有相關性。因此,由于上述多個原因使得社會調查數據具有了複雜(zá)的相關性,傳統的統計學調查難以解決這樣的問題。

(2)離(lí)散性

因爲社會調查數據是通過自填式問卷、網絡調查數據庫等方法得到,所以社會調查數據一(yī)般以離(lí)散變量爲主,且這些數據之間隻有标示作用,并沒有嚴格的邏輯關系。

(3)模糊性

社會調查數據當中(zhōng)不可避免的會接觸到各種表達方式和概念,因此,它具有模糊性。因爲由自填式問卷或結構式訪問的方法得到的社會調查數據具有以上特點,所以在實際應用中(zhōng)基于統計學的處理方法隻能籠統的顯示數據的部分(fēn)特性,如頻(pín)數、離(lí)散程度等[2]。對于數據之間的關系隻能分(fēn)析出維數極少的大(dà)緻的關系。而且利用軟件進行數據挖掘時,因爲現有的軟件中(zhōng)的數據挖掘算法對于數據類型和格式要求較高,所以能應用到的數據挖掘算法很少。就算是數據要求較低的關聯分(fēn)析,其結果也存在大(dà)量的冗餘。因此,我(wǒ)(wǒ)們需要建立一(yī)個合适的社會調查數據的數學模型來完善原先的方法并使跟多的數據挖掘方法可以運用到其中(zhōng),使得結果更準确。


二、社會調查數據的建模

研究中(zhōng)我(wǒ)(wǒ)們發現,三維矩陣可适用于社會調查數據的建模。

1.三維矩陣的定義

三維矩陣的定義:由n個p×q階的矩陣組成的n×p×q階的矩陣A稱爲三維矩陣,又(yòu)稱立體(tǐ)陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中(zhōng)n,p,q分(fēn)别表示三維矩陣的高度,厚度和寬度。


2.三維矩陣模型的建立

調查問卷的題目一(yī)般有三種類型:單選題、多選題和排序題。這三類題目都可以表示成向量的形式,其中(zhōng)每一(yī)道單選題、多選題可以表示成一(yī)個向量,排序題可以表示成多個向量組成的矩陣。對于單選題和多選題,可以按選項的順序可以表示成一(yī)個向量,其中(zhōng)選中(zhōng)的用“1”表示,未選中(zhōng)的項用“0”表示。對于排序題,可以表示成一(yī)個n×n的方陣,,其中(zhōng)n表示該排序題的選項數,。這樣,每一(yī)題就可以定義爲空間中(zhōng)的一(yī)個維度,從而所有的題目就可以構成一(yī)個N維空間。每份調查問卷的信息用一(yī)個M×N矩陣表示(M爲題目的最大(dà)選項數),其在每一(yī)維上的選擇稱之爲一(yī)個元素,這樣每份問卷的信息就包括了N個元素。以第1,2,3題數據爲例,其中(zhōng)第1題爲單選題選擇“B”,用向量 (0,1, 0..0)T 表示爲一(yī)個元素,第2題爲多選題選擇“ACE”,用向量 (1, 0,1, 0,1, 0..0)T 表示爲一(yī)個元素,第3題爲排序題順序爲CBADEFIHG,用矩陣表示,每一(yī)個列向量是一(yī)個元素,如圖1所示。

那麽,假設有一(yī)問卷信息用一(yī)個大(dà)小(xiǎo)爲M×N的矩陣表示。K份的問卷信息就可以用K個大(dà)小(xiǎo)爲M×N的矩陣表示。将這K個矩陣疊加,形成一(yī)個三維矩陣。這個三維矩陣就是我(wǒ)(wǒ)們建立的三維矩陣數學模型,如圖2所示。



在圖2中(zhōng)我(wǒ)(wǒ)們看到,該三維矩陣數學模型有三個坐标軸,它們分(fēn)别是題目、人數、選項。題目軸以每一(yī)道題爲一(yī)個單位;人數軸以每一(yī)份問卷爲一(yī)個單位;選項軸的刻度A,B,C,D,E,F等題目選項,其個數爲該調查問卷中(zhōng)選項最多的題目的選項個數。在此基礎之上,這樣的三維矩陣具有以下(xià)性質。

(1) 在題目軸中(zhōng)選取對應的題目,将三維矩陣面向豎切得到截面1(如圖2中(zhōng)01所示),截面2表示每一(yī)道題所有人選擇的信息。

(2) 在人數軸中(zhōng)選取對應的人,将三維矩陣橫切得到橫截面1(如圖2中(zhōng)02所示),橫截面1表示對應的人選擇所有題目的信息。

在得到三維矩陣後,可對它進行像素化處理,置1的元素用黑點代替,置0元素的則空白(bái),在得到像素化三維矩陣後我(wǒ)(wǒ)們可以将三維矩陣沿着人數維度上向下(xià)投影,這樣就可以得到一(yī)個具有濃黑不一(yī)的點的平面。通過這些點的濃度,可以知(zhī)道每一(yī)選項選擇的人數。接下(xià)來我(wǒ)(wǒ)們可用灰度級表示點的濃度,篩選出濃度大(dà)于一(yī)定程度的點,在此基礎上進行後續算法處理。

上述三維矩陣數學模型具有數學三維矩陣的所有性質,可依據調查問卷的需求進行轉置,加權、相乘、篩選等數學處理,另外(wài)在數學處理的基礎上,采用超圖理論可以大(dà)大(dà)豐富了調查問卷的處理方法。



三、基于超圖算法的調查問卷分(fēn)析技術

超圖是離(lí)散數學中(zhōng)重要的内容,是對圖論的推廣[3]。超圖是有限集合的子系統,它是一(yī)個由頂點的集合V和超邊集合E組成的二元對,超圖的一(yī)條邊可以有多個頂點的特性,這與一(yī)般的圖有很大(dà)不同。超圖分(fēn)爲有向超圖與無向超圖兩類,在無向超圖的每條超邊上添加方向後得到的有向二元對就是有向超圖。

超圖在許多領域有廣泛的應用。大(dà)家可以利用無向超圖表示每一(yī)道題的選擇情況,先将這每一(yī)題的每一(yī)個選項設成一(yī)個節點,然後将三維矩陣從上向下(xià)投影,如果某一(yī)題的若幹個選項同時被一(yī)個人選擇,就用一(yī)條超邊包圍這些節點,那麽選這些選項的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問卷中(zhōng)每道題的信息,可以進行聚類處理。

利用有向超圖,可以将關聯規則表示成有向超圖的形式,在得到了關聯規則後,設實際中(zhōng)得到的關聯規則的形式爲:前項和後項都是由多個項組成的集合。該文定義一(yī)條關聯規則由一(yī)條有向超邊表示,有向超邊的頭節點表示關聯規則的前項,有向超邊的尾節點表示關聯規則的後項。每條有向超邊的頭節點和尾節點均可以爲多個,如此便成功表示了複合規則,從而可以使用相關算法進行冗餘規則檢測。

通過基于有向超圖的冗餘規則檢測就可以将關聯規則之間存在着的大(dà)量冗餘檢測出,減少挖掘資(zī)源的浪費(fèi),從而增加了挖掘結果的有效性。

傳統的聚類方法都對原始數據計算它們之間的距離(lí)來得到相似度,然後通過相似度進行聚類,這樣的方法對于低維數據有良好的效果,但是對于高維數據卻不能産生(shēng)很好的聚類效果,因爲高維數據的分(fēn)布有其特殊性。通過超圖模型的分(fēn)割實現對高維數據的聚類卻能産生(shēng)較好的效果。它先将原始數據之間關系轉化成超圖,數據點表示成超圖的節點,數據點間的關系用超邊的權重來表示。然後對超圖進行分(fēn)割,除去(qù)相應的超邊使得權重大(dà)的超邊中(zhōng)的點聚于一(yī)個類中(zhōng),同時使被除去(qù)的超邊權重之和最小(xiǎo)。這樣就通過對超圖的分(fēn)割實現了對數據的聚類。具體(tǐ)的算法流程如下(xià)。

首先,将數據點之間的關系轉化爲超圖,數據點表示爲超圖節點。如果某幾個數據點的支持度大(dà)于一(yī)定阈值,則它們能構成一(yī)個頻(pín)繁集,就将它們用一(yī)條超邊連接,超邊的權重就是這一(yī)頻(pín)繁集的置信度,重複同樣的方法就可以得超邊和權重。

然後,在基礎此上,通過超圖分(fēn)割實現數據的聚類。若設将數據分(fēn)成k類,則就是對超圖的k類分(fēn)割,不斷除去(qù)相應的超邊,直到将數據分(fēn)爲k類,且每個分(fēn)割中(zhōng)數據都密切相關爲止,同時保持每次被除去(qù)的超邊權重和最小(xiǎo),最終得到的分(fēn)割就是聚類的結果。



如圖3所示是基于超圖算法的選題型調查問卷的分(fēn)析技術的流程圖,主要包括4個主要部分(fēn),一(yī)是用向量表示調查問卷結果,二是将向量表示的調查問卷轉化爲三維矩陣數學模型表示調查問卷結果,三是使用超圖算法進行優化,四是根據要求顯示調查問卷結果。


四、結語

該文針對社會調查數據處理與分(fēn)析中(zhōng)存在的問題,建立了基于三維矩陣的數學模型,将單選題和多選題表示成向量,将排序題表示成多個列向量,從而每一(yī)題可以表示成空間的一(yī)個維度,每一(yī)個向量就是一(yī)個元素,這樣每一(yī)張問卷就可以表示成一(yī)個矩陣,通過将多個矩陣疊加就可以得到三維矩陣。該數學模型可以利用三維矩陣的性質對其進行多種數學處理,如豎切、橫切、像素化後投影等。在數學處理的基礎上,該文又(yòu)提出超圖理論對數據進行聚類和檢測冗餘規則的分(fēn)析。


參考文獻
[1] 陳慧萍,王煜,王建東.高維數據挖掘算法的研究與進展[J].計算機工(gōng)程與應用,2006(24):170-173.
[2] 張東.基于VFP的調查問卷通用統計彙總生(shēng)成系統的設計與實現[J].科技資(zī)訊,2006(10):183.
[3] 奚維吉.用戶滿意度調查的數據處理[J].科技資(zī)訊,2007(8):253-254.
[4] 崔陽,楊炳儒.超圖在數據挖掘領域中(zhōng)的幾個應用[J].計算機科學,2010,37(6):220-222.
[5] 朱玉全,楊鶴标,孫蕾.數據挖掘技術[M].南(nán)京:東南(nán)大(dà)學出版社,2006.
[6] 王志(zhì)平,王衆托.超網絡理論及其應用[M].北(běi)京:科學出版社,2008.
[7] Jong Soo Park,Ming-Syan Chen,Philip S.Yu.Using a hash-based method with transaction trimming for mining associationrules [J].IEEE Transactions on knowledge andengineering,1997,9(5):813-825.
[8] 王海英,黃強,李傳濤,等.圖論算法及其 MATLAB實現[M].北(běi)京航空航天大(dà)學出版社,2010.
[9] H.Toivonen. Sampling large databases for association rules [C]// Proc. 1996 Int. Conf. Very Large Data Bases (VLDB'96).1996.
[10]Marco Dorigo, Vittorio Maniezzo, Alberto Colorni. The ant system: optimization by a colony of cooperative agents [J].Physical Review Letters,1995,75(14):2686-2689.
[11]S. Brin, R. Motwani, J. D.Ullman,et al.Dynamic itemset counting and implication rules for market basket data [J].ACMSIGMOD Record,1997,26(2):255-264.
[12]金欣磊,馬龍華,吳鐵軍,等.基于随機過程的 PSO 收斂性分(fēn)析[J].自動化學報,2007,33(12):1263-1268.
[13]Van de Bergh F, A P Engelbrecht. A study of particle swarm optimization trajectories [J].Information Sciences, 2006,17(6):937-971.

《科技資(zī)訊》2016年第4期





作者: 緻思調研

來源: 《科技資(zī)訊》2016年第4期
0
社會調查數據建模及基于超圖的數據分(fēn)析方法
針對現今的社會調查數據處理與分(fēn)析中(zhōng)存在的問題,該文通過三維矩陣建立了社會調查數據的數學模型。将每一(yī)題表示爲空間中(zhōng)的一(yī)個維度,每一(yī)張問卷表示成一(yī)個矩陣,将多個矩陣疊加即可得到社會調查數據的三維矩陣模型。在建立三維矩陣模型的基礎上,可以利用三維矩陣的性質對其進行多種數學處理,也可以采用超圖理論對數據進行進一(yī)步的分(fēn)析,大(dà)大(dà)豐富了調查數據的處理方法。
長按圖片保存/分(fēn)享

版權所有:廣州多元大數據技術有限公司   地址:廣州市天河區黃埔大(dà)道西33号三新大(dà)廈21樓B室   電話(huà):020-37618080   郵箱:Marketing@thinkwell.com.cn   

技術支持:網亭科技  備案号:

客服中(zhōng)心
固話(huà):
020-61569306
手機:
13925111811
郵箱:
13925111811@139.com
上班時間:
周一(yī)到周五
二維碼
微信公衆号
添加微信好友,詳細了解産品
使用企業微信
“掃一(yī)掃”加入群聊
複制成功
添加微信好友,詳細了解産品
我(wǒ)(wǒ)知(zhī)道了