超碰在线最新入口_综合传媒操女人操_国产黄色裸体免费在线观看_中文字幕美女自慰_99视频精品全部播放

鄭州市中之易科技有限公司
聯(lián)系我們
大數(shù)據(jù)智能分析專(zhuān)家 讓辦案 更高效。

數(shù)據(jù)分析前的量化工作

2022-04-07 19:10:08   來(lái)源:
數(shù)據(jù)采集、特征提取、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理,這些是常規(guī)數(shù)據(jù)分析前的工作。

如果講到數(shù)據(jù)分析前有哪些事是需要我們做的,那么有幾個(gè)關(guān)鍵詞:數(shù)據(jù)采集、特征提取、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理,這些是常規(guī)數(shù)據(jù)分析前的工作。

那么再來(lái)看一下常規(guī)數(shù)據(jù)分析的流程,首先我們會(huì)有個(gè)需求,中間通過(guò)一些階段,到達(dá)數(shù)據(jù)預(yù)處理。通常做數(shù)據(jù)分析的人員是從這一步開(kāi)始,拿到數(shù)據(jù)開(kāi)始預(yù)處理以及數(shù)據(jù)分析、建模、結(jié)果可視化或者是產(chǎn)品的輸出。今天我想跟大家分享的是,中間通過(guò)的這些階段,有了需求之后,到數(shù)據(jù)采集這個(gè)階段,中間還需要利用數(shù)據(jù)分析方法做的事,包括數(shù)據(jù)采集中一部分量化的事情,也就是采集前,我們需要量化好后,才能做采集。

首先,需求理解與溝通

我們拿到了需求,這個(gè)需求可能是從客戶那溝通來(lái)的,也可能是領(lǐng)導(dǎo)給我們講的一句話,講的過(guò)程當(dāng)中,不同的人,溝通表達(dá)的復(fù)雜程度完全不同,有些人條理非常清楚、需求羅列,有的人講的天花亂墜,最后說(shuō)我的需求就這樣,你們自己看著辦,非常的發(fā)散和開(kāi)放。

那么這個(gè)時(shí)候,他的主題可能總結(jié)就一句話,我們第一步就是要細(xì)化研究類(lèi)工作。我給大家舉個(gè)例子:我們?cè)缟隙荚谑程贸赃^(guò)早餐,吃雞蛋的時(shí)候大家可能發(fā)現(xiàn),有的雞蛋殼容易剝,甚至直接吹就能吹下來(lái),有的雞蛋殼非常難剝,如果領(lǐng)導(dǎo)問(wèn)你,利用數(shù)據(jù)分析,說(shuō)一下這個(gè)問(wèn)題,你會(huì)從哪里入手。

拿到這樣一個(gè)生活場(chǎng)景里非常小的問(wèn)題:熟雞蛋為什么有些難剝有些容易剝?如果你拿到這個(gè)問(wèn)題,你的第一反應(yīng)是不是,我要數(shù)據(jù)。然后領(lǐng)導(dǎo)就說(shuō)你可以回去了。這個(gè)數(shù)據(jù),是要我們自己設(shè)計(jì)實(shí)現(xiàn)去收集的。

我們常規(guī)的數(shù)據(jù)分析的人員習(xí)慣別人提供整理好的數(shù)據(jù)進(jìn)行分析,但數(shù)據(jù)怎么收集,收集哪些數(shù)據(jù),通常也是數(shù)據(jù)分析的工作。

再看第二個(gè)例子:基本每一年,媒體都會(huì)發(fā)布這樣的消息,高考后的家庭,離婚率會(huì)增加,民政局就很想辟謠這個(gè)事情,如果讓我們來(lái)做,我們可以怎么做。

看第三個(gè)例子:很長(zhǎng)時(shí)間在知乎上特別火的帖子,男女之間有沒(méi)有純潔的友誼。

拿到這個(gè)需求,作為數(shù)據(jù)分析人員,第一步,拆解多個(gè)子話題(子需求),子需求的拆解并不是憑空想象的,聽(tīng)到這個(gè)話題的時(shí)候,有多個(gè)結(jié)論,比如說(shuō),知乎上就有幾個(gè)點(diǎn)贊率非常高的結(jié)論,第一個(gè)就是,男女之間有純潔的友誼,越丑越純;還有人說(shuō),等到結(jié)婚后就有純潔的友誼了。因?yàn)槲覀冄芯康木τ邢?,我們需要把大的話題拆分成多個(gè),從多個(gè)中先選一到兩個(gè)進(jìn)行研究。所以我們拆分:是不是所有的男女之間都有純潔的友誼,還是有些人有、有些人沒(méi)有;越丑越純——友誼跟顏值有沒(méi)有關(guān)系,有什么關(guān)系,顏值在其中起到多大作用;結(jié)婚(更年期)之后才純潔——友誼跟年齡有沒(méi)有關(guān)系;純潔的純度有多高;純潔的純度會(huì)不會(huì)有變化。這些都是經(jīng)過(guò)細(xì)化后的子研究?jī)?nèi)容,然后再去選取內(nèi)容,收集數(shù)據(jù)。

第二步,有了研究?jī)?nèi)容后,我們需要對(duì)概念進(jìn)行操作化。

可能大家沒(méi)有聽(tīng)說(shuō)過(guò)這些,但我們肯定聽(tīng)過(guò)另外一個(gè)名詞——抽象化或者叫做概念化,把抽象化的過(guò)程反過(guò)來(lái),叫做操作化。

以雞蛋難剝這個(gè)事情為例,可以操作化拆成兩個(gè),雞蛋的完整度和剝殼的時(shí)間,雞蛋的完整度是測(cè)量剝完雞蛋后還剩下多少。通過(guò)概念操作化,我們實(shí)現(xiàn)了把宏觀概念轉(zhuǎn)化成可測(cè)量的微觀概念,有了微觀概念,下一步,如何測(cè)量。剝殼時(shí)間直接用表就可以測(cè),那么完整度怎么測(cè)呢?剝完之后,雞蛋的表面可能是坑坑洼洼的,也可能掉了一半等等情況,概念操作化有一套嚴(yán)謹(jǐn)?shù)姆椒ㄕ?。抽象化的過(guò)程往往不同人做出來(lái)的結(jié)果是不一樣的,重復(fù)性比較差,但是操作化,不同人來(lái)做,往往重復(fù)性非常高,因?yàn)樽裱艘惶桌碚?mdash;—概念界定、概念分類(lèi)、設(shè)計(jì)自然指標(biāo)。

經(jīng)過(guò)操作化之后,我們要設(shè)計(jì)指標(biāo)以及測(cè)量工具。

再來(lái)說(shuō)男女之間純潔友誼的話題,我們界定一個(gè)指標(biāo)叫做友誼的純潔度,這個(gè)指標(biāo)也不是一兩句話就可以把握的,所以我們要設(shè)計(jì)一個(gè)專(zhuān)門(mén)的測(cè)量工具。有人可能會(huì)說(shuō),我做數(shù)據(jù)分析的,這些推給產(chǎn)品經(jīng)理做就可以了,通常也確實(shí)這么做的,但是掌握數(shù)據(jù)分析方法分析出來(lái)的數(shù)據(jù)和沒(méi)有掌握方法出來(lái)的數(shù)據(jù),往往有很大不同,有著可以落地和不可以落地的差別。

有了測(cè)量工具后,接下來(lái)需要檢驗(yàn):有效度、難易程度(針對(duì)不同人群)、信度、敏感度。

可以利用數(shù)據(jù)分析方法:項(xiàng)目分析、探索性因子分析、驗(yàn)證性因子分析,聚類(lèi)分析、IRT等等對(duì)測(cè)量工具進(jìn)行驗(yàn)證。如果測(cè)量工具無(wú)效的話,那么后續(xù)都不會(huì)有效,所以測(cè)量工具的非常重要,這些驗(yàn)證需要兩年或者更久的時(shí)間,最終得到精簡(jiǎn)有效的測(cè)量工具。當(dāng)然現(xiàn)在已經(jīng)有一些成熟的測(cè)量工具驗(yàn)證量表了,同樣,這些量表在心理學(xué)中應(yīng)用非常廣泛。

那么,測(cè)量工具檢驗(yàn)完,是不是就開(kāi)始數(shù)據(jù)收集呢?不是的。

下一步需要進(jìn)行理論模型設(shè)計(jì)

在做大數(shù)據(jù)的時(shí)候,包括數(shù)據(jù)挖掘等相關(guān)分析,方法都是涉及一個(gè)輸入層一個(gè)輸出層,這是個(gè)常規(guī)的模型,但是在實(shí)際問(wèn)題中,很多模型都不是這樣的,比如貝葉斯模型,我們研究人員肯定不會(huì)設(shè)計(jì)出這些東西,可能貝葉斯、馬爾科夫這些都沒(méi)有聽(tīng)說(shuō)過(guò),只有懂?dāng)?shù)據(jù)分析方法的人,了解這些方法,根據(jù)我們的業(yè)務(wù),涉及多少關(guān)系,關(guān)系是單向還是雙向的,等等,這樣的圖首先是懂?dāng)?shù)據(jù)分析方法的研究人員設(shè)計(jì)出來(lái),接下來(lái)才會(huì)進(jìn)入到數(shù)據(jù)收集階段。

數(shù)據(jù)收集可以在網(wǎng)上爬蟲(chóng)、直接從數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)、線下采集等途徑。

這里還要提及抽樣方法,抽樣的方法有很多種,通過(guò)不同理論模型選取不同的抽樣方法。舉一個(gè)案例:北方到冬天會(huì)有暖氣,采暖就會(huì)產(chǎn)生空氣污染,那么暖氣對(duì)人的壽命會(huì)不會(huì)產(chǎn)生影響呢?

我們?nèi)绾斡脭?shù)據(jù)分析的方法驗(yàn)證這個(gè)事情,數(shù)據(jù)我們要怎么取呢?我們常規(guī)的思路是在北方和南方各找一些人,看看暖氣對(duì)壽命會(huì)不會(huì)產(chǎn)生影響。

但是這里涉及因果關(guān)系的驗(yàn)證,因果關(guān)系在關(guān)系中有三個(gè)前提,第一個(gè)是,兩個(gè)事件必須相關(guān);第二個(gè)是,原因事件必須發(fā)生在結(jié)果事件之前;第三個(gè)就是,需要控制住干擾因素。

這個(gè)案例,有學(xué)者在常規(guī)方法基礎(chǔ)上提出改進(jìn)和創(chuàng)新,叫做斷點(diǎn)回歸。他不是在北方和南方去抽,他在中國(guó)的南北分界線的地方抽取,我們知道,壽命跟很多因素有關(guān)系,選擇淮河兩岸的人員,可以有效保證他們生活的環(huán)境等因素大致相同,然后他得到結(jié)論,有暖氣會(huì)讓人的壽命減少5.5年。上不上一本對(duì)未來(lái)發(fā)展有沒(méi)有影響,影響有多大?學(xué)者選取某省一本線的曲線,上下加減5分,在這個(gè)10分帶中,人的未來(lái)發(fā)展差別。同樣,這個(gè)案例也是利用斷點(diǎn)回歸的方法。在現(xiàn)實(shí)其他場(chǎng)景中,人們一般會(huì)考慮多個(gè)因素,那么涉及多個(gè)因素的所有人群是不是都要包含呢?其實(shí)不是,日本統(tǒng)計(jì)學(xué)家發(fā)明一種正交設(shè)計(jì)方法,挑取特定的覆蓋特征數(shù)據(jù)進(jìn)行采集。

接下來(lái),數(shù)據(jù)二次抽樣。

吉野家在做各種促銷(xiāo)活動(dòng),有次對(duì)營(yíng)銷(xiāo)平臺(tái)進(jìn)行改進(jìn),實(shí)驗(yàn)組,把展示圖片換成性感女模特的照片,配上宣傳文稿;對(duì)照組就用普通的圖片配上文字。得到促銷(xiāo)結(jié)果令人十分意外,實(shí)驗(yàn)組促銷(xiāo)比對(duì)照組要低得多,找原因,利用二次抽樣,二次抽樣的方法有PSM模型,這個(gè)方法使對(duì)照組和實(shí)驗(yàn)組數(shù)據(jù)一一匹配,可以有效解決樣本選擇性偏差。

上邊就是數(shù)據(jù)分析前,需要大家做的各種量化工作。


?

聯(lián)系地址

鄭州高新技術(shù)產(chǎn)業(yè)開(kāi)發(fā)區(qū)西三環(huán)279號(hào)河南省大學(xué)科技園12號(hào)樓13層1303室

咨詢熱線

0371-55355786

中易科技
鹿泉市| 阳山县| 望谟县| 卓资县| 会同县| 浦东新区| 新巴尔虎左旗| 吉林省| 枣阳市| 衡阳市| 常山县| 巢湖市| 江永县| 卓资县| 剑川县| 马山县| 翁牛特旗| 土默特左旗| 峡江县| 陇川县| 阜宁县| 景东| 吉木乃县| 深水埗区| 宝丰县| 张掖市| 金山区| 吉安市| 胶州市| 秭归县| 香格里拉县| 巧家县| 万载县| 育儿| 札达县| 平泉县| 武功县| 庐江县| 彝良县| 富民县| 贵阳市|