[技術分享] 數據科學家不是算命先生:學會如何提問

 作者:新投云  發布于:2017-07-07  瀏覽數:
數據科學家不是算命先生:學會如何提問

 大數據與企業業務的聯系正在日漸緊密,雖然數十年來,眾多企業一直都在研究數據分析,但是數據科學依然是一個相對較新的概念。讓我們突然間開始接受這樣一種數據驅動的文化,還是有一定難度的,尤其是對于那些對數據并沒有太深了解的人來說尤其如此。

面對大數據,很多人最大的問題這一,就是不知道應該如何從數據科學家那里獲取新的數據或是數據分析。他們不知道該問哪些問題,不知道該使用什么樣的術語,也不知道要想獲得自己想要的信息,他們需要考慮哪些因素。當所獲得的信息并非他們所需要的信息的時候,管理人員會感到明顯的挫敗感。

我們應該問哪些問題?在進行數據分析的時候,你首先需要搞清楚自己的目標。你要考慮你希望數據對你的業務產生什么樣的影響,以及公司自身的能力,能夠依靠這些數據采取哪些行動。你要將這些信息告訴數據科學家,在了解了你的需求之后,他們能夠更好的判斷你需要的是哪些信息和數據。

即使是最細微的歧義也能產生巨大的負面影響。例如,廣告經理可能會問數據科學家:哪些方法可以最有效的增加銷售情況?雖然這個問題看上去并沒有什么問題,但是它可能并不是一個好問題,因為大多數企業的真正目標并不是增加銷售,而是要讓利潤最大化。因此在和數據科學家溝通的時候,你要做到盡可能的詳細與精確。

我們需要哪些數據?在你闡明了自己的目的之后,下一步要做的,就是和數據科學家一起評估數據的可用性了。先看看是否已經有其它企業做了類似的數據分析。現在的公共數據越來越多,很多時候使用公共數據可以幫你解決很多一般性的問題。

之后你還要考慮你找到的公共數據是否適合你要解決的問題,評估數據的有效性。你所找到的數據或許并沒有包含所有你所需的信息。你還需要評估數據的中立性,并不是大規模的樣本就一定是中立的。

最后你還需要問問數據科學家這些數據是否足以讓他找到答案。

如何獲得數據?當你需要更多數據的時候,數據科學家必須在兩種數據獲取方式之間做出選擇。第一,使用企業業務進展過程中所產生的數據;第二,通過實驗獲得新數據。在和數據分析人員溝通的過程中,你需要問問他們兩種數據獲取方式的成本和各自的優勢。第一種方法成本較低,但是相比實驗,這種數據的可靠性較低,因為它只能建立相關性,無法建立因果關系。實驗獲得的數據,能夠讓你獲得更多控制權,并且呈現可靠的因果關系信息,但是它的成本更高,而且數據分析起來更困難。其次,雖然實驗是一個完全合法的東西,但是一些用戶非常排斥自己成為實驗的參與者,管理者還必須要考慮到這一點,以免給企業帶來意料之外的影響。

數據是否清晰、容易分析?一般來說,數據有兩種呈現形式:結構化數據與無結構數據。從名字上就能看出來,結構化數據更易于添加到數據庫中。大多數分析人員都覺得結構化數據更容易操作,速度也更快。

而無結構數據則完全相反,它們通常沒有固定的格式,不易于存儲在企業所使用的數據庫中。然而,全世界95%的數據都是無結構數據。對于很多大型企業來說,儲存和操作無結構數據需要他們投入大量的資源,只有這樣才能從數據中提取有用的信息。你需要和公司的數據科學家一起,根據你們的目標和實際情況確定自己需要使用哪種數據

而且,即使是結構化數據,也需要數據分析師進行整理,或是查看數據是否有不完整、不準確的地方。在任何可能的情況下,你都需要鼓勵分析師優先使用清晰的數據。否則,他們將會把寶貴的時間和資源浪費在數據檢查上。通過使用清晰數據,你可以避免很多潛在的問題,并且節省時間和資源。

模型是否過于復雜?統計學技巧和開源工具能夠很好的幫你分析大量數據,但是即使如此,很多時候簡單性都是你最優的選擇。你所用的工具越復雜,你要花的時間就越長。你應該可數據科學家一起,找到一種簡單的方式和工具來對數據進行處理和分析。在進行數據分析的時候,你應該時刻提醒自己采取KISS原則:“Keep It Simple, Stupid!”

在進行數據收集和分析的時候,有時候你可能會發現很多無法避免的問題。但是你可以使用上述步驟來降低成本和風險。通過向數據科學家進行正確的提問,你能夠讓你們之間的合作更順暢一些,讓你更輕松的獲得你意圖中的信息和數據分析。


相關文章

三期必中一期平特肖