今天給大家實操的案例是泰坦尼克號生存率的分析,這個案例已經有很多人寫過,算是個比較經典的案例,通過船上乘客的信息分析和建模,預測哪些乘客得以生還,對數據分析新手來說很有學習價值,本篇就帶大家用這個數據集進行一次完整的數據分析
使用工具:Excel(對,就是這么簡單粗暴),數據集獲取方式見文末
一、明確目的 1912年泰坦尼克號撞上冰山沉沒,船上2224名乘客和機組人員中有1502人遇難,幸存下來的人是出于運氣還是存在一定的規律?這是我們比較關心的,所以就要提出問題:
那些人士生還的可能性大?其次了解數據,數據集總共有以下的字段,其中name、sex、cabin、embarked、ticket是字符串類型,pclass和survived雖然是數值型,但其含義是標簽,我們分別從艙位、乘客、船票和地域的維度出發來分析 。
二、數據處理 通過查看,發現Age、fare、embarked、cabin字段都是有缺失的,下面我們一個一個來看 。
1、age缺失值處理
篩選age一列為空的有263條數據,缺失率為20%,可以全部填充為年齡的均值或眾數,也可以進一步地分析,發現年齡缺失的數據里三等艙的最多,占總缺失值的79%,而三等艙里的未生還的男性占比最多,因此也可以用三等艙年齡的平均值來填充 。
這里為了保持數據的真實性,就不做填充處理了
2、fare缺失值處理
篩選發現fare(票價)只缺失了一個值,我們把它找出來,發現可以用同類型的均值填充掉 。
因此我們篩選三等艙、年齡大于60歲的,登船港口為S的男性的均值票價7來填充這個缺失值 。
3、embarked缺失值處理
embarked登船港口字段也有2個缺失值,篩選出來看下 。
進一步觀察到,這兩個旅客都是單獨出行,沒有家人(從sibsp和parch列均為0得知),延續對fare缺失值處理的思路,尋找同類型的進行填充 。對第一個旅客,篩選出頭等艙的年齡在35~40歲的女性中,港口最多的值填充進去,結果是S 。
同樣的方法,對第二個旅客,篩選頭等艙年齡在60~65歲的女性中,登陸港口最多的值,結果也為S 。
4、cabin缺失值處理
對于cabin(客艙)字段缺失值達到了77%,缺失太多了,就不做填充處理了,直接保留或刪除,這里先保留著吧 。
三、數據分析 1、艙位維度
pclass對艙位和生還情況分析,插入數據透視表
生還的人里,頭等艙的占比達到了40% 。
對每個艙位的生存死亡情況做百分比堆積柱形圖,可以看到,頭等艙生還的人數占比最多,達到61.92%,三等艙的生還人數占比最少,僅25.33%,所以還是那句老話,錢雖然不是萬能的,但沒錢@#%&^…
猜你喜歡
- 微營銷怎么做,微營銷的五個技巧
- 廣告活動策劃方案案例,四個優秀成功案例分享
- excel2019數據分析工具 excel回歸分析怎么做預測
- 簡述這五個需求層次 產品需求的五個層次角度
- 五個小故事帶你領悟漢字的魅力 體現漢字特點的故事
- ajax請求的五個步驟 同步ajax請求
- 俄羅斯最冷的五個城市! 上揚斯克
- 窮人如何創業,五個低成本創業項目推薦
- hadoop數據分析案例 hadoop大數據開發基礎答案
- 知否種墨蘭五個女兒怎么最后無人敢娶 墨蘭的五個女兒結局
