五個數據分析成功案例數據分析項目案例

2026-04-24 生活百科生還

今天給大家實操的案例是泰坦尼克號生存率的分析，這個案例已經有很多人寫過，算是個比較經典的案例，通過船上乘客的信息分析和建模，預測哪些乘客得以生還，對數據分析新手來說很有學習價值，本篇就帶大家用這個數據集進行一次完整的數據分析
使用工具：Excel（對，就是這么簡單粗暴），數據集獲取方式見文末
一、明確目的 1912年泰坦尼克號撞上冰山沉沒，船上2224名乘客和機組人員中有1502人遇難，幸存下來的人是出于運氣還是存在一定的規律？這是我們比較關心的，所以就要提出問題：

那些人士生還的可能性大？

其次了解數據，數據集總共有以下的字段，其中name、sex、cabin、embarked、ticket是字符串類型，pclass和survived雖然是數值型，但其含義是標簽，我們分別從艙位、乘客、船票和地域的維度出發來分析。
二、數據處理通過查看，發現Age、fare、embarked、cabin字段都是有缺失的，下面我們一個一個來看。
1、age缺失值處理
篩選age一列為空的有263條數據，缺失率為20%，可以全部填充為年齡的均值或眾數，也可以進一步地分析，發現年齡缺失的數據里三等艙的最多，占總缺失值的79%，而三等艙里的未生還的男性占比最多，因此也可以用三等艙年齡的平均值來填充。
這里為了保持數據的真實性，就不做填充處理了
2、fare缺失值處理
篩選發現fare（票價）只缺失了一個值，我們把它找出來，發現可以用同類型的均值填充掉。
因此我們篩選三等艙、年齡大于60歲的，登船港口為S的男性的均值票價7來填充這個缺失值。
3、embarked缺失值處理
embarked登船港口字段也有2個缺失值，篩選出來看下。
進一步觀察到，這兩個旅客都是單獨出行，沒有家人（從sibsp和parch列均為0得知），延續對fare缺失值處理的思路，尋找同類型的進行填充。對第一個旅客，篩選出頭等艙的年齡在35~40歲的女性中，港口最多的值填充進去，結果是S 。

同樣的方法，對第二個旅客，篩選頭等艙年齡在60~65歲的女性中，登陸港口最多的值，結果也為S 。
4、cabin缺失值處理
對于cabin（客艙）字段缺失值達到了77%，缺失太多了，就不做填充處理了，直接保留或刪除，這里先保留著吧。
三、數據分析 1、艙位維度
pclass對艙位和生還情況分析，插入數據透視表
生還的人里，頭等艙的占比達到了40% 。
對每個艙位的生存死亡情況做百分比堆積柱形圖，可以看到，頭等艙生還的人數占比最多，達到61.92%，三等艙的生還人數占比最少，僅25.33%，所以還是那句老話，錢雖然不是萬能的，但沒錢@#%&^…

猜你喜歡

上一篇：番薯原產地在哪里

下一篇：滅火器檢查步驟