타이타닉 생존자 예측 분석 (2-2) EDA(연령대별)

타이타닉 생존자 예측 분석 (2-2) EDA(연령대별) - v.1.0.1

qwer.ty_v 2023. 1. 5. 13:33

2023. 1. 5. 13:33

이전 포스트

2023.01.04 - [Kaggle/타이타닉] - 타이타닉 생존자 예측 분석 (2-1) EDA(성별) v.1.0.1

타이타닉 생존자 예측 분석 (2-1) EDA(성별) - v.1.0.1

- 개요 우선 데이터 사이언티스트 (이하 DS)의 꿈을 가장 크게 꾸게 해준 타이타닉은 매우 흥미로웠다. 타이타닉에 탑승했던 사람들의 일련의 데이터들을 토대로 정보로 이끌어 내어 분석하여 그

drewvvv.tistory.com

3. 연령대별 - EDA

age: Age is fractional if less than 1. If the age is estimated, is it in the form of xx.5
# 나이가 1 미만인 경우 1살 미만의 영유아의 개월 수 이다.

연령대별 분포를 확인하기 이전에 위의 설명에서 연령이 1미만인 경우를 확인해본다.
데이터는 몇개 없으나 영유아의 경우 Parch가 1이상인 것을 확인할 수 있다.

트레인 셋의 결측치를 확인해보니 Age에서 177개가 확인되었다.
결측치를 처리하는 방법은 대체/제외가 있고, 다른 버전의 EDA에서는 성능에 따른 다양한 결측치 처리 방법을 시도해 볼 것이다.

1
2
3
4
5
6

# rugplot
# rug는 rugplot이라고도 불리우며, 데이터 위치를 x축 위에 **작은 선분(rug)으로 나타내어
# 데이터들의 위치 및 분포**를 보여준다.
sns.set(rc = {'figure.figsize':(10,8)})
sns.distplot(train['Age'], rug=True, hist=True, kde=True) # histplot 사용 권장 
plt.show()
Colored by Color Scripter

cs


우선 Age의 분포를 그래프로 확인해본다. 

현재 distplot을 사용하면 histplot을 사용하라고 경고가 뜨지만 한번 distplot의 옵셥을 주어 표현해 보았다.
연령의 분포는 어느정도 정규분포를 그리고 있으며 20~30대 구간이 많은 것을 볼 수 있다.
분포가 정규분포를 그리는 것으로 보아 Age 컬럼의 구간을 나눌 때 표준편차를 활용하는 것이 좋을 것이라 판단되나, 임의로 10의 크기로 구간을 분할해보도록 한다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

# 연령대를 임의의 10의 크기로 분할 
for index, item in enumerate(train['Age']):
    if item < 10:
        result = 0
    elif item >= 10 and item < 20:
        result = 1
    elif item >= 20 and item < 30:
        result = 2
    elif item >= 30 and item < 40:
        result = 3
    elif item >= 40 and item < 50:
        result = 4
    elif item >= 50 and item < 60:
        result = 5
    elif item >= 60 and item < 70:
        result = 6
    elif item >= 70 and item <= 80:
        result = 7
    elif item > 80 and item < 90:
        result = 8
    else:
        result = 99
    
    train.loc[index, 'ca_Age'] = result
train['ca_Age']

cs

 

연령대 범주별 분포

연령대 범주별 생존율
연령대별/성별로 구분한 경우 모든 연령대에서 여성의 생존이 남성보다 높음을 확인할 수 있다.

1
2
3
4
5
6
7
8
9
10

fig = plt.figure(figsize=(10,5))
 
area01 = fig.add_subplot(1,2,1)
area02 = fig.add_subplot(1,2,2)
 
sns.countplot(data = train, x = 'ca_Age', hue = "Sex", ax = area01)
sns.barplot(data = train, x = "ca_Age", y = "Survived", hue = "Sex", errwidth = 0, ax = area02)
 
plt.show()
# 전체 각 연령대에서 남성이 여성보다 많지만 생존의 경우는 ca_Age 0을 제외하고 모두 여성이 높음
Colored by Color Scripter

cs

전체 각 연령대에서 남성이 여성보다 많지만 생존의 경우는 ca_Age == 0은 나름 비등하지만 나머지 모두에선 여성이 높음을 확인할 수 있다.

1
2
3
4
5
6
7
8

from statsmodels.graphics.mosaicplot import mosaic
 
 
mosaic(train.sort_values('Pclass'), ['Survived', 'ca_Age', 'Sex'], gap=0.002)
plt.title('Survivor of Titanic', fontsize=20)
 
plt.show()
# 대부분의 연령대별 사망자는 남자가 지배적
Colored by Color Scripter

cs

대부분의 연령대별 사망자는 남자가 지배적인 것을 확인할 수 있다.

다음 포스트

2023.01.09 - [분류 전체보기] - 타이타닉 생존자 예측 분석 (2-3) EDA(상관관계 및 기타) - v.1.0.1

타이타닉 생존자 예측 분석 (2-3) EDA(상관관계 및 기타) - v.1.0.1

이전 포스트 타이타닉 생존자 예측 분석 (2-2) EDA(연령대별) - v.1.0.1 이전 포스트 타이타닉 생존자 예측 분석 (2-1) EDA(성별) - v.1.0.1 - 개요 우선 데이터 사이언티스트 (이하 DS)의 꿈을 가장 크게 꾸

drewvvv.tistory.com

저작자표시 (새창열림)

'Kaggle > 타이타닉' 카테고리의 다른 글

타이타닉 생존자 예측 분석 (3-3) 데이터 인코딩 - v.1.0.1 (4)	2023.01.18
타이타닉 생존자 예측 분석 (3-2) 데이터 정리 - v.1.0.1 (0)	2023.01.12
타이타닉 생존자 예측 분석 (3-1) 전처리 (나이예측) - v.1.0.1 (0)	2023.01.09
타이타닉 생존자 예측 분석 (2-3) EDA(상관관계 및 기타) - v.1.0.1 (0)	2023.01.09
타이타닉 생존자 예측 분석 (2-1) EDA(성별) v.1.0.1 (0)	2023.01.04
타이타닉 생존자 예측 분석 (1) 개요 (0)	2023.01.04

qwer.ty_v

타이타닉 생존자 예측 분석 (2-2) EDA(연령대별) - v.1.0.1

3. 연령대별 - EDA

'Kaggle > 타이타닉' 카테고리의 다른 글

+ Recent posts

티스토리툴바