글과 사진, 그리고 이야기

IE & SWCON/Data Science

새로운 비만 평가 지표를 만들기 위해서 (2)

뱃놀이가자 2023. 11. 14. 20:35
728x90

데이터 변수별 상관관계를 탐색하는 과정을 거치면서 간단한 전처리를 진행하려고 한다.

사용하는 데이터는 질병관리청으로부터 공공데이터 개방을 요청해수집한 데이터이다.

 

전체 원본에서 우리가 구축하고자 하는 모델에 적합하도록 우선 일부 열을 선택했고 행도 조금 줄였다.

모델을 정하지 않은 단계에서 데이터 전처리를 너무 과감하게 진행한 감이 없지 않은 듯 한데, 이 부분이 조금 아쉽게 남는다. 그럼에도 수업에서 배운 오로지 수업에 의한 CRISP-DM 절차에 의해 그 과정을 이해하는 것에 의의를 두고 이어서 진행하도록 하겠다. 

 

우선 csv 파일중에서 겉보기에는 numeric해 보지만 실제로는 더 범주형에 가까워보였다. 

그래서 새롭게 수정을 했다 이를테면 아래 사진과 같이

 

 

이를 토대로 새롭게 음주량에 대한 아주아주 간단한 feature engineering을 진행했다. 

주간 음주 총량을 만들었다. 

 

다음은 이런 스케일링은 처음 시도해보았으나 어쩌면 우리의 target label이 될 수 있는 체형이 5단계로 나타나 있고 다른 attribute들은 max가 7로 되어 있어 스칼라 곱을 통해 5->7로 1.4씩 곱하는 것을 생각해봤다. 

 

이렇게 의미있는지 모르겠으나 이런저런 전처리를 진행한 후 히트맵을 그렸고 그 결과는.. 참혹하다.

다만 classification이 아니라면 굳이 heatmap에서 corrleation이 높을 필요는 없으니까 그냥 이런 과정을 밟았다는 것에 의의를 두고자 한다.

 

728x90