글과 사진, 그리고 이야기

IE & SWCON/Data Science

[부스트코스] 건강정보데이터 분석하기

뱃놀이가자 2023. 3. 22. 00:53
728x90

부스트코스의 무료강좌인 파이썬으로 시작하는 데이터 사이언스 (박조은) 강좌에 대한 학습을 바탕으로 요약한 내용입니다.

 

chapter 3에 해당하는 내용인 건강검진 데이터로 가설검정하기 입니다.

 

공공데이터에는 매년 100만명의 건강정보데이터를 익명으로 데이터를 마스킹 처리하여 공개합니다.

키, 몸무게와 같은 간단한 정보외에도 세부적인 지표까지도 공개를 하고 있습니다. 

 

건강정보에 대한 지식을 미리 공부한다면 조금 더 의미있는 가설검정을 통한 인사이트를 발견할 수 있을 것입니다

 


ch3에서 데이터분석의 기본을 알려주었다면 ch4는 시각화의 tool인 seaborn위주로 다양한 통계 방법과 도표를 추출하는 작업을 알려줍니다. 

 

특히 hue라는 필터와 같은 기능이 있는 것이 앞으로 시각화를 할 때 매우 유용하게 관찰할 수 있을 것 같습니다.

 

파이썬의 장점은 정말 빠른 계산속도에 있는 것 같다는 생각이 들었습니다.

사실 시각화정도는 어떻게든지 엑셀을 뜯고 말리고 요리하면 뚝딱 더 이쁘게 만들 수도 있겠는데

 

100만건이 넘는 데이터의 계산과정에서 파이썬 프로그램의 장점이 돋보이는 것 같습니다.

 

sampling을 통해 1000만건중 100개의 rows로 줄이고 기존의 34개의 row에 해당하는 

즉, 인덱스로는 3400개의 데이터 간의 상관관계를 뽑아내는데 걸리는 시간은 

단 34밀리세컨드

진짜 말이 안되는 속도에 놀랐습니다.

 

다만 시각화를 위한 그래프 툴 중에서 시각화 전에 계산과정을 거쳐 그래프로 뽑아내는 함수들도 있어 

그런 경우는 길게 20여초까지 기다리기도 하니 참고하시면 좋겠습니다.

 


결론은 ! 

  • 음주여부에 따른 건강검진 수치가 있을까?
  • Y

 

  • 신장과 허리둘레, 체중의 상관관계는?
  • 신장과 허리둘레의 상관관계는 0.31
  • 신장과 체중의 상관관계는 0.67
  • 허리둘레와 체중의 상관관계는 0.79

요렇게 나왔고, 데이터가 다양하니만큼 더 다양한 인사이트를 얻을 수 있을 것 같습니다~

 

728x90