글과 사진, 그리고 이야기

데이터사이언스 3

새로운 비만 평가 지표를 만들기 위해서 (3)

수업에서 배운 오로지 수업에 의한 기본적으로 성능을 고려하지는 않음 우선, 다시 스케일링을 했다. 이유는 통일성을 위해서와 여러 전처리를 겪다보니 상당히 더러워진 데이터를 처음부터 정제하기 위해서. 아무튼 다시 전처리를 진행했고 그 내용은 (2) 와 별반 다르지 않다. 이를 바탕으로 Regression이나 Classification 모두를 사용해보았다. 물론 Regression이 연속형 데이터 셋에서 사용해야겠지만 처음에 의도했던 가중치를 구하고 점수화하기 위해서는 Regression도 꽤 괜찮은 시도이지 않나 생각한다. (반박시 니말 맞음) import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linea..

새로운 비만 평가 지표를 만들기 위해서 (2)

데이터 변수별 상관관계를 탐색하는 과정을 거치면서 간단한 전처리를 진행하려고 한다. 사용하는 데이터는 질병관리청으로부터 공공데이터 개방을 요청해수집한 데이터이다. 전체 원본에서 우리가 구축하고자 하는 모델에 적합하도록 우선 일부 열을 선택했고 행도 조금 줄였다. 모델을 정하지 않은 단계에서 데이터 전처리를 너무 과감하게 진행한 감이 없지 않은 듯 한데, 이 부분이 조금 아쉽게 남는다. 그럼에도 수업에서 배운 오로지 수업에 의한 CRISP-DM 절차에 의해 그 과정을 이해하는 것에 의의를 두고 이어서 진행하도록 하겠다. 우선 csv 파일중에서 겉보기에는 numeric해 보지만 실제로는 더 범주형에 가까워보였다. 그래서 새롭게 수정을 했다 이를테면 아래 사진과 같이 이를 토대로 새롭게 음주량에 대한 아주아주..

새로운 비만 평가 지표를 만들기 위해서 (1)

sim et al.(2006)에서는 단순비만지표로는 허리둘레(waist circumference, WC), 허리 엉덩이 둘레 (waist-hip ratio, WHR), 허리둘레 신장 비 (waist-stature ratio, WSR), 그리고 가장 대표적인 체질량지수(BMI)등이 있다. 그러나 연구자료에 따라 비만도 측정방법과 비만기 , 준의 차이가 있으므로 한국인의 비만 유병률이 상 이하게 보고되고 있으며, 특히 단순비만지표는 대부분 한국인 체형과는 다른 서구인을 근거로 하여 측정되었다 그러나 한국인은 신장과 엉덩이둘 . 레가 서양인보다 유의하게 작아 서구의 비만기준을 그대로 적용하기에 많은 문제점이 나타나고 있으며 , 동양인은 서양인보다 동일 체질량지수에서 내장지방이 더 많으며, 제지방량은 적어 비만..