글과 사진, 그리고 이야기

IE & SWCON/Data Science 7

새로운 비만 평가 지표를 만들기 위해서 (3)

수업에서 배운 오로지 수업에 의한 기본적으로 성능을 고려하지는 않음 우선, 다시 스케일링을 했다. 이유는 통일성을 위해서와 여러 전처리를 겪다보니 상당히 더러워진 데이터를 처음부터 정제하기 위해서. 아무튼 다시 전처리를 진행했고 그 내용은 (2) 와 별반 다르지 않다. 이를 바탕으로 Regression이나 Classification 모두를 사용해보았다. 물론 Regression이 연속형 데이터 셋에서 사용해야겠지만 처음에 의도했던 가중치를 구하고 점수화하기 위해서는 Regression도 꽤 괜찮은 시도이지 않나 생각한다. (반박시 니말 맞음) import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linea..

새로운 비만 평가 지표를 만들기 위해서 (2)

데이터 변수별 상관관계를 탐색하는 과정을 거치면서 간단한 전처리를 진행하려고 한다. 사용하는 데이터는 질병관리청으로부터 공공데이터 개방을 요청해수집한 데이터이다. 전체 원본에서 우리가 구축하고자 하는 모델에 적합하도록 우선 일부 열을 선택했고 행도 조금 줄였다. 모델을 정하지 않은 단계에서 데이터 전처리를 너무 과감하게 진행한 감이 없지 않은 듯 한데, 이 부분이 조금 아쉽게 남는다. 그럼에도 수업에서 배운 오로지 수업에 의한 CRISP-DM 절차에 의해 그 과정을 이해하는 것에 의의를 두고 이어서 진행하도록 하겠다. 우선 csv 파일중에서 겉보기에는 numeric해 보지만 실제로는 더 범주형에 가까워보였다. 그래서 새롭게 수정을 했다 이를테면 아래 사진과 같이 이를 토대로 새롭게 음주량에 대한 아주아주..

새로운 비만 평가 지표를 만들기 위해서 (1)

sim et al.(2006)에서는 단순비만지표로는 허리둘레(waist circumference, WC), 허리 엉덩이 둘레 (waist-hip ratio, WHR), 허리둘레 신장 비 (waist-stature ratio, WSR), 그리고 가장 대표적인 체질량지수(BMI)등이 있다. 그러나 연구자료에 따라 비만도 측정방법과 비만기 , 준의 차이가 있으므로 한국인의 비만 유병률이 상 이하게 보고되고 있으며, 특히 단순비만지표는 대부분 한국인 체형과는 다른 서구인을 근거로 하여 측정되었다 그러나 한국인은 신장과 엉덩이둘 . 레가 서양인보다 유의하게 작아 서구의 비만기준을 그대로 적용하기에 많은 문제점이 나타나고 있으며 , 동양인은 서양인보다 동일 체질량지수에서 내장지방이 더 많으며, 제지방량은 적어 비만..

[금융공공데이터취합] 재정패널조사

data fusion이라고 하는 내용이 있다. 데이터의 양이 많아질 수록 여러가지 데이터를 병합 및 수정에 있어 과감히 삭제할 필요도 결측치를 보간할 방법도 중요하다. 이 모든 것은 데이터 분석가의 역량이라고 할 수 있다. 그렇기에 왜 이 데이터를 어떻게 처리할 것인지 읽는 사람들로 하여금 납득할 수 있도록 해야한다. 이번 데이터는 재정패널조사로 매년 조사하는 전국미 대상 가계 금융 복지 조사이다. https://www.kipf.re.kr/panel/ 한국조세재정연구원 공공기관의 운영관련 사항을 조사 연구 분석함으로써 대한민국의 조세 및 공공지출 공공기관운영에 관한 정책 수립을 지원하고 국민경제 발전에 기여하고자 설립된 정부출연 연구기관으로 세 www.kipf.re.kr 해당 데이터는 매우 용량이 크고 ..

[캐글] 랜덤포레스트 회귀기법으로 자전거 사용량 예측하기

데이터는 캐글에서 제공하는 워싱턴시의 2011~2012년간 자전거 대여량에 관한 csv data입니다. 우선 랜덤포레스트로 예측을 시작하기 전에 제공되는 데이터의 구조와 개요에 대해 알아봐야 할 것 같아 기본적인 시각화를 진행해보겠습니다. 데이터 분석 프로젝트에서 이런과 정을 EDA, 탐색적 데이터 분석이라고 합니다. 하는 이유라고 한다면 맛있는 요리를 만들기 위해 서 맛있는 식재료가 우선이 되어야 하고 식재료가 간단하면 조리방법이 간단해도 맛있는 요리가 나온다는 상황을 가정하시면 될 것 같습니다. 데이터 분석이라고 하는 프로젝트의 포괄적인 개요는 다음과 같이 진행이 될 것 같습니다. 1. 데이터 정보 확인 데이터를 설명하고 있는 내용입니다. 위의 데이터 중 살짝 이상한 부분이 있어 후에 수정을 해야 할..

[부스트코스] 건강정보데이터 분석하기

부스트코스의 무료강좌인 파이썬으로 시작하는 데이터 사이언스 (박조은) 강좌에 대한 학습을 바탕으로 요약한 내용입니다. chapter 3에 해당하는 내용인 건강검진 데이터로 가설검정하기 입니다. 공공데이터에는 매년 100만명의 건강정보데이터를 익명으로 데이터를 마스킹 처리하여 공개합니다. 키, 몸무게와 같은 간단한 정보외에도 세부적인 지표까지도 공개를 하고 있습니다. 건강정보에 대한 지식을 미리 공부한다면 조금 더 의미있는 가설검정을 통한 인사이트를 발견할 수 있을 것입니다 ch3에서 데이터분석의 기본을 알려주었다면 ch4는 시각화의 tool인 seaborn위주로 다양한 통계 방법과 도표를 추출하는 작업을 알려줍니다. 특히 hue라는 필터와 같은 기능이 있는 것이 앞으로 시각화를 할 때 매우 유용하게 관찰..

[부스트코스]서울시 의료기관(종합병원) 분포확인하기

부스트코스의 무료강좌인 파이썬으로 시작하는 데이터 사이언스 (박조은) 강좌에 대한 학습을 바탕으로 요약한 내용입니다. chapter 3에 해당하는 내용인 서울시 의료기관 분포 확인하기입니다. 처음 데이터분석을 실습해보는 과정이라 정말 기본적인 수준으로만 진행을 해봤습니다. 내용을 따라가면서 학습했을때 궁금했던 과정은 데이터 전처리 과정이었습니다. 과연 데이터를 전처리하는 방법이 정말 단순히 가정에서 출발해 일일이 솎아내는 방법뿐일까에 대한 의문이 생겼습니다. 서울시 종합병원을 분류할때 상호명을 기준으로 전처리를 진행하는데 특정 키워드가 들어간 상호명을 빼는 과정으로 전처리를 했기 때문이죠, 그렇다보니 애매한 키워드는 적절히 전처리가 불가능하였습니다. 이를테면 "의원" 단어가 들어갔음에도 종합병원일 수도 ..