글과 사진, 그리고 이야기

데이터분석 6

[Design] Libre office를 활용한 work flow (flow chart) 만들기

* 대한산업공학회 FIELD 캠프에서 Competition으로 기획한 주제에 대한 데이터 분석과정에 대한 work flow이다. 사용한 도구는 오픈소스로 공개된 리브레 오피스 https://www.libreoffice.org/discover/libreoffice/ What is LibreOffice? | LibreOffice - Free Office Suite - Based on OpenOffice - Compatible with Microsoft Follow Us www.libreoffice.org 이다. Flow Chart를 만들 때에는 규칙이 있다. https://ko.wikipedia.org/wiki/%EC%88%9C%EC%84%9C%EB%8F%84 순서도 - 위키백과, 우리 모두의 백과사전 위키..

IE & SWCON 2023.10.20

[금융공공데이터취합] 재정패널조사

data fusion이라고 하는 내용이 있다. 데이터의 양이 많아질 수록 여러가지 데이터를 병합 및 수정에 있어 과감히 삭제할 필요도 결측치를 보간할 방법도 중요하다. 이 모든 것은 데이터 분석가의 역량이라고 할 수 있다. 그렇기에 왜 이 데이터를 어떻게 처리할 것인지 읽는 사람들로 하여금 납득할 수 있도록 해야한다. 이번 데이터는 재정패널조사로 매년 조사하는 전국미 대상 가계 금융 복지 조사이다. https://www.kipf.re.kr/panel/ 한국조세재정연구원 공공기관의 운영관련 사항을 조사 연구 분석함으로써 대한민국의 조세 및 공공지출 공공기관운영에 관한 정책 수립을 지원하고 국민경제 발전에 기여하고자 설립된 정부출연 연구기관으로 세 www.kipf.re.kr 해당 데이터는 매우 용량이 크고 ..

[혼공머딥] chapter 6

* 혼자공부하는 머신러닝+딥러닝의 교재의 학습 요약 내용입니다 https://hongong.hanbit.co.kr/%ED%98%BC%EC%9E%90-%EA%B3%B5%EB%B6%80%ED%95%98%EB%8A%94-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EB%94%A5%EB%9F%AC%EB%8B%9D/ 혼자 공부하는 머신러닝+딥러닝 혼자 공부하는 머신러닝 딥러닝, 무료 동영상 강의, 머신러닝+딥러닝 용어집을 다운로드 하세요. 포기하지 마세요! 독학으로 충분히 하실 수 있습니다. ‘때론 혼자, 때론 같이’ 하며 힘이 되겠 hongong.hanbit.co.kr * 경희대학교 데이터분석 동아리 KHUDA의 2023년 8월 기초세션 5주차 학습내용입니다. https://cafe.na..

[캐글] 랜덤포레스트 회귀기법으로 자전거 사용량 예측하기

데이터는 캐글에서 제공하는 워싱턴시의 2011~2012년간 자전거 대여량에 관한 csv data입니다. 우선 랜덤포레스트로 예측을 시작하기 전에 제공되는 데이터의 구조와 개요에 대해 알아봐야 할 것 같아 기본적인 시각화를 진행해보겠습니다. 데이터 분석 프로젝트에서 이런과 정을 EDA, 탐색적 데이터 분석이라고 합니다. 하는 이유라고 한다면 맛있는 요리를 만들기 위해 서 맛있는 식재료가 우선이 되어야 하고 식재료가 간단하면 조리방법이 간단해도 맛있는 요리가 나온다는 상황을 가정하시면 될 것 같습니다. 데이터 분석이라고 하는 프로젝트의 포괄적인 개요는 다음과 같이 진행이 될 것 같습니다. 1. 데이터 정보 확인 데이터를 설명하고 있는 내용입니다. 위의 데이터 중 살짝 이상한 부분이 있어 후에 수정을 해야 할..

[부스트코스]서울시 의료기관(종합병원) 분포확인하기

부스트코스의 무료강좌인 파이썬으로 시작하는 데이터 사이언스 (박조은) 강좌에 대한 학습을 바탕으로 요약한 내용입니다. chapter 3에 해당하는 내용인 서울시 의료기관 분포 확인하기입니다. 처음 데이터분석을 실습해보는 과정이라 정말 기본적인 수준으로만 진행을 해봤습니다. 내용을 따라가면서 학습했을때 궁금했던 과정은 데이터 전처리 과정이었습니다. 과연 데이터를 전처리하는 방법이 정말 단순히 가정에서 출발해 일일이 솎아내는 방법뿐일까에 대한 의문이 생겼습니다. 서울시 종합병원을 분류할때 상호명을 기준으로 전처리를 진행하는데 특정 키워드가 들어간 상호명을 빼는 과정으로 전처리를 했기 때문이죠, 그렇다보니 애매한 키워드는 적절히 전처리가 불가능하였습니다. 이를테면 "의원" 단어가 들어갔음에도 종합병원일 수도 ..

그냥 하지 말라 [송길영]

*개인적으로 작성한 독후감입니다, 책에 대한 리뷰보다는 책에서 읽은 중요 내용임을 알려드립니다.* 데이터는 수없이 많이 쌓이고 잘 읽어내는 능력이 중요하다라는 것은 익히 많은 책에서 학습해 왔다. 그럼에도 마인드마이너 송길영의 시선에서 바라본 데이터 해석은 신비로웠다. 모든것을 메시지라고 한 이유를 알 것 같았다. 수많은 데이터를 통해 시대가 바뀌고 이를 현행화로 부르기로 했다. 현행화에 실패하는 것은 뒤쳐지는 것이다. 내 적응력이 곧 생존력이 되는 시대를 우리는 살아가고 있다. 지금을 유지하는 것이 곧 생존력이다. AI는 놀랍도록 발전했으나 치명적인 단점이 있다면 평균을 학습한다는 것, 중간을 공부한다는 것이다. 즉 내가 위치한 곳이 평균이 아니라면 꽤 희망찬 미래가 나를 기다리고 있을 것이다. 결론은..

Book 2022.12.29