부스트코스의 무료강좌인 파이썬으로 시작하는 데이터 사이언스 (박조은) 강좌에 대한 학습을 바탕으로 요약한 내용입니다. chapter 3에 해당하는 내용인 서울시 의료기관 분포 확인하기입니다. 처음 데이터분석을 실습해보는 과정이라 정말 기본적인 수준으로만 진행을 해봤습니다. 내용을 따라가면서 학습했을때 궁금했던 과정은 데이터 전처리 과정이었습니다. 과연 데이터를 전처리하는 방법이 정말 단순히 가정에서 출발해 일일이 솎아내는 방법뿐일까에 대한 의문이 생겼습니다. 서울시 종합병원을 분류할때 상호명을 기준으로 전처리를 진행하는데 특정 키워드가 들어간 상호명을 빼는 과정으로 전처리를 했기 때문이죠, 그렇다보니 애매한 키워드는 적절히 전처리가 불가능하였습니다. 이를테면 "의원" 단어가 들어갔음에도 종합병원일 수도 ..