글과 사진, 그리고 이야기

파이썬 4

USPTO Patent View API에서 특허 데이터 추출 후 전처리하기

전처리가 가장 힘든 과정이다 특히 다운받은 API 데이터는 json 데이터 타입으로 구성되어 있다. 흔히 알고 있는 csv 파일과 다르게 json 파일은 데이터를 키-값의 쌍의 집합으로 표현하는 것이다. (딕셔너리 형태라고 이해) 예를 들면 name,age,city John,25,New York Alice,30,San Francisco Bob,22,Los Angeles 와 같이 구성된 경우 [ {"name": "John", "age": 25, "city": "New York"}, {"name": "Alice", "age": 30, "city": "San Francisco"}, {"name": "Bob", "age": 22, "city": "Los Angeles"} ] 처럼 표현되어 있는 형태를 말한다. ..

[Design] Libre office를 활용한 work flow (flow chart) 만들기

* 대한산업공학회 FIELD 캠프에서 Competition으로 기획한 주제에 대한 데이터 분석과정에 대한 work flow이다. 사용한 도구는 오픈소스로 공개된 리브레 오피스 https://www.libreoffice.org/discover/libreoffice/ What is LibreOffice? | LibreOffice - Free Office Suite - Based on OpenOffice - Compatible with Microsoft Follow Us www.libreoffice.org 이다. Flow Chart를 만들 때에는 규칙이 있다. https://ko.wikipedia.org/wiki/%EC%88%9C%EC%84%9C%EB%8F%84 순서도 - 위키백과, 우리 모두의 백과사전 위키..

IE & SWCON 2023.10.20

[부스트코스]서울시 의료기관(종합병원) 분포확인하기

부스트코스의 무료강좌인 파이썬으로 시작하는 데이터 사이언스 (박조은) 강좌에 대한 학습을 바탕으로 요약한 내용입니다. chapter 3에 해당하는 내용인 서울시 의료기관 분포 확인하기입니다. 처음 데이터분석을 실습해보는 과정이라 정말 기본적인 수준으로만 진행을 해봤습니다. 내용을 따라가면서 학습했을때 궁금했던 과정은 데이터 전처리 과정이었습니다. 과연 데이터를 전처리하는 방법이 정말 단순히 가정에서 출발해 일일이 솎아내는 방법뿐일까에 대한 의문이 생겼습니다. 서울시 종합병원을 분류할때 상호명을 기준으로 전처리를 진행하는데 특정 키워드가 들어간 상호명을 빼는 과정으로 전처리를 했기 때문이죠, 그렇다보니 애매한 키워드는 적절히 전처리가 불가능하였습니다. 이를테면 "의원" 단어가 들어갔음에도 종합병원일 수도 ..

파이썬은 무엇일까?

요즘 코딩은 필수라고들 하죠? 그리고 그 코딩중에 파이썬의 사용비율은 시간이 지날수록 늘고 있습니다. 위 사진을 보면 주황색으로 표시된 파이썬의 사용비율을 체감할 수 있습니다. 2023년인 지금은 어떨까요? 자, 그렇다면 파이썬이 대체 왜 많이 쓰는지 그 특징을 알아보면 좋겠습니다 우선 파이썬의 아주 짧고도 긴 시작에 대해서 파이썬은 1989년 크리스마스에 할 것 없던 귀도 반 로섬이라는 사람이 개발을 시작해서 1991년 출시를 했습니다. 참 대단하죠..?? 그당시만 해도 파이썬이 이정도의 파급력을 가져오리라고 생각을 못했을거에요~ 그 이름은 그리스 신화속의 괴물 뱀 피톤(Python)에서 유래했습니다. 닮은 것 같기도 하고.. 역사는 이정도로 마무리 할게요. 그 다음으로 파이썬의 가장 중요한 특징에 대..

기타 2023.01.13