글과 사진, 그리고 이야기

T&DI 2

USPTO Patent View API에서 특허 데이터 추출하기

기술경영 분야에서 주로 활용하는 방법 중 하나가 특허분석이다. 과거에는 특허분석에 있어서 USPTO에서 쉽게 특허정보를 추출할 수 있었지만 최근 들어 API를 요청한 후 접근하여 데이터를 뽑아야 하는 상황이다. https://patentsview-support.atlassian.net/servicedesk/customer/portal/1/group/1/create/18 An R Client to the PatentsView APIProvides functions to simplify the PatentsView API () query language, send GET and POST requests to the API's seven endpoints, and parse the data that comes..

토픽모델링 : 어떤 주제로 글을 썼을까? (LDA)

토픽 모델을 만들면 문서가 어떤 주제로 구성되었는지 파악할 수 있다. 주제를 찾으면 비슷한 내용끼리 분류할 수 있기 때문에 다량의 문서를 분석할 때 특히 유용하다. 한편, 토픽은 1. 여러 단어의 혼합으로 구성된다 1-1. 한 토픽에 여러 단어가 서로 다른 확률로 포함된다. 1-2. 같은 단어가 여러 토픽에 서로 다른 확률로 포함된다. 2. 문서는 여러 토픽의 혼합으로 구성된다. 토픽 모델링 중 가장 많이 쓰이는 것이 LDA(Latent Dirichlet Allocation, 잠재 디리클레 할당)이다. https://github.com/youngwoos/Doit_textmining GitHub - youngwoos/Doit_textmining: 저장소 저장소. Contribute to youngwoos/..