글과 사진, 그리고 이야기

텍스트마이닝 5

USPTO Patent View API에서 특허 데이터 추출 후 전처리하기

전처리가 가장 힘든 과정이다 특히 다운받은 API 데이터는 json 데이터 타입으로 구성되어 있다. 흔히 알고 있는 csv 파일과 다르게 json 파일은 데이터를 키-값의 쌍의 집합으로 표현하는 것이다. (딕셔너리 형태라고 이해) 예를 들면 name,age,city John,25,New York Alice,30,San Francisco Bob,22,Los Angeles 와 같이 구성된 경우 [ {"name": "John", "age": 25, "city": "New York"}, {"name": "Alice", "age": 30, "city": "San Francisco"}, {"name": "Bob", "age": 22, "city": "Los Angeles"} ] 처럼 표현되어 있는 형태를 말한다. ..

Exploring technology opportunities by visualizing patent information based on generative topographic mapping and link prediction

Yoon, B., & Magee, C. L. (2018). Exploring technology opportunities by visualizing patent information based on generative topographic mapping and link prediction. Technological Forecasting and Social Change, January, 1–13. https://doi.org/10.1016/j.techfore.2018.01.019 Redirecting linkinghub.elsevier.com Instroduction 와해성 혁신(disruptive innovation)은 현존하는 기술 패러다임을 쓸모없게 만들었다. 와해성 혁신을 통한 새로운 기술은 기업의..

STM 실습 (4) 토픽모델링의 해석 / 의의와 한계

kno=10에서 으로 토픽을 분류할 수 있겠다. 해석을 간단하게 해봄으로써 2017년 4월~6월에 일어난 사건에 대해 추정을 해볼 수 있을 것 같다. Topic 1 : 도널드 트럼프 대통령의 행정명령으로 외국인 노동자 채용이 어려워졌던 뉴스 Topic 2 공화당과 건강관리법 제정에 대한 뉴스 . Topic 3 해석하기 어려움(단어들로 유추하기 어려움, 특색있는 단어가 없었다고 생각함 & 불용어에 대한 커스텀이 추가되었어야 할 것 같음) Topic 4 트럼프가 이전 토픽에서 많이 등장해 이번 토픽에서 빠진 것이라면 트럼프와 트위터 관련 뉴스기사로 해석하는 것이 적절할 것이고 그러히 않다면 트위터의 해킹이나 계정과 관련된 이슈가 있는지 탐색해볼 필요가 있다. Topic 5 런던에서 대테러작전중 여성을 경찰이..

LDA modeling 실습 : 타다 금지법 기사 댓글 분석

https://github.com/youngwoos/Doit_textmining GitHub - youngwoos/Doit_textmining: 저장소 저장소. Contribute to youngwoos/Doit_textmining development by creating an account on GitHub. github.com 해당 교재의 7장 파일을 인용한다. 그리고 절차는 앞선 글인 https://couthelloworldendl.tistory.com/45 토픽모델링 : 어떤 주제로 글을 썼을까? (LDA) 토픽 모델을 만들면 문서가 어떤 주제로 구성되었는지 파악할 수 있다. 주제를 찾으면 비슷한 내용끼리 분류할 수 있기 때문에 다량의 문서를 분석할 때 특히 유용하다. 한편, 토픽은 1. 여러 ..

토픽모델링 : 어떤 주제로 글을 썼을까? (LDA)

토픽 모델을 만들면 문서가 어떤 주제로 구성되었는지 파악할 수 있다. 주제를 찾으면 비슷한 내용끼리 분류할 수 있기 때문에 다량의 문서를 분석할 때 특히 유용하다. 한편, 토픽은 1. 여러 단어의 혼합으로 구성된다 1-1. 한 토픽에 여러 단어가 서로 다른 확률로 포함된다. 1-2. 같은 단어가 여러 토픽에 서로 다른 확률로 포함된다. 2. 문서는 여러 토픽의 혼합으로 구성된다. 토픽 모델링 중 가장 많이 쓰이는 것이 LDA(Latent Dirichlet Allocation, 잠재 디리클레 할당)이다. https://github.com/youngwoos/Doit_textmining GitHub - youngwoos/Doit_textmining: 저장소 저장소. Contribute to youngwoos/..