글과 사진, 그리고 이야기

토픽모델링 3

Research topic identification and trend prediction of china energy policy: A combined LDA-ARIMA approach (2024)

Research topic identification and trend prediction of China's energy policy: A combined LDA-ARIMA approach - ScienceDirect Research topic identification and trend prediction of China's energy policy: A combined LDA-ARIMA approach Identifying the research topics of China's energy transition policy and predicting future research trends are crucial for policymakers to make informe… www.sciencedirec..

USPTO Patent View API에서 특허 데이터 추출 후 전처리하기

전처리가 가장 힘든 과정이다 특히 다운받은 API 데이터는 json 데이터 타입으로 구성되어 있다. 흔히 알고 있는 csv 파일과 다르게 json 파일은 데이터를 키-값의 쌍의 집합으로 표현하는 것이다. (딕셔너리 형태라고 이해) 예를 들면 name,age,city John,25,New York Alice,30,San Francisco Bob,22,Los Angeles 와 같이 구성된 경우 [ {"name": "John", "age": 25, "city": "New York"}, {"name": "Alice", "age": 30, "city": "San Francisco"}, {"name": "Bob", "age": 22, "city": "Los Angeles"} ] 처럼 표현되어 있는 형태를 말한다. ..

STM 실습 (3) 토픽모델링 적용

R 기본 패키지 설치 & stm 전용 패키지 설치 install.packages("tm") install.packages("wordcloud") install.packages("topicmodels") install.packages("tidytext") install.packages("reshape2") install.packages("ggplot2") install.packages("dplyr") install.packages("stringi") install.packages("LDAvis") install.packages("servr") install.packages("stm") install.packages("stopwords") 라이브러리 불러오기 & 작업경로 설정 & 사용할 데이터 불러오기 li..