LDA modeling 실습 : 타다 금지법 기사 댓글 분석

T&DI LAB/토픽모델링

뱃놀이가자 2023. 11. 5. 21:11

728x90

GitHub - youngwoos/Doit_textmining: <Do it! 쉽게 배우는 R 텍스트 마이닝> 저장소

<Do it! 쉽게 배우는 R 텍스트 마이닝> 저장소. Contribute to youngwoos/Doit_textmining development by creating an account on GitHub.

github.com

해당 교재의 7장 파일을 인용한다.

그리고 절차는 앞선 글인

토픽모델링 : 어떤 주제로 글을 썼을까? (LDA)

토픽 모델을 만들면 문서가 어떤 주제로 구성되었는지 파악할 수 있다. 주제를 찾으면 비슷한 내용끼리 분류할 수 있기 때문에 다량의 문서를 분석할 때 특히 유용하다. 한편, 토픽은 1. 여러 단

couthelloworldendl.tistory.com

의 순서를 따라간다

csv 파일을 읽어볼 때 encoding하는 방법도 있고 때로는 적용해야하기도 하니 주의한다.

해당 과정으로 간단한 가공을 진행했다면 본격적으로 LDA 모델을 만들어보도록 하자.

5. LDA 모델 만들기

k인 토픽 수를 정하기 위해 5-6에서 언급했던 하이퍼 파라미터 튜닝을 진행한다.

각 토픽의 gamma가 높은 주요 댓글 100개씩 추출하여 토픽의 이름을 정할 수 있다.

gamma가 높다는 것은 해당 문서가 토픽에 등장할 확률, 여기서는 각 토픽에 댓글이 포함될 확률이 높다는 뜻으로 토픽의 경향성을 확인할 수 있게 된다.

이후 과정은 임의로 판단하면 될 것 같다.

728x90

티스토리에 담긴 나의 히스토리

컨설턴트를 향한 발자국

특허분석, USPTO, 텍스트마이닝, technology forecasting, 논문리뷰, c++, C++기초, 데이터사이언스, 기술경영, 경희대학교, 데이터분석, 한빛미디어, LDA, 토픽모델링, 자료구조, 머신러닝, 파이썬, 산업공학, Python, STM,