글과 사진, 그리고 이야기

T&DI LAB/토픽모델링

LDA modeling 실습 : 타다 금지법 기사 댓글 분석

뱃놀이가자 2023. 11. 5. 21:11
728x90

https://github.com/youngwoos/Doit_textmining

 

GitHub - youngwoos/Doit_textmining: <Do it! 쉽게 배우는 R 텍스트 마이닝> 저장소

<Do it! 쉽게 배우는 R 텍스트 마이닝> 저장소. Contribute to youngwoos/Doit_textmining development by creating an account on GitHub.

github.com

해당 교재의 7장 파일을 인용한다.

 

그리고 절차는 앞선 글인

https://couthelloworldendl.tistory.com/45

 

토픽모델링 : 어떤 주제로 글을 썼을까? (LDA)

토픽 모델을 만들면 문서가 어떤 주제로 구성되었는지 파악할 수 있다. 주제를 찾으면 비슷한 내용끼리 분류할 수 있기 때문에 다량의 문서를 분석할 때 특히 유용하다. 한편, 토픽은 1. 여러 단

couthelloworldendl.tistory.com

의 순서를 따라간다

1. 전처리 하기

~

 

4. 불용어 및 유의어 처리하기

 

 

csv 파일을 읽어볼 때 encoding하는 방법도 있고 때로는 적용해야하기도 하니 주의한다.

 

 

해당 과정으로 간단한 가공을 진행했다면 본격적으로 LDA 모델을 만들어보도록 하자.

 

5. LDA 모델 만들기

5-1. Document-Term Matrix 만들기

5-2. topicmodels 패키지의 LDA( )에 적용하기

k인 토픽 수를 정하기 위해 5-6에서 언급했던 하이퍼 파라미터 튜닝을 진행한다.

 

k=9로 하는게 적합하다.

 

5-3. beta 값을 바탕으로 모든 토픽의 주요 단어를 살펴보기

5-4. gamma 값을 바탕으로 document를 토픽별로 분류하기

5-5. 적절한 토픽명 설정하기

각 토픽의 gamma가 높은 주요 댓글 100개씩 추출하여 토픽의 이름을 정할 수 있다.

 gamma가 높다는 것은 해당 문서가 토픽에 등장할 확률, 여기서는 각 토픽에 댓글이 포함될 확률이 높다는 뜻으로 토픽의 경향성을 확인할 수 있게 된다.

 

이후 과정은 임의로 판단하면 될 것 같다. 

728x90