https://github.com/youngwoos/Doit_textmining
GitHub - youngwoos/Doit_textmining: <Do it! 쉽게 배우는 R 텍스트 마이닝> 저장소
<Do it! 쉽게 배우는 R 텍스트 마이닝> 저장소. Contribute to youngwoos/Doit_textmining development by creating an account on GitHub.
github.com
해당 교재의 7장 파일을 인용한다.
그리고 절차는 앞선 글인
https://couthelloworldendl.tistory.com/45
토픽모델링 : 어떤 주제로 글을 썼을까? (LDA)
토픽 모델을 만들면 문서가 어떤 주제로 구성되었는지 파악할 수 있다. 주제를 찾으면 비슷한 내용끼리 분류할 수 있기 때문에 다량의 문서를 분석할 때 특히 유용하다. 한편, 토픽은 1. 여러 단
couthelloworldendl.tistory.com
의 순서를 따라간다
1. 전처리 하기
~
4. 불용어 및 유의어 처리하기
csv 파일을 읽어볼 때 encoding하는 방법도 있고 때로는 적용해야하기도 하니 주의한다.
해당 과정으로 간단한 가공을 진행했다면 본격적으로 LDA 모델을 만들어보도록 하자.
5. LDA 모델 만들기
5-1. Document-Term Matrix 만들기
5-2. topicmodels 패키지의 LDA( )에 적용하기
k인 토픽 수를 정하기 위해 5-6에서 언급했던 하이퍼 파라미터 튜닝을 진행한다.
5-3. beta 값을 바탕으로 모든 토픽의 주요 단어를 살펴보기
5-4. gamma 값을 바탕으로 document를 토픽별로 분류하기
5-5. 적절한 토픽명 설정하기
각 토픽의 gamma가 높은 주요 댓글 100개씩 추출하여 토픽의 이름을 정할 수 있다.
gamma가 높다는 것은 해당 문서가 토픽에 등장할 확률, 여기서는 각 토픽에 댓글이 포함될 확률이 높다는 뜻으로 토픽의 경향성을 확인할 수 있게 된다.
이후 과정은 임의로 판단하면 될 것 같다.
'T&DI LAB > 토픽모델링' 카테고리의 다른 글
STM 실습 (4) 토픽모델링의 해석 / 의의와 한계 (1) | 2023.11.15 |
---|---|
STM 실습 (3) 토픽모델링 적용 (1) | 2023.11.15 |
STM 실습 (2) 데이터 가공 (0) | 2023.11.14 |
STM 실습 (1) 데이터 탐색 및 목표 설정 (1) | 2023.11.14 |
토픽모델링 : 어떤 주제로 글을 썼을까? (LDA) (0) | 2023.11.05 |