728x90
구조적 토픽 모델링이라는 텍스트마이닝 기법이 있다.
https://www.kaggle.com/datasets/aggle6666/bbc-news
BBC News Articles
This dataset contains BBC News Articles scrapped from the year 2017
www.kaggle.com
에서
BBC_08_APR_17_to_08_JUN_2017.csv 을 사용할 것이다.
metadata로 날짜를 date를 활용할 계획이고
article과 headline을 concat해서 하나의 column에 넣을 것이다.
아마 summary와 url은 활용하지 않을 듯 하다.
목표는 2017년의 4월~6월 기간 내에 월별 세계의 이슈를 토픽으로 찾을 수 있을까에 대한 실험이다.
728x90
'T&DI LAB > 토픽모델링' 카테고리의 다른 글
STM 실습 (4) 토픽모델링의 해석 / 의의와 한계 (1) | 2023.11.15 |
---|---|
STM 실습 (3) 토픽모델링 적용 (1) | 2023.11.15 |
STM 실습 (2) 데이터 가공 (0) | 2023.11.14 |
LDA modeling 실습 : 타다 금지법 기사 댓글 분석 (0) | 2023.11.05 |
토픽모델링 : 어떤 주제로 글을 썼을까? (LDA) (0) | 2023.11.05 |