글과 사진, 그리고 이야기

T&DI LAB/토픽모델링

STM 실습 (1) 데이터 탐색 및 목표 설정

뱃놀이가자 2023. 11. 14. 22:28
728x90

구조적 토픽 모델링이라는 텍스트마이닝 기법이 있다.

 

https://www.kaggle.com/datasets/aggle6666/bbc-news

 

BBC News Articles

This dataset contains BBC News Articles scrapped from the year 2017

www.kaggle.com

에서

BBC_08_APR_17_to_08_JUN_2017.csv 을 사용할 것이다.

 

metadata로 날짜를 date를 활용할 계획이고

article과 headline을 concat해서 하나의 column에 넣을 것이다.

아마 summary와 url은 활용하지 않을 듯 하다.

 

목표는 2017년의 4월~6월 기간 내에 월별 세계의 이슈를 토픽으로 찾을 수 있을까에 대한 실험이다.

 

 

728x90