글과 사진, 그리고 이야기

T&DI LAB/토픽모델링

STM 실습 (4) 토픽모델링의 해석 / 의의와 한계

뱃놀이가자 2023. 11. 15. 01:35
728x90

 

kno=10에서

으로 토픽을 분류할 수 있겠다.

해석을 간단하게 해봄으로써 2017년 4월~6월에 일어난 사건에 대해 추정을 해볼 수 있을 것 같다. 

 

Topic 1 : 도널드 트럼프 대통령의 행정명령으로 외국인 노동자 채용이 어려워졌던 뉴스 

 

Topic 2 공화당과 건강관리법 제정에 대한 뉴스

. Topic 3 해석하기 어려움(단어들로 유추하기 어려움, 특색있는 단어가 없었다고 생각함 & 불용어에 대한 커스텀이 추가되었어야 할 것 같음)

 

Topic 4 

 

 

트럼프가 이전 토픽에서 많이 등장해 이번 토픽에서 빠진 것이라면 트럼프와 트위터 관련 뉴스기사로 해석하는 것이 적절할 것이고 그러히 않다면 트위터의 해킹이나 계정과 관련된 이슈가 있는지 탐색해볼 필요가 있다.

 

Topic 5 런던에서 대테러작전중 여성을 경찰이 총격오발한 사건

실제 뉴스 기사 검색을 통해 알게 되었으나 anti 가 없어서 외부 테러였는지 대테러작전이었는지 판단하기가 어려웠음(토픽만으로) , 다만 키워드가 확실해서 사건(뉴스)를 파악하기에는 매우 수월했다.

 

Topic 6 시리아 전쟁 관련 뉴스 기사로 추정

Topic 7 트럼프대통령과 러시아와의 뉴스기사로 추정

Topic 8 토픽을 파악하기 힘들었다

Topic 9 프랑스 대선

Topic 10 북한의 미사일 발사

 

 

한계 및 개선방향

-메타데이터로 date를 설정하였는데 april, may, june이 어떻게 반영된 것인지 모르겠음

(토픽 number가 높아질 수록 뉴스의 발행 일자가 늦춰지는 것으로 파악되는데 메타데이터가 해당 역할을 한 것일까?)

-성능을 개선하기 위해 lower.thresh의 값을 얼마로 설정할지와

-커스텀 불용언에 대해서도 궁금함.

-토픽간 핵심 키워드가 없는 3,4,8은 해석하기가 꽤 까다롭고 검색으로도 어려웠음

-document를 만들 때 headline에 가중치를 두는 것으로 했으나 그렇지 않은 경우와 이번 실습에서는 사용하지 않았던 summary에 대한 내용도 포함했다면 어떠했을지에 대한 호기심은 남아있다

 

의의

-해당 기간내에 무슨 일이 주로 있었는지 간단하게 파악할 수 있었다.

-연말에 올해의 n대 뉴스 등으로 활용하면 유의미할 것으로 기대함

-확실한 키워드로는 사건을 파악하기 용이하였다.

 

 

728x90