글과 사진, 그리고 이야기

T&DI LAB 20

Exploring technology opportunities by visualizing patent information based on generative topographic mapping and link prediction

Yoon, B., & Magee, C. L. (2018). Exploring technology opportunities by visualizing patent information based on generative topographic mapping and link prediction. Technological Forecasting and Social Change, January, 1–13. https://doi.org/10.1016/j.techfore.2018.01.019 Redirecting linkinghub.elsevier.com Instroduction 와해성 혁신(disruptive innovation)은 현존하는 기술 패러다임을 쓸모없게 만들었다. 와해성 혁신을 통한 새로운 기술은 기업의..

Desalinating RO retentate employing NF coupled with CDI: A path towards cleaner production

-K. Maheshwari et al.- https://www.sciencedirect.com/science/article/pii/S0959652623005632 Desalinating RO retentate employing NF coupled with CDI: A path towards cleaner production The present study proposes a strategy to treat reverse osmosis (RO) retentate via an integrated system that combines a nanofiltration module with a ca… www.sciencedirect.com Abstraction 본 연구에서는 NF 모듈과 함께 용량성 탈이온화 유닛(..

해수담수화 기술에 대하여

https://www.youtube.com/watch?v=6VCk-cSq_d8 새로운 사막의 오아시스, 해수담수화 플랜트. 미국과 유럽, 일본이 그 기술의 우위에 있다. 한국기업이 아랍에미레이트에 해수담수화 플랜트를 만들었다. 두산중공업이다. 점점 말라가는 지구에 단비가 될 수 있는 것이 해수담수화일 것이다. 지표수의 비용이 올라가면서 해수담수화의 비용은 줄어들고 있다. 하루 평균 88만톤의 담수를 생산할 수 있다. 다양한 방법이 있다. 이중 두산중공업이 기술적으로 우위에 있는 방식이 MSF 증발법인데, 세계에서 가장 대용량의 담수를 생산할 수 있도록 한다 MSF는 우선 가까운 바닷가에서 물을 끌어온다. 이때 바닷가에는 이물질이 많은 물이 많다. 이렇게 온도가 스팀기에서 멀어질 수록 내려가는 문제를 해결..

Investigating emerging hydrogen technology topics and comparing national level technological focus: Patent analysis using a structural topic model

수소 신기술 주제를 국가적 수준 비교로 진행한 논문이다 https://www.sciencedirect.com/science/article/pii/S0306261922003245 Investigating emerging hydrogen technology topics and comparing national level technological focus: Patent analysis using a stru Hydrogen technology has recently attracted great attention as a new energy technology with a potential to transform existing energy systems. However, … www.sciencedirect...

STM 실습 (4) 토픽모델링의 해석 / 의의와 한계

kno=10에서 으로 토픽을 분류할 수 있겠다. 해석을 간단하게 해봄으로써 2017년 4월~6월에 일어난 사건에 대해 추정을 해볼 수 있을 것 같다. Topic 1 : 도널드 트럼프 대통령의 행정명령으로 외국인 노동자 채용이 어려워졌던 뉴스 Topic 2 공화당과 건강관리법 제정에 대한 뉴스 . Topic 3 해석하기 어려움(단어들로 유추하기 어려움, 특색있는 단어가 없었다고 생각함 & 불용어에 대한 커스텀이 추가되었어야 할 것 같음) Topic 4 트럼프가 이전 토픽에서 많이 등장해 이번 토픽에서 빠진 것이라면 트럼프와 트위터 관련 뉴스기사로 해석하는 것이 적절할 것이고 그러히 않다면 트위터의 해킹이나 계정과 관련된 이슈가 있는지 탐색해볼 필요가 있다. Topic 5 런던에서 대테러작전중 여성을 경찰이..

STM 실습 (3) 토픽모델링 적용

R 기본 패키지 설치 & stm 전용 패키지 설치 install.packages("tm") install.packages("wordcloud") install.packages("topicmodels") install.packages("tidytext") install.packages("reshape2") install.packages("ggplot2") install.packages("dplyr") install.packages("stringi") install.packages("LDAvis") install.packages("servr") install.packages("stm") install.packages("stopwords") 라이브러리 불러오기 & 작업경로 설정 & 사용할 데이터 불러오기 li..

STM 실습 (2) 데이터 가공

https://www.kaggle.com/datasets/aggle6666/bbc-news BBC News Articles This dataset contains BBC News Articles scrapped from the year 2017 www.kaggle.com 캐글에서 제공하는 데이터는 다음과 같은 구조를 가진다. STM 모델에 적용하기 위해 파이썬 환경에서 데이터셋을 약간 전처리할 계획이다. 연구실 선배님이 논문을 읽었는데 STM topic의 성능을 향상시키기 위해 headline을 두 번 concat하여 가중치를 두는 경우도 있다고 하여 document를 만들 때 참고하기로 했다. 또한 metadata로서 date를 활용하기 위해 현재 날짜의 데이터 타입을 바꿀 필요가 있어 Saturday..

STM 실습 (1) 데이터 탐색 및 목표 설정

구조적 토픽 모델링이라는 텍스트마이닝 기법이 있다. https://www.kaggle.com/datasets/aggle6666/bbc-news BBC News Articles This dataset contains BBC News Articles scrapped from the year 2017 www.kaggle.com 에서 BBC_08_APR_17_to_08_JUN_2017.csv 을 사용할 것이다. metadata로 날짜를 date를 활용할 계획이고 article과 headline을 concat해서 하나의 column에 넣을 것이다. 아마 summary와 url은 활용하지 않을 듯 하다. 목표는 2017년의 4월~6월 기간 내에 월별 세계의 이슈를 토픽으로 찾을 수 있을까에 대한 실험이다.

LDA modeling 실습 : 타다 금지법 기사 댓글 분석

https://github.com/youngwoos/Doit_textmining GitHub - youngwoos/Doit_textmining: 저장소 저장소. Contribute to youngwoos/Doit_textmining development by creating an account on GitHub. github.com 해당 교재의 7장 파일을 인용한다. 그리고 절차는 앞선 글인 https://couthelloworldendl.tistory.com/45 토픽모델링 : 어떤 주제로 글을 썼을까? (LDA) 토픽 모델을 만들면 문서가 어떤 주제로 구성되었는지 파악할 수 있다. 주제를 찾으면 비슷한 내용끼리 분류할 수 있기 때문에 다량의 문서를 분석할 때 특히 유용하다. 한편, 토픽은 1. 여러 ..

토픽모델링 : 어떤 주제로 글을 썼을까? (LDA)

토픽 모델을 만들면 문서가 어떤 주제로 구성되었는지 파악할 수 있다. 주제를 찾으면 비슷한 내용끼리 분류할 수 있기 때문에 다량의 문서를 분석할 때 특히 유용하다. 한편, 토픽은 1. 여러 단어의 혼합으로 구성된다 1-1. 한 토픽에 여러 단어가 서로 다른 확률로 포함된다. 1-2. 같은 단어가 여러 토픽에 서로 다른 확률로 포함된다. 2. 문서는 여러 토픽의 혼합으로 구성된다. 토픽 모델링 중 가장 많이 쓰이는 것이 LDA(Latent Dirichlet Allocation, 잠재 디리클레 할당)이다. https://github.com/youngwoos/Doit_textmining GitHub - youngwoos/Doit_textmining: 저장소 저장소. Contribute to youngwoos/..