글과 사진, 그리고 이야기

전체 글 80

Farewell 2023 & Welcome 2024

전역하고 어떻게 보면 첫 해가 지난다. 국방의 의무라는 20대 남자의 큰 산을 등반한 동시에 코로나로부터 독립된 첫 대학생활이 기다리고 있었고 중간중간 아르바이트, 대외활동, 프로젝트가 있었다. 신기하고 감사한 2023년이었다. 기존의 인연보다 새로눈 인연을 많이 만날 수 있었고 때로는 극 내향적인 성으로 빠르게 친해지지 못한것도 같다. 그렇지만 1년동안 너무 좋은 경험을 했고 좋았다면 추억이었고 나빠도 기억으러는 남을 시간이었다. 굿바이와 웰컴의 1월에서 다시 새롭게 2024년의 목표를 세워보자면 토익 점수 확보 학점 관리 (학부 우수졸업 장학용)연구활동 열심히ADP 필기시험 합격 이정도가 학업적으로 이뤄야 할 목표라고 보여진다. 원래는 1월 1일에 기록하려 했으나 미루고 미루다가 이제야 적는다. 아,..

기타 2024.01.03

Exploring technology opportunities by visualizing patent information based on generative topographic mapping and link prediction

Yoon, B., & Magee, C. L. (2018). Exploring technology opportunities by visualizing patent information based on generative topographic mapping and link prediction. Technological Forecasting and Social Change, January, 1–13. https://doi.org/10.1016/j.techfore.2018.01.019 Redirecting linkinghub.elsevier.com Instroduction 와해성 혁신(disruptive innovation)은 현존하는 기술 패러다임을 쓸모없게 만들었다. 와해성 혁신을 통한 새로운 기술은 기업의..

UML 다이어그램과 디자인패턴 (sckit-learn의 pca)

소프트웨어 개발 과정에서 디자인 패턴을 사용하는 이유와 목적 소프트웨어에서 디자인이 강조되고 있고 정해진 형식으로 소통하기에는 글보다 그림이 더 설명력이 우수하고 소통의 오류를 최소화할 수 있다. 알고리즘의 작동방식을 보다 명확하게 설명하기 위해서와 시스템 설계 및 문서화에 널리 사용되고 무엇보다 시각적으로 표현할 수 있다는 점이 강점이라고 할 수 있다. 디자인 패턴을 사용하게 되면 재사용 가능한 컴포넌트로 분리할 수 있으며 유연성을 확보할 수 있다. 알고리즘의 적절성을 확인할 수 있고 시스템을 쉽게 확장 및 변경할 수 있다. 특히 머신러닝과 같이 다양한 알고리즘들이 쏟아지는 영역에서는 한눈에 이해하기 위해 도식화된 그림이 필요하고 어떤 파라미터를 사용해야 개발된 알고리즘을 적절하게 활용할 수 있는지 알..

Kernel Trick

kernel methods에서는 선형적으로 분류가 불가능한 모델에 대해서 일종의 mapping function을 사용해 차원을 확장시키고 그 후 역과정을 거쳐 boundary를 만들게 된다. 선형대수학에서 배운 개념인 linear transformation을 생각하면 쉽다. theta에 대해서는 선형성을 가지므로 최소제곱법 알고리즘을 사용할 수 있고 x에 대해서는 비선형적이라서 모델 내 데이터를 꽤 복잡하게 만들도록 핸들링할 수 있다. 다음과 같은 trick을 사용하면 시간을 줄이게 된다. kernel trick은 지도학습과 비지도학습 모두에서 사용할 수 있다. -지도학습에서 아주 강력하다고 볼 수 있음- kernel trick은 복잡한 비선형 feature를 아주 약간의 추가적인 계산비용만으로 문제를 ..

SVM(Support Vector Machine)

마진을 최대화하는 알고리즘 마진이란 클래스를 구분하는 초평면(결저 경계)과 가장 가까운 train sample 사이의 거리로 정의한다. 그리고 그 샘플은 서포트 벡터라고 한다. 마진의 개념에 대해서 잘 이해할 수 있는 그래프이다. 결국 마진, 거리의 개념을 최대화하는 아이디어에 대해 생각해봐야한다. 조금 평면을 확장시켜서 다음과 같이 가정할 수 있다. x0는 초평면 위의 벡터이므로 초평면 방정식에 대입하게 되면 오른쪽과 같은 식을 얻을 수 있다. 우리가 궁금한 것은 gamma(i), dist 거리에 대한 정보이기 때문에 최종적으로 위와 같은 식이 나온다. 그리고 저 gamma를 geometric margin 이라고 부른다. margin_x0 = (theta.dot(x0) + theta0)[0] / np...

로지스틱 회귀를 사용한 클래스 확률 모델링

선형 이진 분류 문제에 강력한 알고리즘인 로지스틱 회귀. 이름과 달리 분류 모델임을 주의해야 한다. 이진 분류가 아닐 경우 소프트맥스 회귀(다항 로지스틱 회귀)를 통해 문제를 해결할 수 있다. logistic function은 odds비(특정 이벤트가 발생할 확률)의 로그형태에 대한 역함수로서 구할 수 있다. 그리고 이 함수를 로지스틱 시그모이드함수, 간단하게 시그모이드 함수라고 한다. t 대신에 x.transpose * theta를 넣어서 이진분류에 보다 직관적으로 사용하기도 한다. 아무튼, t >0 에서 1로 분류 t

Regression Line fitting - 선형 회귀/Normal Equation/Non-linear(polynomial)/릿지,라쏘 규제

회귀 선을 정하기 위해서는 주어진 Y,X를 잘 설명할 수 있는 beta 혹은 theta 라고 쓰는 coefficent와 intercept에 대해서 잘 알아야 한다. 1. 단순 선형 회귀 우선 단순히 선형회귀를 하는 방법으로는 코드만 일부 첨부하자면 regr = linear_model.LinearRegression() # fiiting regr.fit(diabetes_X_train, diabetes_y_train.values) # Make predictions on the training set diabetes_y_train_pred = regr.predict(diabetes_X_train) # The coefficients print('Slope (theta1): \t', regr.coef_[0]) pr..

Desalinating RO retentate employing NF coupled with CDI: A path towards cleaner production

-K. Maheshwari et al.- https://www.sciencedirect.com/science/article/pii/S0959652623005632 Desalinating RO retentate employing NF coupled with CDI: A path towards cleaner production The present study proposes a strategy to treat reverse osmosis (RO) retentate via an integrated system that combines a nanofiltration module with a ca… www.sciencedirect.com Abstraction 본 연구에서는 NF 모듈과 함께 용량성 탈이온화 유닛(..

새로운 비만 평가 지표를 만들기 위해서 (3)

수업에서 배운 오로지 수업에 의한 기본적으로 성능을 고려하지는 않음 우선, 다시 스케일링을 했다. 이유는 통일성을 위해서와 여러 전처리를 겪다보니 상당히 더러워진 데이터를 처음부터 정제하기 위해서. 아무튼 다시 전처리를 진행했고 그 내용은 (2) 와 별반 다르지 않다. 이를 바탕으로 Regression이나 Classification 모두를 사용해보았다. 물론 Regression이 연속형 데이터 셋에서 사용해야겠지만 처음에 의도했던 가중치를 구하고 점수화하기 위해서는 Regression도 꽤 괜찮은 시도이지 않나 생각한다. (반박시 니말 맞음) import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linea..

해수담수화 기술에 대하여

https://www.youtube.com/watch?v=6VCk-cSq_d8 새로운 사막의 오아시스, 해수담수화 플랜트. 미국과 유럽, 일본이 그 기술의 우위에 있다. 한국기업이 아랍에미레이트에 해수담수화 플랜트를 만들었다. 두산중공업이다. 점점 말라가는 지구에 단비가 될 수 있는 것이 해수담수화일 것이다. 지표수의 비용이 올라가면서 해수담수화의 비용은 줄어들고 있다. 하루 평균 88만톤의 담수를 생산할 수 있다. 다양한 방법이 있다. 이중 두산중공업이 기술적으로 우위에 있는 방식이 MSF 증발법인데, 세계에서 가장 대용량의 담수를 생산할 수 있도록 한다 MSF는 우선 가까운 바닷가에서 물을 끌어온다. 이때 바닷가에는 이물질이 많은 물이 많다. 이렇게 온도가 스팀기에서 멀어질 수록 내려가는 문제를 해결..

Investigating emerging hydrogen technology topics and comparing national level technological focus: Patent analysis using a structural topic model

수소 신기술 주제를 국가적 수준 비교로 진행한 논문이다 https://www.sciencedirect.com/science/article/pii/S0306261922003245 Investigating emerging hydrogen technology topics and comparing national level technological focus: Patent analysis using a stru Hydrogen technology has recently attracted great attention as a new energy technology with a potential to transform existing energy systems. However, … www.sciencedirect...

STM 실습 (4) 토픽모델링의 해석 / 의의와 한계

kno=10에서 으로 토픽을 분류할 수 있겠다. 해석을 간단하게 해봄으로써 2017년 4월~6월에 일어난 사건에 대해 추정을 해볼 수 있을 것 같다. Topic 1 : 도널드 트럼프 대통령의 행정명령으로 외국인 노동자 채용이 어려워졌던 뉴스 Topic 2 공화당과 건강관리법 제정에 대한 뉴스 . Topic 3 해석하기 어려움(단어들로 유추하기 어려움, 특색있는 단어가 없었다고 생각함 & 불용어에 대한 커스텀이 추가되었어야 할 것 같음) Topic 4 트럼프가 이전 토픽에서 많이 등장해 이번 토픽에서 빠진 것이라면 트럼프와 트위터 관련 뉴스기사로 해석하는 것이 적절할 것이고 그러히 않다면 트위터의 해킹이나 계정과 관련된 이슈가 있는지 탐색해볼 필요가 있다. Topic 5 런던에서 대테러작전중 여성을 경찰이..

STM 실습 (3) 토픽모델링 적용

R 기본 패키지 설치 & stm 전용 패키지 설치 install.packages("tm") install.packages("wordcloud") install.packages("topicmodels") install.packages("tidytext") install.packages("reshape2") install.packages("ggplot2") install.packages("dplyr") install.packages("stringi") install.packages("LDAvis") install.packages("servr") install.packages("stm") install.packages("stopwords") 라이브러리 불러오기 & 작업경로 설정 & 사용할 데이터 불러오기 li..

STM 실습 (2) 데이터 가공

https://www.kaggle.com/datasets/aggle6666/bbc-news BBC News Articles This dataset contains BBC News Articles scrapped from the year 2017 www.kaggle.com 캐글에서 제공하는 데이터는 다음과 같은 구조를 가진다. STM 모델에 적용하기 위해 파이썬 환경에서 데이터셋을 약간 전처리할 계획이다. 연구실 선배님이 논문을 읽었는데 STM topic의 성능을 향상시키기 위해 headline을 두 번 concat하여 가중치를 두는 경우도 있다고 하여 document를 만들 때 참고하기로 했다. 또한 metadata로서 date를 활용하기 위해 현재 날짜의 데이터 타입을 바꿀 필요가 있어 Saturday..

STM 실습 (1) 데이터 탐색 및 목표 설정

구조적 토픽 모델링이라는 텍스트마이닝 기법이 있다. https://www.kaggle.com/datasets/aggle6666/bbc-news BBC News Articles This dataset contains BBC News Articles scrapped from the year 2017 www.kaggle.com 에서 BBC_08_APR_17_to_08_JUN_2017.csv 을 사용할 것이다. metadata로 날짜를 date를 활용할 계획이고 article과 headline을 concat해서 하나의 column에 넣을 것이다. 아마 summary와 url은 활용하지 않을 듯 하다. 목표는 2017년의 4월~6월 기간 내에 월별 세계의 이슈를 토픽으로 찾을 수 있을까에 대한 실험이다.

새로운 비만 평가 지표를 만들기 위해서 (2)

데이터 변수별 상관관계를 탐색하는 과정을 거치면서 간단한 전처리를 진행하려고 한다. 사용하는 데이터는 질병관리청으로부터 공공데이터 개방을 요청해수집한 데이터이다. 전체 원본에서 우리가 구축하고자 하는 모델에 적합하도록 우선 일부 열을 선택했고 행도 조금 줄였다. 모델을 정하지 않은 단계에서 데이터 전처리를 너무 과감하게 진행한 감이 없지 않은 듯 한데, 이 부분이 조금 아쉽게 남는다. 그럼에도 수업에서 배운 오로지 수업에 의한 CRISP-DM 절차에 의해 그 과정을 이해하는 것에 의의를 두고 이어서 진행하도록 하겠다. 우선 csv 파일중에서 겉보기에는 numeric해 보지만 실제로는 더 범주형에 가까워보였다. 그래서 새롭게 수정을 했다 이를테면 아래 사진과 같이 이를 토대로 새롭게 음주량에 대한 아주아주..

새로운 비만 평가 지표를 만들기 위해서 (1)

sim et al.(2006)에서는 단순비만지표로는 허리둘레(waist circumference, WC), 허리 엉덩이 둘레 (waist-hip ratio, WHR), 허리둘레 신장 비 (waist-stature ratio, WSR), 그리고 가장 대표적인 체질량지수(BMI)등이 있다. 그러나 연구자료에 따라 비만도 측정방법과 비만기 , 준의 차이가 있으므로 한국인의 비만 유병률이 상 이하게 보고되고 있으며, 특히 단순비만지표는 대부분 한국인 체형과는 다른 서구인을 근거로 하여 측정되었다 그러나 한국인은 신장과 엉덩이둘 . 레가 서양인보다 유의하게 작아 서구의 비만기준을 그대로 적용하기에 많은 문제점이 나타나고 있으며 , 동양인은 서양인보다 동일 체질량지수에서 내장지방이 더 많으며, 제지방량은 적어 비만..

LDA modeling 실습 : 타다 금지법 기사 댓글 분석

https://github.com/youngwoos/Doit_textmining GitHub - youngwoos/Doit_textmining: 저장소 저장소. Contribute to youngwoos/Doit_textmining development by creating an account on GitHub. github.com 해당 교재의 7장 파일을 인용한다. 그리고 절차는 앞선 글인 https://couthelloworldendl.tistory.com/45 토픽모델링 : 어떤 주제로 글을 썼을까? (LDA) 토픽 모델을 만들면 문서가 어떤 주제로 구성되었는지 파악할 수 있다. 주제를 찾으면 비슷한 내용끼리 분류할 수 있기 때문에 다량의 문서를 분석할 때 특히 유용하다. 한편, 토픽은 1. 여러 ..

토픽모델링 : 어떤 주제로 글을 썼을까? (LDA)

토픽 모델을 만들면 문서가 어떤 주제로 구성되었는지 파악할 수 있다. 주제를 찾으면 비슷한 내용끼리 분류할 수 있기 때문에 다량의 문서를 분석할 때 특히 유용하다. 한편, 토픽은 1. 여러 단어의 혼합으로 구성된다 1-1. 한 토픽에 여러 단어가 서로 다른 확률로 포함된다. 1-2. 같은 단어가 여러 토픽에 서로 다른 확률로 포함된다. 2. 문서는 여러 토픽의 혼합으로 구성된다. 토픽 모델링 중 가장 많이 쓰이는 것이 LDA(Latent Dirichlet Allocation, 잠재 디리클레 할당)이다. https://github.com/youngwoos/Doit_textmining GitHub - youngwoos/Doit_textmining: 저장소 저장소. Contribute to youngwoos/..