글과 사진, 그리고 이야기

Python 3

STM 실습 (2) 데이터 가공

https://www.kaggle.com/datasets/aggle6666/bbc-news BBC News Articles This dataset contains BBC News Articles scrapped from the year 2017 www.kaggle.com 캐글에서 제공하는 데이터는 다음과 같은 구조를 가진다. STM 모델에 적용하기 위해 파이썬 환경에서 데이터셋을 약간 전처리할 계획이다. 연구실 선배님이 논문을 읽었는데 STM topic의 성능을 향상시키기 위해 headline을 두 번 concat하여 가중치를 두는 경우도 있다고 하여 document를 만들 때 참고하기로 했다. 또한 metadata로서 date를 활용하기 위해 현재 날짜의 데이터 타입을 바꿀 필요가 있어 Saturday..

파이썬은 무엇일까?

요즘 코딩은 필수라고들 하죠? 그리고 그 코딩중에 파이썬의 사용비율은 시간이 지날수록 늘고 있습니다. 위 사진을 보면 주황색으로 표시된 파이썬의 사용비율을 체감할 수 있습니다. 2023년인 지금은 어떨까요? 자, 그렇다면 파이썬이 대체 왜 많이 쓰는지 그 특징을 알아보면 좋겠습니다 우선 파이썬의 아주 짧고도 긴 시작에 대해서 파이썬은 1989년 크리스마스에 할 것 없던 귀도 반 로섬이라는 사람이 개발을 시작해서 1991년 출시를 했습니다. 참 대단하죠..?? 그당시만 해도 파이썬이 이정도의 파급력을 가져오리라고 생각을 못했을거에요~ 그 이름은 그리스 신화속의 괴물 뱀 피톤(Python)에서 유래했습니다. 닮은 것 같기도 하고.. 역사는 이정도로 마무리 할게요. 그 다음으로 파이썬의 가장 중요한 특징에 대..

기타 2023.01.13