728x90
전처리가 가장 힘든 과정이다
특히 다운받은 API 데이터는 json 데이터 타입으로 구성되어 있다.
흔히 알고 있는 csv 파일과 다르게 json 파일은 데이터를 키-값의 쌍의 집합으로 표현하는 것이다.
(딕셔너리 형태라고 이해)
예를 들면
name,age,city
John,25,New York
Alice,30,San Francisco
Bob,22,Los Angeles
와 같이 구성된 경우
[ {"name": "John", "age": 25, "city": "New York"},
{"name": "Alice", "age": 30, "city": "San Francisco"},
{"name": "Bob", "age": 22, "city": "Los Angeles"} ]
처럼 표현되어 있는 형태를 말한다.
USPTO 특허데이터도 마찬가지이다.
데이터를 일부만 살펴보니
와 같은 형태를 띄고 있다.
따라서 각 열을 전처리할 필요가 있다.
파이썬에서 간단한 코드를 작성하여 자료의 형식을 바꿀 수 있다.
import pandas as pd
import ast
# 파일 읽어오기
# 임의의 열 추가, 초기화
df[#임의의 열 이름] = None
# 'your_column_name' 열을 순회하면서 값을 추출하여 열에 추가
for index, row in df.iterrows():
row_data = ast.literal_eval(row['your_column_name'])
# 데이터 추출
if row_data:
cpc_group_ids = [item[#기존의 열이름] for item in row_data]
df.at[index, #임의의 열 이름] = ', '.join(#임의의 열 이름)
반복문을 사용해서 전처리를 진행하면
원하는 형태의 데이터 구조로 전처리할 수 있다
728x90
'T&DI LAB > 토픽모델링' 카테고리의 다른 글
USPTO Patent View API에서 특허 데이터 추출하기 (1) | 2024.01.05 |
---|---|
STM 실습 (4) 토픽모델링의 해석 / 의의와 한계 (1) | 2023.11.15 |
STM 실습 (3) 토픽모델링 적용 (1) | 2023.11.15 |
STM 실습 (2) 데이터 가공 (0) | 2023.11.14 |
STM 실습 (1) 데이터 탐색 및 목표 설정 (1) | 2023.11.14 |