글과 사진, 그리고 이야기

T&DI LAB/토픽모델링

USPTO Patent View API에서 특허 데이터 추출 후 전처리하기

뱃놀이가자 2024. 1. 15. 22:38
728x90

전처리가 가장 힘든 과정이다 

 

특히 다운받은 API 데이터는 json 데이터 타입으로 구성되어 있다. 

흔히 알고 있는 csv 파일과 다르게 json 파일은 데이터를 키-값의 쌍의 집합으로 표현하는 것이다.

(딕셔너리 형태라고 이해)

 

예를 들면

name,age,city

John,25,New York

Alice,30,San Francisco

Bob,22,Los Angeles

 

와 같이 구성된 경우

 

[ {"name": "John", "age": 25, "city": "New York"},

{"name": "Alice", "age": 30, "city": "San Francisco"},

{"name": "Bob", "age": 22, "city": "Los Angeles"} ]

처럼 표현되어 있는 형태를 말한다.

 

USPTO 특허데이터도 마찬가지이다. 

 

데이터를 일부만 살펴보니

와 같은 형태를 띄고 있다. 

따라서 각 열을 전처리할 필요가 있다. 

 

파이썬에서 간단한 코드를 작성하여 자료의 형식을 바꿀 수 있다.

import pandas as pd
import ast

# 파일 읽어오기

# 임의의 열 추가, 초기화
df[#임의의 열 이름] = None

# 'your_column_name' 열을 순회하면서 값을 추출하여 열에 추가
for index, row in df.iterrows():
    row_data = ast.literal_eval(row['your_column_name'])
    
    # 데이터 추출
    if row_data:
        cpc_group_ids = [item[#기존의 열이름] for item in row_data]
        df.at[index, #임의의 열 이름] = ', '.join(#임의의 열 이름)

 

반복문을 사용해서 전처리를 진행하면

 

 

원하는 형태의 데이터 구조로 전처리할 수 있다

728x90