USPTO Patent View API에서 특허 데이터 추출 후 전처리하기

T&DI LAB/토픽모델링

USPTO Patent View API에서 특허 데이터 추출 후 전처리하기

뱃놀이가자 2024. 1. 15. 22:38

728x90

전처리가 가장 힘든 과정이다

특히 다운받은 API 데이터는 json 데이터 타입으로 구성되어 있다.

흔히 알고 있는 csv 파일과 다르게 json 파일은 데이터를 키-값의 쌍의 집합으로 표현하는 것이다.

(딕셔너리 형태라고 이해)

예를 들면

name,age,city

John,25,New York

Alice,30,San Francisco

Bob,22,Los Angeles

와 같이 구성된 경우

[ {"name": "John", "age": 25, "city": "New York"},

{"name": "Alice", "age": 30, "city": "San Francisco"},

{"name": "Bob", "age": 22, "city": "Los Angeles"} ]

처럼 표현되어 있는 형태를 말한다.

USPTO 특허데이터도 마찬가지이다.

데이터를 일부만 살펴보니

와 같은 형태를 띄고 있다.

따라서 각 열을 전처리할 필요가 있다.

파이썬에서 간단한 코드를 작성하여 자료의 형식을 바꿀 수 있다.

import pandas as pd
import ast

# 파일 읽어오기

# 임의의 열 추가, 초기화
df[#임의의 열 이름] = None

# 'your_column_name' 열을 순회하면서 값을 추출하여 열에 추가
for index, row in df.iterrows():
    row_data = ast.literal_eval(row['your_column_name'])
    
    # 데이터 추출
    if row_data:
        cpc_group_ids = [item[#기존의 열이름] for item in row_data]
        df.at[index, #임의의 열 이름] = ', '.join(#임의의 열 이름)

반복문을 사용해서 전처리를 진행하면

원하는 형태의 데이터 구조로 전처리할 수 있다

728x90

저작자표시 비영리 (새창열림)

'T&DI LAB > 토픽모델링' 카테고리의 다른 글

USPTO Patent View API에서 특허 데이터 추출하기 (1)	2024.01.05
STM 실습 (4) 토픽모델링의 해석 / 의의와 한계 (1)	2023.11.15
STM 실습 (3) 토픽모델링 적용 (1)	2023.11.15
STM 실습 (2) 데이터 가공 (0)	2023.11.14
STM 실습 (1) 데이터 탐색 및 목표 설정 (1)	2023.11.14

현재글USPTO Patent View API에서 특허 데이터 추출 후 전처리하기

티스토리에 담긴 나의 히스토리

컨설턴트를 향한 발자국

LDA, 데이터분석, c++, 산업공학, 특허분석, 경희대학교, Python, 자료구조, 파이썬, 텍스트마이닝, 한빛미디어, 토픽모델링, 기술경영, 논문리뷰, USPTO, STM, C++기초, 데이터사이언스, 머신러닝, technology forecasting,

Today :
Yesterday :

티스토리에 담긴 나의 히스토리