아미(아름다운미소)

type 함수 본문

랭귀지/pandas

type 함수

유키공 2025. 4. 3. 14:06

최적화 최존

def process_dataframe_optimized(dict_df_types, df):
    type_handlers = {
        'int': lambda s: pd.to_numeric(s, errors='coerce').fillna(0).astype('int32'),
        'float': lambda s: pd.to_numeric(s, errors='coerce').fillna(0).astype('float32'),  # float32로 변경
        'bool': lambda s: s.astype(str).str.lower().isin(['true', 't', '1']),  # 더 넓은 불리언 조건
        'datetime': lambda s: pd.to_datetime(s, errors='coerce'),
        'string': lambda s: s.astype('string'),
        'category': lambda s: s.astype('category')
    }
    
    # 교집합으로 존재하는 컬럼만 선택 (속도 향상)
    valid_cols = set(df.columns) & set(dict_df_types.keys())
    
    # 한 번에 모든 컬럼 처리 (assign 사용)
    return df.assign(**{
        col: type_handlers[dtype](df[col]) 
        for col, dtype in dict_df_types.items() 
        if col in valid_cols and dtype in type_handlers
    })

카테고리 타입추가

import pandas as pd

def process_dataframe(dict_df_types, df):
    """
    속도 최적화된 기본 타입 처리 함수 (대소문자 혼합 불리언 및 카테고리 지원)
    """
    type_handlers = {
        'int': lambda s: pd.to_numeric(s, errors='coerce').fillna(0).astype('int32'),
        'float': lambda s: pd.to_numeric(s, errors='coerce').fillna(0).astype('float64'),
        'bool': lambda s: s.astype(str).str.lower().eq('true'),  # 핵심: 소문자 변환 후 비교
        'datetime': lambda s: pd.to_datetime(s, errors='coerce'),
        'string': lambda s: s.astype('string'),
        'category': lambda s: s.astype('category')  # 카테고리 타입 추가
    }
    
    cols_to_process = [col for col in dict_df_types if col in df.columns]
    df = df.assign(**{
        col: type_handlers[dtype](df[col]) 
        for col, dtype in dict_df_types.items() 
        if col in cols_to_process and dtype in type_handlers
    })
    return df

# 대소문자 혼합 불리언 데이터 예제 + 카테고리 예제 추가
data = {
    "id": ["1", "2", "3", "4", "5"],
    "is_valid": ["TRUE", "FALSe", "True", "false", "INVALID"],  # 대소문자 혼합 + 오류 데이터
    "price": ["10.5", "20.0", "invalid", "30.3", "40.1"],
    "date": ["2023-01-01", "2023/02/15", "invalid", None, "2023-05-20"],
    "grade": ["A", "B", "A", "C", "B"]  # 카테고리 타입으로 변환할 데이터
}

df = pd.DataFrame(data)
dict_df_types = {
    "id": "int",
    "is_valid": "bool",
    "price": "float",
    "date": "datetime",
    "grade": "category"  # 카테고리 타입 지정
}

# 처리 실행
processed_df = process_dataframe(dict_df_types, df)
print("=== 처리 결과 ===")
print(processed_df)
print("\n=== 데이터 타입 ===")
print(processed_df.dtypes)

기본

import pandas as pd

def process_dataframe(dict_df_types, df):
    """
    속도 최적화된 기본 타입 처리 함수 (대소문자 혼합 불리언 지원)
    """
    type_handlers = {
        'int': lambda s: pd.to_numeric(s, errors='coerce').fillna(0).astype('int32'),
        'float': lambda s: pd.to_numeric(s, errors='coerce').fillna(0).astype('float64'),
        'bool': lambda s: s.astype(str).str.lower().eq('true'),  # 핵심: 소문자 변환 후 비교
        'datetime': lambda s: pd.to_datetime(s, errors='coerce'),
        'string': lambda s: s.astype('string')
    }
    
    cols_to_process = [col for col in dict_df_types if col in df.columns]
    df = df.assign(**{
        col: type_handlers[dtype](df[col]) 
        for col, dtype in dict_df_types.items() 
        if col in cols_to_process and dtype in type_handlers
    })
    return df

# 대소문자 혼합 불리언 데이터 예제
data = {
    "id": ["1", "2", "3", "4", "5"],
    "is_valid": ["TRUE", "FALSe", "True", "false", "INVALID"],  # 대소문자 혼합 + 오류 데이터
    "price": ["10.5", "20.0", "invalid", "30.3", "40.1"],
    "date": ["2023-01-01", "2023/02/15", "invalid", None, "2023-05-20"]
}

df = pd.DataFrame(data)
dict_df_types = {
    "id": "int",
    "is_valid": "bool",
    "price": "float",
    "date": "datetime"
}

# 처리 실행
processed_df = process_dataframe(dict_df_types, df)
print("=== 처리 결과 ===")
print(processed_df)
print("\n=== 데이터 타입 ===")
print(processed_df.dtypes)

'랭귀지 > pandas' 카테고리의 다른 글

errors='coerce'로 NaT 변환 후 처리  (0) 2025.04.01
index.duplicated() 메서드 사용  (0) 2025.03.31
pandas_profiling (대규모 데이터 분석)  (0) 2025.03.28
메모리 사용량을 상세히 분석  (0) 2025.03.28
df비교  (0) 2025.03.27
Comments