Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- PyQt5
- 다이어트
- MS-SQL
- swift
- 리눅스
- python
- mssql
- node.js
- Unity
- sqlite
- 유니티
- IOS
- 함수
- ASP
- javascript
- PyQt
- flutter
- urllib
- GIT
- Linux
- port
- ubuntu
- 맛집
- Excel
- MySQL
- 라즈베리파이
- 날짜
- pandas
- tensorflow
- PER
Archives
아미(아름다운미소)
type 함수 본문
최적화 최존
def process_dataframe_optimized(dict_df_types, df):
type_handlers = {
'int': lambda s: pd.to_numeric(s, errors='coerce').fillna(0).astype('int32'),
'float': lambda s: pd.to_numeric(s, errors='coerce').fillna(0).astype('float32'), # float32로 변경
'bool': lambda s: s.astype(str).str.lower().isin(['true', 't', '1']), # 더 넓은 불리언 조건
'datetime': lambda s: pd.to_datetime(s, errors='coerce'),
'string': lambda s: s.astype('string'),
'category': lambda s: s.astype('category')
}
# 교집합으로 존재하는 컬럼만 선택 (속도 향상)
valid_cols = set(df.columns) & set(dict_df_types.keys())
# 한 번에 모든 컬럼 처리 (assign 사용)
return df.assign(**{
col: type_handlers[dtype](df[col])
for col, dtype in dict_df_types.items()
if col in valid_cols and dtype in type_handlers
})
카테고리 타입추가
import pandas as pd
def process_dataframe(dict_df_types, df):
"""
속도 최적화된 기본 타입 처리 함수 (대소문자 혼합 불리언 및 카테고리 지원)
"""
type_handlers = {
'int': lambda s: pd.to_numeric(s, errors='coerce').fillna(0).astype('int32'),
'float': lambda s: pd.to_numeric(s, errors='coerce').fillna(0).astype('float64'),
'bool': lambda s: s.astype(str).str.lower().eq('true'), # 핵심: 소문자 변환 후 비교
'datetime': lambda s: pd.to_datetime(s, errors='coerce'),
'string': lambda s: s.astype('string'),
'category': lambda s: s.astype('category') # 카테고리 타입 추가
}
cols_to_process = [col for col in dict_df_types if col in df.columns]
df = df.assign(**{
col: type_handlers[dtype](df[col])
for col, dtype in dict_df_types.items()
if col in cols_to_process and dtype in type_handlers
})
return df
# 대소문자 혼합 불리언 데이터 예제 + 카테고리 예제 추가
data = {
"id": ["1", "2", "3", "4", "5"],
"is_valid": ["TRUE", "FALSe", "True", "false", "INVALID"], # 대소문자 혼합 + 오류 데이터
"price": ["10.5", "20.0", "invalid", "30.3", "40.1"],
"date": ["2023-01-01", "2023/02/15", "invalid", None, "2023-05-20"],
"grade": ["A", "B", "A", "C", "B"] # 카테고리 타입으로 변환할 데이터
}
df = pd.DataFrame(data)
dict_df_types = {
"id": "int",
"is_valid": "bool",
"price": "float",
"date": "datetime",
"grade": "category" # 카테고리 타입 지정
}
# 처리 실행
processed_df = process_dataframe(dict_df_types, df)
print("=== 처리 결과 ===")
print(processed_df)
print("\n=== 데이터 타입 ===")
print(processed_df.dtypes)
기본
import pandas as pd
def process_dataframe(dict_df_types, df):
"""
속도 최적화된 기본 타입 처리 함수 (대소문자 혼합 불리언 지원)
"""
type_handlers = {
'int': lambda s: pd.to_numeric(s, errors='coerce').fillna(0).astype('int32'),
'float': lambda s: pd.to_numeric(s, errors='coerce').fillna(0).astype('float64'),
'bool': lambda s: s.astype(str).str.lower().eq('true'), # 핵심: 소문자 변환 후 비교
'datetime': lambda s: pd.to_datetime(s, errors='coerce'),
'string': lambda s: s.astype('string')
}
cols_to_process = [col for col in dict_df_types if col in df.columns]
df = df.assign(**{
col: type_handlers[dtype](df[col])
for col, dtype in dict_df_types.items()
if col in cols_to_process and dtype in type_handlers
})
return df
# 대소문자 혼합 불리언 데이터 예제
data = {
"id": ["1", "2", "3", "4", "5"],
"is_valid": ["TRUE", "FALSe", "True", "false", "INVALID"], # 대소문자 혼합 + 오류 데이터
"price": ["10.5", "20.0", "invalid", "30.3", "40.1"],
"date": ["2023-01-01", "2023/02/15", "invalid", None, "2023-05-20"]
}
df = pd.DataFrame(data)
dict_df_types = {
"id": "int",
"is_valid": "bool",
"price": "float",
"date": "datetime"
}
# 처리 실행
processed_df = process_dataframe(dict_df_types, df)
print("=== 처리 결과 ===")
print(processed_df)
print("\n=== 데이터 타입 ===")
print(processed_df.dtypes)
'랭귀지 > pandas' 카테고리의 다른 글
errors='coerce'로 NaT 변환 후 처리 (0) | 2025.04.01 |
---|---|
index.duplicated() 메서드 사용 (0) | 2025.03.31 |
pandas_profiling (대규모 데이터 분석) (0) | 2025.03.28 |
메모리 사용량을 상세히 분석 (0) | 2025.03.28 |
df비교 (0) | 2025.03.27 |
Comments