'랭귀지/pandas' 카테고리의 글 목록 (2 Page)

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

메모리 사용량을 상세히 분석

def analyze_memory_usage(df, warning_threshold=20): """ [최종 개선사항] 1. drop() 메서드 오류 해결 2. 인덱스/컬럼 처리 강화 3. 메모리 계산 최적화 """ try: # 1. 메모리 사용량 계산 mem_usage = df.memory_usage(deep=True) total_memory = mem_usage.sum() # 2. 분석 결과 생성 mem_analysis = pd.DataFrame({ 'Memory (MB)': (mem_usage / (1024**2)).round(2), 'Percent..

랭귀지/pandas 2025. 3. 28. 10:21

df비교

import pandas as pdimport numpy as np# 예시 데이터 (NaN 포함)df1 = pd.DataFrame({'A': [1, 2, np.nan], 'B': ['a', 'b', 'c']}, index=[0, 1, 2])df2 = pd.DataFrame({'A': [1, 2, 4], 'B': ['a', 'x', np.nan]}, index=[1, 2, 3])# 1. merge 실행 (outer join)merged = pd.merge( df1.reset_index(drop=True), df2.reset_index(drop=True), how='outer', indicator='_source', on=list(df1.columns), suffixes..

랭귀지/pandas 2025. 3. 27. 16:47

데이터프레임의 메모리 사용량을 최적화하는 함수

import pandas as pdimport numpy as npfrom typing import Optionaldef memory_optimizer( df: pd.DataFrame, enable_category: bool = True, enable_downcast: bool = True, safe_mode: bool = True, verbose: bool = True) -> pd.DataFrame: """ 데이터 정확성을 보장하는 메모리 최적화 함수 Parameters: df: 입력 DataFrame enable_category: 문자열 범주형 변환 활성화 (기본 True) enable_downcast: 숫자형 다..

랭귀지/pandas 2025. 3. 27. 14:10

메모리 최적화 자동화

# 기존 메모리 사용량 확인df.info(memory_usage='deep')# 정수형 컬럼 최적화int_cols = df.select_dtypes(include=['int64']).columnsdf[int_cols] = df[int_cols].apply(pd.to_numeric, downcast='integer')# 실수형 컬럼 최적화float_cols = df.select_dtypes(include=['float64']).columnsdf[float_cols] = df[float_cols].apply(pd.to_numeric, downcast='float')# 문자열 컬럼은 범주형으로 변환 (고유값이 적은 경우)obj_cols = df.select_dtypes(include=['object']).co..

랭귀지/pandas 2025. 3. 27. 10:53

category로 변환

# Object 타입 열별 고유값 개수 확인for col in df.select_dtypes(include=['object']).columns: unique_count = df[col].nunique() print(f"{col}: {unique_count}개 고유값") # 고유값이 10개 이하인 경우에만 변환 (임계값 조정 가능) if unique_count {col}을(를) category로 변환")

랭귀지/pandas 2025. 3. 27. 09:38

함수 실행 시간 측정

import time# 실행 시간을 측정하는 데코레이터 정의def measure_time(func): def wrapper(*args, **kwargs): start_time = time.time() # 시작 시간 result = func(*args, **kwargs) # 원본 함수 실행 end_time = time.time() # 종료 시간 elapsed_time = end_time - start_time # 경과 시간 print(f"[측정 완료] '{func.__name__}' 함수 실행 시간: {elapsed_time:.4f}초") return result # 원본 함수의 결과 반환 return wrapp..

랭귀지/pandas 2025. 3. 26. 21:30

merge

# 원본 merge 코드df_merge = df2.merge(df3, how='left', left_on='a', right_on='b').set_index('d')# join으로 변환한 코드df_join = ( df2.set_index('a') # left_on='a' → 인덱스 .join(df3.set_index('b'), # right_on='b' → 인덱스 how='left') .reset_index() # 인덱스(a)를 컬럼으로 복원 .set_index('d') # 최종 인덱스 설정)# 결과 비교print(df_merge.equals(df_join)) # True여야 일치# 원본 merge 결과와 100% ..

랭귀지/pandas 2025. 3. 26. 10:24

fillna 최종

data = {'a': ['hello', np.nan, 'nan', None]} # 'nan'은 문자열df = pd.DataFrame(data)array = np.where(pd.isna(df['a'].to_numpy()), '', df['a'].to_numpy())# 결과: ['hello', '', 'nan', '']import pandas as pdimport numpy as np# 샘플 데이터 생성data = {'a': [1, np.nan, 3, np.nan, 5], 'b': [np.nan, 2, np.nan, 4, np.nan]}df = pd.DataFrame(data)# 성능 개선된 처리array = df['a'].to_numpy() # dtype=object 제거 (float64로 자동 변..

랭귀지/pandas 2025. 3. 25. 19:04

pd.concat 을 사용할 때 컬럼이 서로 맞지 않는 경우, list_columns 에 지정된 컬럼명으로 맞춘 후 병합

극한의 성능 필요시# 리스트 컴프리헨션 + 딕셔너리 생성def fast_concat(df_list, target_cols): return pd.DataFrame( {col: pd.concat([df[col] for df in df_list if col in df], ignore_index=True) for col in target_cols} )final_result = fast_concat([df1, df2], list_columns)### 방법 1: `reindex` 사용import pandas as pd# 예시 데이터프레임들df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})df2 = pd...

랭귀지/pandas 2025. 3. 25. 08:38

@ 기준으로 앞의 값을 가져오고 @가 없으면 기존 값을 유지

import pandas as pdimport numpy as np# 샘플 DataFrame 생성data = { 'A': [11111, 22222, 11111, 33333, 44444], 'B': ['@', '', '@', '', '']}df = pd.DataFrame(data)# 결과를 저장할 새로운 열 'C' 생성df['C'] = np.where(df['B'] == '@', df['A'].shift(), df['A'])# DataFrame 출력print(df) import pandas as pd# 예시 데이터프레임 생성data = {'column': ['11111@111', '22222', '33333@333', '44444']}df = pd.DataFrame(data)# @ 기준으로 앞..

랭귀지/pandas 2025. 3. 20. 09:39

아미(아름다운미소)

목록랭귀지/pandas (115)

아미(아름다운미소)

티스토리툴바