Pandas 활용4 - 문자열 변경, 데이터 병합, 모든 항목 함수 적용(apply)

반응형

 

# 판다스 외부 모듈 호출하기

import pandas
  • import가 되지 않을 경우
    • 명령 프롬프트에서 pip install pandas 입력
    • 주피터 노트북일 경우 !pip install pandas 코드 실행

 

# 문자열 변경하기 (예시 3개만, 문자열 함수와 비슷함)

df.str. 문자열함수

  • 특정 문자 변경하기 (replace)
    • df.str.replace('바꿀문자', '대체문자')
  • 해당 문자 찾기 (contains)
    • df.str.contains("찾을문자")
  • 문자열 최대 길이 확인 (len)
    • df.str.len()

 

df.str. 문자열함수 예시를 통해서 이해해보기

  • 기존 데이터 프레임

 

  • 1. 기존 데이터프레임에서 새로운 인덱스(마켓2)와 값(사과=30, 바나나=40, 키위=50)을 추가해보기

 

  • 2. NaN 값이 있으면 "없음"으로 채우기

 

  • 3. "없음"이 있는지 찾기 (contains)

 

  • 4. "없음"을 품절로 바꾸기 (replace)

 

  • 5. 키위 칼럼의 각 항목 문자 최대 길이 확인해보기

 

# 데이터프레임 모든 항목에 함수 적용하기 (apply)

  • df.apply(함수) : 지정한 모든 항목에 함수 적용
  • 기존 함수를 사용할 수 있음
    • 예시) 사과 칼럼의 총 합 구해보기

 

  • 함수를 정의하여 사용 할 수 있음
    • 예시) 바나나가 30개 이상인지 미만인지 함수를 정의하여 확인해보기

 

# 데이터프레임 합치기 (concat/merge)

  • 칼럼명이 같은 데이터 프레임 합칠 경우 (concat)
    • pandas.concat( [df1, df2] )

 

  • 데이터프레임 두 개를 연결고리가 있는 칼럼으로 합칠 경우 (merge)
    • pandas.merger( df1, df2, on='연결고리칼럼', how='전체표시할df')
      • on : 동일한 칼럼명을 기준으로 서로 다른 칼럼을 가지는 데이터프레임이 있어도 합칠 수 있음
        • 동일함 칼럼명의 값이 같지 않을 경우 값은 제거
      • how : 기준이 되는 데이터프레임을 모두 표시. left=df1, right=df2
        • 병합시 기준 데이터프레임이 NaN값을 가지면 해당 값은 제거

 

 

반응형