반응형
반응형
# 카테고리컬 인코딩 컴퓨터는 텍스트를 인식 할 수 없기 때문에 데이터들을 숫자로 바꿔주는 작업 카테고리컬 인코딩의 종류 종류 Label Encoding : 카테고리컬 데이터를 숫자로 변환, 0부터 넘버링, 3개 이상일 경우 성능이 떨어짐 One-Hot Encoding : 카테고리컬 데이터를 0과 1의 숫자로 변환, 3개 이상의 카테고리컬 데이터일 경우 사용 # 라이브러리 호출 import matplotlib.pyplot as plt # 표를 만들기 위한 라이브러리 import pandas # 데이터프레임을 사용하기 위한 라이브러리 from sklearn.preprocessing import LabelEncoder, OneHotEncoder # 인코더를 사용하기 위한 라이브러리 from sklearn.c..
https://www.kaggle.com/ Kaggle: Your Machine Learning and Data Science Community Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals. www.kaggle.com https://www.data.go.kr/ 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr https://www.i..
# datetime64란? 날짜와 시간을 저장하는 자료 형태 datetime을 보완하기 위한 라이브러리 numpy에서 64bit로 처리하도록 변경 pandas에서는 Timestamp로 사용 # timedelta64란? 날짜/시간 연산시 각자 가지고있는 기준이 다르기 때문에(연-월-일-시-분-초) 이를 저장하기 위한 별도의 클래스 timedelta를 보완하기 위한 라이브러리 numpy에서 64bit로 처리하도록 변경 pandas에서는 Timedelta로 사용 # 각각의 라이브러리에서 정의된 날짜 타입 라이브러리 날짜시간 클래스 타임델타 클래스 datetime datetime, date, time timedelta numpy datetime64 timedelta64 pandas Timestamp Timede..
# 피처 스케일링 (Feature Scaling) / 전처리 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 주로 표준화(standardization)와 정규화(normalization) 사용 # 표준화와 정규화 모듈 호출하기 from sklearn.preprocessing import StandardScaler, MinMaxScaler # 표준화 (Standardization) 필요에 따라 정규분포 분산과 표준편차를 표준에 맞게 통일 시키는 것 평균이 0, 분산이 1인 가우시안 정규분포를 가진 값으로 변환 표준화하기 StandardScaler : 표준화를 하기 위한 필요 함수 .fit_transform(data) : 필요한 피처 스케일링을 하기 위한 데이터의 값 변환 s_scaler = Sta..
# 피벗 테이블이란? (pivot table) 컬럼의 값들을 열로 만드는 것 각 수치들의 평균을 구해서 제공 aggfunc를 이용하여 다른 연산 가능 # 피벗 테이블 생성하기 pandas.pivot_table(data, index=n, values=m, aggfunc=func) data : 피봇 테이블에 넣을 데이터프레임 index : 인덱스가 될 컬럼 values : 컬럼으로 보여줄 항목 aggfunc : 다른 연산을 할 때 사용 예시에 사용될 데이터프레임 파일 # 필요한 부분만 선택하여 피벗 테이블을 생성해보자 'Name'을 인덱스로, 'Price'와 'Quantity'를 밸류로, aggfunc를 활용하여 총 합, 평균, 표준편차 출력 std : 갯수 1개는 표준편차 값이 없으므로 NaN값 출력 pd..
csv 호출시 한글이 보이지 않을 때가 있다. 아래의 코드를 입력하고 실행하면 된다. # 한글 찍기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') elif platform.system() == 'Windows': path = "c:/Windows/Fonts/mal..