반응형
반응형
이 글은 단순 선형 회귀 모델의 글과 연관 있습니다. https://luvris2.tistory.com/45 인공지능 머신러닝 - 단순 선형 회귀 모델(Simple Linear Regression) # 선형 회귀(Linear Regression) 종속 변수 y와 한 개 이상의 독립 변수 X와의 선형 상관 관계를 모델링하는 회귀 분석 기법 독립 변수가 한개면 단순 선형 회귀, 두개 이상이면 다중 선형 회귀 데이터 luvris2.tistory.com 다중 선형 회귀(Multiple Linear Regression) 이전 글에서 종속 변수 y와 한 개의 독립 변수 X와의 선형 상관 관계를 모델링해보았다. 이번에는 예시를 통하여 두 개 이상의 독립 변수 X와의 선형 상관 관계를 모델링해보자. 다중 선형 회귀 함..
선형 회귀(Linear Regression) 종속 변수 y와 한 개 이상의 독립 변수 X와의 선형 상관 관계를 모델링하는 회귀 분석 기법 독립 변수가 한개면 단순 선형 회귀, 두개 이상이면 다중 선형 회귀 데이터를 수집해 분포를 만족하는 직선을 찾으려하는 것 알려지지 않은 파라미터는 데이터로부터 추정 선형 회귀 함수는 직선이기 때문에 일차 함수로 표현 y= ax + b (a=기울기, b=절편) 값의 추정 방법으로는 일반적으로 최소제곱법(OLS:Ordinary Least Squares) 사용 다른 기법으로도 선형 회귀 모델링 가능 최소제곱법이 가장 단순하고 계산이 간단해서 많이 사용 최소제곱법을 사용하여 예측된 값이 제곱의 합을 최소화하는 것을 목표 최소제곱법의 종류 SSE(Sum of Squares Er..
# train_test_split 데이터들을 학습용(Training)과 테스트용(Test)으로 분리 배열 또는 행렬의 임의의 기차(학습) 및 테스트(결과) 하위 집합으로 분할 X_train, X_test, y_train, y_test = train_test_split( 데이터X, 데이터y, test_size= 0~1 , random_state= n ) 데이터 X : 학습시킬 데이터 데이터 y : 학습시킬 데이터와 연관되있는 결과 값 test_size : 테스트에 사용될 자원. 0.0부터 1.0사이여야하며 기본 값은 0.25(25%) train_size = 학습에 사용될 자원, test_size를 지정해주면 남는 자원을 학습에 사용 random_state : 분할을 적용하기 전에 데이터에 적용되는 임의의 ..
# 카테고리컬 인코딩 컴퓨터는 텍스트를 인식 할 수 없기 때문에 데이터들을 숫자로 바꿔주는 작업 카테고리컬 인코딩의 종류 종류 Label Encoding : 카테고리컬 데이터를 숫자로 변환, 0부터 넘버링, 3개 이상일 경우 성능이 떨어짐 One-Hot Encoding : 카테고리컬 데이터를 0과 1의 숫자로 변환, 3개 이상의 카테고리컬 데이터일 경우 사용 # 라이브러리 호출 import matplotlib.pyplot as plt # 표를 만들기 위한 라이브러리 import pandas # 데이터프레임을 사용하기 위한 라이브러리 from sklearn.preprocessing import LabelEncoder, OneHotEncoder # 인코더를 사용하기 위한 라이브러리 from sklearn.c..
# 피처 스케일링 (Feature Scaling) / 전처리 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 주로 표준화(standardization)와 정규화(normalization) 사용 # 표준화와 정규화 모듈 호출하기 from sklearn.preprocessing import StandardScaler, MinMaxScaler # 표준화 (Standardization) 필요에 따라 정규분포 분산과 표준편차를 표준에 맞게 통일 시키는 것 평균이 0, 분산이 1인 가우시안 정규분포를 가진 값으로 변환 표준화하기 StandardScaler : 표준화를 하기 위한 필요 함수 .fit_transform(data) : 필요한 피처 스케일링을 하기 위한 데이터의 값 변환 s_scaler = Sta..