반응형
반응형
비정형 데이터(Unstructured-Data) 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있는 것 숫자 데이터와 달리 그림이나 영상, 문서처럼 형태와 구조가 복잡해 정형화 되지 않은 데이터 대표적으로 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터 웹에 존재하는 데이터의 경우 html 형태로 존재하여 반정형 데이터로 구분 특정한 경우 텍스트 마이닝을 통해 데이터를 수집하는 경우도 존재, 명확한 구분 어려움 데이터 수집의 난이도 정형 데이터 (수집난이도 : 하) 내부 시스템인 경우가 대부분이라 수집이 쉬움 파일 형태의 스프레드시트라도 내부에 형식을 가지고 있어 처리가 쉬운 편 반정형 데이터 (수집난이도 : 중) 보통 API 형태로 제공 데이터 처리 기술 요구 ..
딥러닝 분석의 개념 인공신경망(ANN) 기계학습과 인지과학에서 생물학의 신경망을 통해 영감을 얻은 통계학적 학습 알고리즘 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜 문제 해결 능력을 가지는 모델을 지칭 인공신경망의 문제점 계산속도의 저하 : 1980년대 컴퓨터의 연산수준이 해당알고리즘 수행의 최적수준까지 발달하지 못함 초기치의 의존성 : 최초 시작점의 선택에 따라 수렴, 발산, 진동 등 다양한 형태로 결과가 바뀌는 문제 발생 과적합 문제 : 트레이닝 셋에만 최적화되어 실제 테스트와 예상 결과의 괴리 발생 2023.03.18 - [이론/빅데이터 분석 기사] - 빅데이터 모델링 - 분석기법 - 인공신경망(ANN) 2022.06.09 - [Programm..
베이즈 추론 베이즈(베이지안) 확률론을 기반으로 통계적 추론의 한 방법 추론 대상의 사전 확률과 추가적인 정보를 통해 해당 대상의 사후 확률을 추론하는 방법 추론하는 대상을 확률변수로 보아 그 변수의 확률분포를 추정하는 것 확률론적 의미해석(조건부 확률) 베이즈 기법의 개념 객관적 관점 베이즈 통계의 법칙은 이성적, 보편적으로 증명될 수 있으며 논리의 확장으로 설명될 수 있음 주관주의 확률 이론의 관점 지식의 상태는 개인적인 믿음의 정도(Degree of Belief)로 측정 확률에 대한 여러 개념 중 가장 인기있는 것 중 하나로 심리학, 사회학, 경제학 이론에 많이 응용 어떤 가설의 확률을 평가하기 위해 사전 확률을 먼저 밝히고 새로운 관련 데이터에 의한 새로운 확률값 변경 베이즈 기법 적용 회귀분석모..
시계열분석의 정의 시계열 자료(data)를 분석하고 여러 변수들 간의 인과관계를 분석하는 방법론 경제학에서도 매우 많이 쓰이는 방법론을ㄹ 계량경제학이나 금융, 거시경제 분석에 사용 시계열자료의 구분, 정상성 구분에 따른 분석 모델 그리고 회귀분석에 대해서 이해할 수 있어야 함 시계열 자료 시간의 흐름에 따라서 관측되는 데이터 미래에 대해 예측 또는 제어하는 것이 주 이용 목적 이산 시계열 : 관측값들이 이산적인 형태로 분리되어 존재 연속 시계열 : 관측값들이 연속적으로 연결된 형태의 자료 시차(Time lag) : 한 관측시점과 다른 관측시점 사이의 간격 시계열 자료 성분 불규칙 성분(Irregular Component) 시간에 따른 규칙적인 움직임이 없는(무관하게) 랜덤하게 변화하는 변동성분 시계열 자..
다변량 분석 정의 조사 중인 각 개인 혹은 대상물에 대한 다수의 측정치를 동시에 분석하는 모든 통계적 방법 일변량(단변량)분석과 이변량 분석의 확장 형태 통계적으로는 종속변수의 관계성을 고려해서 여러 개의 일변량 분석을 동시에 수행하는 것 일변량분석 : t-검정, ANOVA, 회귀분석 등 해당 용어 종속 기법(Dependence Methods) 변수들을 종속변수와 독립변수로 구분 독립변수들이 종속변수에 미치는 영향력을 분석하는 기법 상호의존적 기법(Interdependence Methods) 분석할 변수들을 종속변수와 독립변수로 구분하지 않음 전체를 대상으로 하는 분석하는 기법 명목 척도(Nominal Scale) 단지 분류만을 위해 사용된 숫자 숫자 그 자체는 전혀 의미가 없는 측정단위 순위 척도(Or..
범주형 자료분석의 통계적 정의 변수들이 이산형 변수일 때 주로 사용하는 분석 범주형 변수를 다룰 때에는 일반적으로 그 빈도를 세서 표를 작성 분할표 : 두 변수의 범주가 교차되어 있는 경우 분할표는 범주형 변수를 요약해서 표현하기에 가장 적당 분할표를 통해서 범주별 비교 분할표를 기반으로 범주형 변수의 독립성, 동질성 검정 등의 카이제곱 검정 수행 분할표는 일반화 선형모델을 해석하는 과정에서도 사용 로지스틱 회귀모델 등 자료의 분석 자료의 형태에 따른 범주형 자료 분석 방법 독립변수 종속변수 분석방법 예제 범주형 범주형 빈도분석, 카이제곱 검정 로그선형모델 지역별 선호정당 (지역별정당선호도) 연속형 범주형 로지스틱 회귀분석 소득에 따른 결혼의 선호도 범주형 연속형 T검정(2그룹) 분산분석(2그룹 이상) ..