빅데이터 - 분석 기획 - 빅데이터의 이해 - 빅데이터와 인공지능

 

글 도중 도중 해당 개념에 대한 좀 더 상세히 기재해놓은 페이지도 같이 포함해두었습니다.

 

인공지능(AI, Artificial Intelligence)

인공지능의 정의

  • 기계를 지능화하는 노력
    • 지능화란 객체가 환경에서 적절히 예지력을 갖고 작동하도록 하는 것
  • 합리적 행동 수행자
    • 어떤 행동이 최적의 결과를 낳을 수 있도록 하는 의사결정 능력을 갖춘 에어전트를 구축하는 것
  • 설정한 목표를 극대화하는 행동을 제시하는 의사결정 로직

인공지능, 기계학습, 딥러닝의 관계

  • 인공지능을 논할 때 기계학습과 딥러닝을 혼재하여 사용
  • 인공지능
    • 사람이 생각하고 판단하는 사고 구조를 구축하려는 전반적인 노력
  • 기계학습
    • 인공지능의 연구 분야 중 하나
    • 인간의 학습 능력과 같은 기능을 축적된 데이터를 활용하여 실현하고자 하는 기술 및 방법
  • 딥러닝
    • 기계학습 방법 중 하나
    • 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 이용한 기법

딥러닝(Deep Learning)의 특징

2022.06.09 - [Programming/Machine Learning (Python)] - 인공신경망과 딥러닝의 기초, 개념

  • 전신인 신경망(Neural Network)의 여러 단점을 극복해 유연성과 확장성을 확보
  • 함수추정 방법으로써의 신경망 관점에서 정보를 압축, 가공, 재현하는 알고리즘으로 일반화
  • 깊은 구조에 의해 엄청난 양의 데이터를 학습

기계학습(Machine Learning)의 종류

2022.05.31 - [Programming/Machine Learning (Python)] - 인공지능 머신러닝의 기초, 개념, 종류

  • 지도학습(Supervised Learning)
    • 학습 데이터로부터 하나의 함수를 유추해내기 위한 방법
    • 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 올바로 추측해 내는 것
  • 비지도학습(Unsupervised Learning, =자율학습)
    • 학습 데이터 없이 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주를 확인하는 방법
    • 지도학습 혹은 강화학습과는 달리 입력값에 대한 주어진 목표치 미존재
    • 통계의 밀도 추정(Density Estimation)과 깊은 연관성을 가지며 데이터의 중요 특징을 요약하고 설명
  • 준지도학습(Semi-supervised Learning)
    • 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용하는 것
    • 목표값이 없는 데이터에 적은 양의 목표값을 포함한 데이터를 사용할 경우 학습 정확도 상승
  • 강화학습(Reinforcement Learning)
    • 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 순서를 선택하는 방법
    • 학습 과정에서의 성능을 초점으로 두고 탐색과 이용의 균형을 맞춰 최상의 전략을 학습

기계학습 방법에 따른 인공지능 응용분야

  • 지도학습
    • 분류모형(Classification) : 훈련 데이터로 훈련되어야하며 어떻게 분류할지 학습하는 것
      • 이미지 인식
      • 음성 인식
      • 신용평가 및 사기검출
      • 불량예측 및 원인발굴
    • 회귀모형(Regression) : 예측 변수라 부르는 특성을 사용해 목표 수치를 예측 하는 것
      • 시세/가격/주가 예측
      • 강우량 예측
  • 비지도학습
    • 군집분석(Clustering) : 각 그룹을 더 작은 그룹으로 세분화하는 것
      • 텍스트 토픽 분석
      • 고객 세그멘테이션(고객 세분화)
    • 오토인코더(AutoEncoder) : 인코더를 통해 입력을 신호로 변환한 다음 다시 디코더를 통해 레이블 따위를 만들어내는 것
      • 이상징후 탐지
      • 노이즈 제거
      • 텍스트 벡터화
    • 생성적 적대 신경망(Generative Adversarial Network) : 임의의 랜덤 노이즈로부터 가상의 데이터를 생성하는 네트워크가 실제와 같은 데이터를 생성 할 수 있도록 진위 여부를 판별할 수 있는 네트워크를 붙여 경쟁적으로 학습시키는 것
      • 시뮬레이션 데이터 생성
        • 이미지 생성 (예:딥페이크)
      • 누락 데이터 생성
      • 패션 데이터 생성
  • 강화 학습
    • 강화 학습 : 환경을 관찰해서 행동을 실행하고 그 결과로 가장 큰 보상을 얻기 위해 최상의 전략을 스스로 학습하는 것
      • 게임 플레이어 생성(예: 알파고)
      • 로봇 학습 알고리즘
      • 공급망 최적화

인공지능 데이터 학습의 진화

2022.06.16 - [Programming/Machine Learning (Python)] - 딥러닝 - Transfer Learning(전이학습), Fine Tuning(미세조정)

전이학습 (Transfer Learning)

  • 인간의 응용력과 같이 유사 분야에 학습된 딥러닝 모형을 다른 문제를 해결하기 위해 사용하고자 하는 학습 방법
  • 하나의 문제를 해결하고 새로운 유사한 문제에 적용하면서 얻은 지식을 저장하는데 초점을 맞춘 것
    • 적은 양의 데이터로도 좋은 결과를 도출 할 수 있음
  • 주로 이미지, 언어, 텍스트 인식과 같이 지도학습 중 분류 모형인 인식(recognition) 문제에 활용 가능
    • 인식 문제의 경우 데이터 표준화가 가능하여 사전학습모형 입력형식에 맞출 수 있음

+ 레코그니션(Rekognition) 파이썬 구현

2022.06.24 - [Programming/Rest API (Python)] - API서버 - Rekognition 객체 탐지 API 구현하기


전이학습 기반 사전학습모형(Pre-trained Model)

  • 학습 데이터에 의한 인지능력을 갖춘 딥러닝 모형에 추가적인 데이터를 학습시키는 방식
  • 데이터 학습량에 따라 점차 발전하는 것도 중요하지만 응용력을 갖추는 것을 필수로 함
  • 상대적으로 적은 양의 데이터로도 제한된 문제에 인공지능 적용 가능
    • 이미 학습된 사전학습모형도 데이터를 함축한 초보적 인공지능으로 충분한 가치를 지닌 새로운 의미의 데이터라고 할 수 있음

BERT(Bidirectional Encoder Representations form Transformers)

  • 언어 인식 사전학습 모형
  • 확보된 언어 데이터의 추가 학습을 통한 신속한 학습 가능
  • 다층의 임베딩 구조를 통해 1억 2천개가 넘는 파라미터로 구성된 획기적인 모형
    • 임베딩(Embedding) : 특정 데이터를 숫자로 채워진 벡터, 행렬로 바꾸는 과정
  • 256개까지의 문자가 입력되어 768차원 숫자 벡터가 생성되는 방식
  • 언어 인식 뿐 아니라 번역, 챗봇의 Q&A 엔진으로 활용 가능

+ AI 챗봇 구현

2022.06.04 - [Web Programming/Streamlit (Web Dashboard)] - Streamlit - AI Hub의 데이터셋을 이용하여 챗봇 만들기 - 2. 코딩, 구현


빅데이터와 인공지능의 관계

인공지능을 위한 학습 데이터 확보

  • 학습 데이터 측면을 고려한 양질의 데이터 확보는 결국 성공적인 인공지능 구현과 직결
  • 딥러닝은 깊은 구조를 통해 무한한 모수 추정이 필요한 만큼 많은 양의 데이터 필요
  • 인공지능 학습에 활용될 수 있는 데이터로 가공 필요
  • 학습의 가이드를 제공해주는 애노테이션 작업 필수

학습 데이터의 애노테이션 작업

애노테이션(Annotation) : 데이터상의 주석 작업으로 딥러닝과 같은 학습 알고리즘이 무엇을 학습하여야하는지 알려주는 표식 작업

  • 많은 데이터 확보 후 애노테이션을 통해 학습이 가능한 데이터로 가공

<이미지 애노테이션 작업의 예시, 출처 위키백과>


애노테이션 작업을 위한 도구로써의 인공지능

  • 인공지능 시장이 확장되며 애노테이션 작업을 전문으로 하는 기업의 수 증가
  • 경쟁으로 인해 학습용 데이터에 대한 보안 및 애노테이션 결과에 대한 품질 요구수준 상승
  • 기업들은 데이터 업로드 및 애노테이션 도구, 작업 모니터링을 위한 플랫폼 제공
  • 현재 자동으로 애노테이션을 수행해주는 인공지능 기반의 애노테이션 도구를 제공하는 서비스로 진화 중

인공지능의 기술동향

기계학습 프레임워크 보급 확대

기계학습 프레임워크(Machine Learning Framework) : 인터페이스와 라이브러리, 툴 등 기계학습 모형 개발을 쉽고 빠르게 하도록 지원하는 기반

  • 텐서플로우(Tensorflow)는 파이썬 기반 딥러닝 라이브러리로 여러 CPU 및 GPU 플랫폼에서 사용 가능
  • 케라스(Keras)는 파이썬 기반 딥러닝 신경망 구축을 위한 단순화된 인터페이스를 가진 라이브러리로 몇 줄의 코드만으로 딥러닝 모형 개발 가능

+ 텐서플로우, 케라스 사용 간단 예시

2022.06.10 - [Programming/Machine Learning (Python)] - 딥러닝 - 텐서플로우의 기초, 개념, 간단 예시


생성적 적대 신경망(GAN)

  • 생성적 적대 신경망(GAN, Generative Adversarial Networks)을 보통 GAN이라고 칭함
  • GAN은 두 개의 인공신경망으로 구성된 딥러닝 이미지 생성 알고리즘
  • 생성자가 가짜 사례를 생성하면 감별자가 진위를 판별하도록 구성한 후 이들이 적대적 관계 속에서 공방전 반복하는 것
  • 가짜 사례의 정밀도를 점점 더 진짜 사례와 구별하기 어려운 수준으로 높이는 방식으로 작동
  • 주로 새로운 합성 이미지를 생성하는 분석에 많이 적용, 점차 다른 분야에 응용하는 사례 증가

오토인코더

오토인코더(Auto-encoder) : 라벨이 설정되어 있지 않은 학습 데이터로부터 더욱 효율적인 코드로 표현하도록 학습하는 신경망

  • 입력 데이터의 차원을 줄여 모형을 단순화 시키기 위해 활용

설명 가능한 인공지능(XAI)

설명 가능 인공지능(XAI, eXplainable AI) : 판단에 대한 이유를 사람이 이해할 수 있는 방식으로 제시하는 인공지능

  • 결론 도출 과정에 대한 근거를 차트나 수치 또는 자연어 형태의 설명으로 제공
  • 불확실성을 해소하여 인공지능에 대한 신뢰성 상승
  • 블랙박스 인공지능과 대비되는 개념

블랙박스 : 특정한 판단에 대해 알고리즘의 설계자조차도 그 이유를 설명할 수 없는 것

블랙박스 인공지능 : 기존의 기계학습의 완성된 모형은 내부 구조가 매우 복잡하고 의미를 이해하기 난해


기계학습 자동화(AutoML)

  • 기계학습의 전체 과정을 자동화하는 것
  • 세부적으로는 데이터 전처리, 변수 생성, 변수 선택, 알고리즘 선택, 하이퍼파라미터 최적화 등의 기능 수행
  • 기계학습 모형 개발 과정의 생산성을 높이며 비전문가들의 활용 용이

+ 데이터 전처리

2022.05.04 - [Programming/Machine Learning (Python)] - 피처 스케일링(Feature Scaling) - 표쥰화(Standardization)/정규화(Normalization)/값 복구(inverse_transform)

2022.05.06 - [Programming/Machine Learning (Python)] - 피처 스케일링(Feature Scaling) - Encode(Label/Onehot)

+ 하이퍼파라미터 최적화

2022.05.09 - [Programming/Machine Learning (Python)] - 인공지능 머신러닝 - 최적의 인공지능 모델 찾기 (GridSearchCV)

2022.06.10 - [Programming/Machine Learning (Python)] - Tensorflow - GridSearch 최적의 하이퍼 파라미터 찾기


인공지능의 한계점과 발전방향

국내시장의 한계

  • 국내에서 축적한 머신러닝 및 인공지능과 관련한 수학, 통계학적의 낮은 이해도
  • 인공지능 개발을 위한 데이터 확보 및 중요성에 대한 인식 부족

인공지능의 미래

  • 딥러닝의 재학습 및 전이학습 특성을 활용한 사전학습모형을 새로운 데이터 경제로 예상
  • 마스킹이나 라벨링 등의 애노테이션 작업을 통해 학습용 데이터를 가공하는 산업 확산
  • 복잡한 BERT의 학습을 위한 구글의 클라우드 서비스와 같은 확장된 개념의 데이터 경제 파생 예상
    • 수집 : 데이터 경제
    • 가공 : 학습용 데이터로
    • 구분 : 전이학습용 사전학습 모형

참고