반응형
반응형
카운트 벡터라이징이란? (Count Vectorizing) from sklearn.feature_extraction.text import CountVectorizer 호출 문서의 단어별 등장 횟수(출현 빈도)를 카운팅하여 수치화 하는 것 단어 추출 > 단어 정렬 > 정렬된 단어 컬럼 생성 > 숫자로 변경 > 해당 단어 등장시 숫자 카운팅 모두 소문자로 변환시키기 때문에 대문자 I와 소문자 i는 같이 취급 예시1 ) 'i love you' > ['i', 'love', 'you'] >>> 1(i) 1(love) 1(you) 예시2 ) 'i love cake i love coffee' > ['i', 'love', 'cake', 'coffe'] >>> 2(i) 2(love) 0(you) 1(cake) 1(cof..
# String - Punctuation 문장의 데이터를 구분시 쉼표(,)나 마침표(.) 혹은 느낌표, 물음표 등의 구두점이 존재한다. 공백으로 문장의 데이터를 구분하기에는 이러한 구두점까지 같이 데이터에 포함이 되므로 구두점을 제거하여 값을 따로 저장해주는 것이 좋다. 이럴 때 사용하는것이 string 함수의 punctuation 이다. # punctuation을 활용하여 구두점 제거하기 punctuation은 string 내부 모듈에 포함되어 있다. 이를 사용하기 위해서는 모듈을 호출해주어야 한다. import string # 문자열을 다루는 모듈 호출 string.punctuation >>> !"#$%&\'()*+,-./:;?@[\\]^_`{|}~ 1. 구두점을 제거 반복문을 통해 한글자씩 구두점을..
주피터 노트북 설치 없이 파이선 코딩하기 (코랩) 인터넷에서 구글 코랩 검색 (https://colab.research.google.com/notebooks/) 코랩 사이트 접속 후 구글 로그인하여 이용 코랩을 이용하여 파이썬 코딩하기 파일 - 새노트 새 노트를 클릭하면 새로 작업할 수 있는 Untitled0 파일 생성 저장된 파일은 구글 드라이브에 저장 구글 드라이브 접속해서 코랩 이용해보기 인터넷에서 구글 드라이브 검색 (https://www.google.com/intl/ko_KR/drive/) '드라이브로 이동' 클릭 코랩에서 작업한 파일 확인하기 '내 드라이브' - 'Colab Notebooks' 폴더 클릭 방금 새 노트로 생성하였던 Untitled0 파일이 있음을 확인 할 수 있음 드라이브에 파..
# WordCloud (핵심 단어 시각화) 문서의 문구와 단어를 분석하여 중요도나 사용빈도를 직관적으로 파악할 수 있도록 시각화하는 표현 기법 장점 : 사용자가 문서의 주요 키워드나 중요도를 한 눈에 파악 단어 : 단어 간 관계를 표현할 수 없고 정보가 편향될 수 있음 # WordCloud 설치하기 저는 아나콘다 네비게이터에서 주피터 노트북을 사용하였습니다. 주피터 노트북이나 아나콘다 프롬프트에서 아래의 명령어 입력 conda install -c conda-forge wordcloud # WordCloud 라이브러리 호출 from wordcloud import WordCloud, STOPWORDS # 핵심 단어 시각화 함수 # 불용어 함수 import pandas # 데이터프레임을 사용하기 위한 라이브러..
# 오픈 API 검색, 블로그 등의 데이터 플랫폼을 외부에 공개하여 다양하고 재미있는 서비스 및 애플리케이션을 개발할 수 있도록 외부 개발자나 사용자들과 공유하는 프로그램 # 구글맵스 API키 생성 API를 이용하기 위해선 API키를 이용하여 위치 정보를 받아 올 수 있습니다. 1. 구글 클라우드의 maps API 페이지로 이동 : https://mapsplatform.google.com/ 2. Get started 클릭 (유료화가 되어 신용카드 정보를 입력하여야 진행 가능, 90일 무료 체험판 제공) 3. 발급받은 API 키 확인 콘솔로 이동 => Geocoding API 선택 => 사용자인증정보 에서 API 키 생성 # 구글맵스 API 설치 명령 프롬프트 : pip install googlemaps ..
https://www.kaggle.com/ Kaggle: Your Machine Learning and Data Science Community Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals. www.kaggle.com https://www.data.go.kr/ 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr https://www.i..