반응형
반응형
__name__ 모듈의 이름이 저장되는 변수 __main__ 을 출력하면 해당 파일이 가장 먼저 실행되는 최상위 모듈 현재 모듈이 최상위 모듈로 수행되는지 여부 확인 가능 예) print(__name__) > __main__ : 현재 수행되는 파이썬의 이름으로 최상위 모듈 메인을 반환 예) print(모듈명.__name__) > 모듈명 : '모듈명'은 현재 이 파일에선 모듈로 호출한 것이므로 '모듈명' 이름을 반환 사용자 정의 모듈에 name을 활용하여 테스트 코드로 사용 가능 예) main 일 때 조건문을 적어서 테스트 모듈이 최상위 모듈로 사용 될 때만 실행 모듈로 하위 모듈로 활용 될 때는 무시 __name__ 활용 : __main__ 최상위 모듈 확인 예시 # test.py print("모듈 생성..
상관관계 두 변수는 서로 독립적인 관계이거나 상관된 관계, 두 변수간의 관계의 강도를 표현 -1 ~ 1 의 사이로 표현 1에 가까울수록 관계 있음 / -1에 가까울수록 관계 없음 데이터프레임에서 사용 corr : 전체 컬럼에 대한 상관관계 계수를 표현 corrwith : 특정 컬럼에 대한 상관관계 계수 표현 (시리즈의 상관관계 출력) 시리즈는 한개의 데이터이기 때문에 상관계수 표현 어려움 예시에 사용될 데이터프레임 movies_rating_df : 각각의 유저들이 영화의 평점을 기록 ratings_mean_count : 영화들의 평점과 평가수를 기록 movie_df = pandas.read_csv('movies_rating_df.csv', index_col=0) movie_df.head(5) 전체 컬럼의..
데이터 프레임 합치기 인덱스가 같은 시리즈와 데이터프레임을 합쳐야 할 때 어떻게 해야할까? 예시 예시로 이해해봅시다. 영화의 제목이 인덱스인 평가 점수가 담겨있는 시리즈 영화의 제목이 인덱스인 평가 인원수가 담겨있는 시리즈 인덱스가 같은 시리즈 합치는 방법 1 인덱스를 기준으로 merge 하기 merge( left_index=True, right_index=True ) : 두 데이터의 인덱스를 이용하여 합칠 수 있음 ratings_mean_count_df = pd.merge(ratings_df_mean, ratings_df_count, left_index=True, right_index=True) # 두 개의 이름이 같은 인덱스를 이용하여 merge ratings_mean_count_df.columns=..
파이썬에서 지원하는 datetime에 대한 설명을 좀 더 자세히 확인 할 수 있습니다. https://luvris2.tistory.com/23 표준 모듈(date, time)을 이용하여 라이브러리(library) 활용하기 - 2 해당 글은 글과 라이브러리 활용하기 1번 글과 이어진 내용이며, 이번 포스팅에서는 표준 모듈인 date와 time을 다룹니다. '표준 모듈(date)을 이용하여 라이브러리(library) 활용하기 - 1' 이전글 보 luvris2.tistory.com numpy와 pandas의 시계열 데이터에 대한 설명을 좀 더 자세히 확인 할 수 있습니다. https://luvris2.tistory.com/38 Numpy/Pandas - datetime # datetime64란? 날짜와 시간을..
# 문제 csv파일을 불러와 데이터프레임화 시킬 때 다음과 같은 오류 출력시 해결법입니다. ' Error tokenizing data. C error: Expected 23 fields in line 533719, saw 24 ' ( 제 환경에서 발생한 오류를 그대로 복사해보았습니다. ) 결론부터!!! 해결법 csv호출시 추가 인자를 넣어주시면 됩니다. error_bad_lines=False : 에러 발생 요소의 부분을 통과하여 데이터를 호출 df = pandas.read_csv('test.csv', error_bad_lines=False) # 원인 데이터 토큰화 에러 발생은 올바르지 않은 데이터가 호출 되었을 때 발생합니다. 그러기 때문에 문제가 발생한 라인은 빼고 호출하면 됩니다.
구두점, 불용어, 벡터라이징에 대한 개념은 앞서 포스팅했던 자료들로 더 상세한 설명을 확인 할 수 있습니다. 구두점 제거하기 : https://luvris2.tistory.com/62 문자열 함수 Punctuation - 문자열의 쉼표와 마침표 등의 구두점 제거하기 # String - Punctuation 문장의 데이터를 구분시 쉼표(,)나 마침표(.) 혹은 느낌표, 물음표 등의 구두점이 존재한다. 공백으로 문장의 데이터를 구분하기에는 이러한 구두점까지 같이 데이터에 포함이 luvris2.tistory.com 불용어 : https://luvris2.tistory.com/60 WordCloud(핵심 단어 시각화) 라이브러리의 활용 + STOPWORDS(불용어), CountVectorizer(문자열 수치화)..