반응형
반응형
# 문제 csv파일을 불러와 데이터프레임화 시킬 때 다음과 같은 오류 출력시 해결법입니다. ' Error tokenizing data. C error: Expected 23 fields in line 533719, saw 24 ' ( 제 환경에서 발생한 오류를 그대로 복사해보았습니다. ) 결론부터!!! 해결법 csv호출시 추가 인자를 넣어주시면 됩니다. error_bad_lines=False : 에러 발생 요소의 부분을 통과하여 데이터를 호출 df = pandas.read_csv('test.csv', error_bad_lines=False) # 원인 데이터 토큰화 에러 발생은 올바르지 않은 데이터가 호출 되었을 때 발생합니다. 그러기 때문에 문제가 발생한 라인은 빼고 호출하면 됩니다.
구두점, 불용어, 벡터라이징에 대한 개념은 앞서 포스팅했던 자료들로 더 상세한 설명을 확인 할 수 있습니다. 구두점 제거하기 : https://luvris2.tistory.com/62 문자열 함수 Punctuation - 문자열의 쉼표와 마침표 등의 구두점 제거하기 # String - Punctuation 문장의 데이터를 구분시 쉼표(,)나 마침표(.) 혹은 느낌표, 물음표 등의 구두점이 존재한다. 공백으로 문장의 데이터를 구분하기에는 이러한 구두점까지 같이 데이터에 포함이 luvris2.tistory.com 불용어 : https://luvris2.tistory.com/60 WordCloud(핵심 단어 시각화) 라이브러리의 활용 + STOPWORDS(불용어), CountVectorizer(문자열 수치화)..
카운트 벡터라이징이란? (Count Vectorizing) from sklearn.feature_extraction.text import CountVectorizer 호출 문서의 단어별 등장 횟수(출현 빈도)를 카운팅하여 수치화 하는 것 단어 추출 > 단어 정렬 > 정렬된 단어 컬럼 생성 > 숫자로 변경 > 해당 단어 등장시 숫자 카운팅 모두 소문자로 변환시키기 때문에 대문자 I와 소문자 i는 같이 취급 예시1 ) 'i love you' > ['i', 'love', 'you'] >>> 1(i) 1(love) 1(you) 예시2 ) 'i love cake i love coffee' > ['i', 'love', 'cake', 'coffe'] >>> 2(i) 2(love) 0(you) 1(cake) 1(cof..
# String - Punctuation 문장의 데이터를 구분시 쉼표(,)나 마침표(.) 혹은 느낌표, 물음표 등의 구두점이 존재한다. 공백으로 문장의 데이터를 구분하기에는 이러한 구두점까지 같이 데이터에 포함이 되므로 구두점을 제거하여 값을 따로 저장해주는 것이 좋다. 이럴 때 사용하는것이 string 함수의 punctuation 이다. # punctuation을 활용하여 구두점 제거하기 punctuation은 string 내부 모듈에 포함되어 있다. 이를 사용하기 위해서는 모듈을 호출해주어야 한다. import string # 문자열을 다루는 모듈 호출 string.punctuation >>> !"#$%&\'()*+,-./:;?@[\\]^_`{|}~ 1. 구두점을 제거 반복문을 통해 한글자씩 구두점을..
주피터 노트북 설치 없이 파이선 코딩하기 (코랩) 인터넷에서 구글 코랩 검색 (https://colab.research.google.com/notebooks/) 코랩 사이트 접속 후 구글 로그인하여 이용 코랩을 이용하여 파이썬 코딩하기 파일 - 새노트 새 노트를 클릭하면 새로 작업할 수 있는 Untitled0 파일 생성 저장된 파일은 구글 드라이브에 저장 구글 드라이브 접속해서 코랩 이용해보기 인터넷에서 구글 드라이브 검색 (https://www.google.com/intl/ko_KR/drive/) '드라이브로 이동' 클릭 코랩에서 작업한 파일 확인하기 '내 드라이브' - 'Colab Notebooks' 폴더 클릭 방금 새 노트로 생성하였던 Untitled0 파일이 있음을 확인 할 수 있음 드라이브에 파..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.