Programming Blog

(Pandas) read_csv파일 encoding Error 본문

빅데이터 분석/Pandas

(Pandas) read_csv파일 encoding Error

Go-ong 2020. 11. 12. 12:08

포스팅 개요

pandas에서 read_csv(file_path, encoding='utf8')을 했을 때, 다음과 같은 에러가 발생했다.

 

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 26: invalid start byte 


df = pd.read_csv('file_name.csv', encoding='utf8')

보통 한글은 utf-8을 많이 사용하는데 이처럼 utf8 codec을 decode 할 수 없다고 에러가 발생한다.

이럴 때 encoding을 바꿔주면 해결할 수 있다.

 

- encoding='cp949' 방식

df = pd.read_csv('file_name.csv', encoding='cp949')

- encoding='latin1' 방식

df = pd.read_csv('file_name.csv', encoding='latin1')

포스팅 결론

cp949로 했을 때 거의 오류가 해결되었는데, 안된다면 더 많은 방식을 설명해주는 다음 사이트를 참조

ko.wikipedia.org/wiki/%EB%AC%B8%EC%9E%90_%EC%9D%B8%EC%BD%94%EB%94%A9

 

문자 인코딩 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 문자 인코딩영어: character encoding), 줄여서 인코딩은 사용자가 입력한 문자나 기호들을 컴퓨터가 이용할 수 있는 신호로 만드는 것을 말한다. 넓은 의미의 컴퓨

ko.wikipedia.org

Comments