Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 기본
- Machine Learning
- Cartesina Product
- sklearn
- partition
- django
- PARTITION BY
- 머신러닝
- SQL
- ML
- 레이블 인코딩
- Python
- data preprocessing
- SQLD
- 사이킷런
- 원핫인코딩
- CROSS JOIN
- 명령어
Archives
- Today
- Total
Programming Blog
(Pandas) read_csv파일 encoding Error 본문
포스팅 개요
pandas에서 read_csv(file_path, encoding='utf8')을 했을 때, 다음과 같은 에러가 발생했다.
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 26: invalid start byte
df = pd.read_csv('file_name.csv', encoding='utf8')
보통 한글은 utf-8을 많이 사용하는데 이처럼 utf8 codec을 decode 할 수 없다고 에러가 발생한다.
이럴 때 encoding을 바꿔주면 해결할 수 있다.
- encoding='cp949' 방식
df = pd.read_csv('file_name.csv', encoding='cp949')
- encoding='latin1' 방식
df = pd.read_csv('file_name.csv', encoding='latin1')
포스팅 결론
cp949로 했을 때 거의 오류가 해결되었는데, 안된다면 더 많은 방식을 설명해주는 다음 사이트를 참조
ko.wikipedia.org/wiki/%EB%AC%B8%EC%9E%90_%EC%9D%B8%EC%BD%94%EB%94%A9
'빅데이터 분석 > Pandas' 카테고리의 다른 글
중복 데이터 처리 (0) | 2021.09.30 |
---|---|
특정 행 또는 열을 대상으로 결측값 있으면 제거 (0) | 2021.09.30 |
특정 문자 포함하는 행 추출 (0) | 2021.09.30 |
(pandas) DataFrame 합치기 (0) | 2020.11.12 |
pandas 대용량 csv 파일 읽기 - dask (1) | 2020.11.12 |
Comments