일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 레이블 인코딩
- Python
- sklearn
- SQL
- 명령어
- partition
- CROSS JOIN
- ML
- SQLD
- Machine Learning
- data preprocessing
- 머신러닝
- 사이킷런
- django
- PARTITION BY
- Cartesina Product
- 원핫인코딩
- 기본
- Today
- Total
목록빅데이터 분석 (8)
Programming Blog
포스팅 개요 pandas에서 read_csv(file_path, encoding='utf8')을 했을 때, 다음과 같은 에러가 발생했다. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 26: invalid start byte df = pd.read_csv('file_name.csv', encoding='utf8') 보통 한글은 utf-8을 많이 사용하는데 이처럼 utf8 codec을 decode 할 수 없다고 에러가 발생한다. 이럴 때 encoding을 바꿔주면 해결할 수 있다. - encoding='cp949' 방식 df = pd.read_csv('file_name.csv', encoding='cp949') - encoding..
포스팅 개요 pandas에서 4GB csv 파일을 읽었을 때 노트북이 다운되거나 메모리가 부족하다는 에러 메세지가 나왔다. 검색해 본 결과, Apache의 Pyarrow, Dask, pandas의 chunksize를 이용하는 방법이 나와있었다. 1GB csv파일을 test파일로 사용하여 경과 시간을 파악했다. - pandas의 read_csv 사용했을 때 걸린 시간 import pandas as pd import time file_path = '파일위치.csv' start_time = time.time() # 시작시간 pd_df = pd.read_csv(file_path, encoding='utf8') print("time :", time.time() - start_time) # 현재시간 - 시작시간 -..
회귀(한 변수에 다른 변수들이 주는 영향력)를 사용하여 선형적으로 분석하는 방법이 선형 회귀 분석입니다. 선형 회귀 분석을 위해서는 우선 선형 회귀 모델을 만들어야 합니다. * 모델 : 수학 식으로 표현되는 함수, 영향을 주는 변수(독립변수, 설명변수)와 영향을 받는 변수(종속변수, 반응변수)로 구성되어 있다. 종속 변수의 개수와 독립 변수의 개수에 따른 선형 회귀 모델 종류 종속 변수 1개 독립 변수 1개 단변량 단순 선형 회귀 모델 독립 변수 2개 이상 단변량 다중 선형 회귀 모델 종속 변수 2개 이상 독립 변수 1개 다변량 단순 선형 회귀 모델 독립 변수 2개 이상 다변량 다중 선형 회귀 모델 ex) 통화량과 환율, 실업률, 인구증가율이 물가에 미치는 영향 - 통화량, 환율, 실업률, 인구증가율 :..