일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- SQLD
- Machine Learning
- 명령어
- data preprocessing
- 기본
- PARTITION BY
- 사이킷런
- 레이블 인코딩
- ML
- 원핫인코딩
- Cartesina Product
- django
- 머신러닝
- partition
- CROSS JOIN
- Python
- sklearn
- SQL
- Today
- Total
목록분류 전체보기 (54)
Programming Blog
포스팅 개요 pandas에서 read_csv(file_path, encoding='utf8')을 했을 때, 다음과 같은 에러가 발생했다. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 26: invalid start byte df = pd.read_csv('file_name.csv', encoding='utf8') 보통 한글은 utf-8을 많이 사용하는데 이처럼 utf8 codec을 decode 할 수 없다고 에러가 발생한다. 이럴 때 encoding을 바꿔주면 해결할 수 있다. - encoding='cp949' 방식 df = pd.read_csv('file_name.csv', encoding='cp949') - encoding..
포스팅 개요 pandas에서 4GB csv 파일을 읽었을 때 노트북이 다운되거나 메모리가 부족하다는 에러 메세지가 나왔다. 검색해 본 결과, Apache의 Pyarrow, Dask, pandas의 chunksize를 이용하는 방법이 나와있었다. 1GB csv파일을 test파일로 사용하여 경과 시간을 파악했다. - pandas의 read_csv 사용했을 때 걸린 시간 import pandas as pd import time file_path = '파일위치.csv' start_time = time.time() # 시작시간 pd_df = pd.read_csv(file_path, encoding='utf8') print("time :", time.time() - start_time) # 현재시간 - 시작시간 -..
기본적으로 사이킷런의 머신러닝 알고리즘은 문자열 값을 입력 값으로 허락하지 않으므로, 모든 문자열 값들을 숫자 형으로 인코딩하는 전처리 작업 후에 머신러닝 모델에 학습을 시켜야합니다. 인코딩 하는 방식에는 레이블 인코딩(Lable encoding)과 원-핫 인코딩(One Hot Encoding)이 있습니다. 레이블 인코딩(Label Encoding) from sklearn.preprocessing import LabelEncoder fruits=['사과', '바나나', '수박'] # LabelEncoder 객체 생성 후 fit()과 transform()으로 LabelEncoder 수행 encoder = LabelEncoder() encoder.fit(fruits) labels = encoder.trans..
회귀(한 변수에 다른 변수들이 주는 영향력)를 사용하여 선형적으로 분석하는 방법이 선형 회귀 분석입니다. 선형 회귀 분석을 위해서는 우선 선형 회귀 모델을 만들어야 합니다. * 모델 : 수학 식으로 표현되는 함수, 영향을 주는 변수(독립변수, 설명변수)와 영향을 받는 변수(종속변수, 반응변수)로 구성되어 있다. 종속 변수의 개수와 독립 변수의 개수에 따른 선형 회귀 모델 종류 종속 변수 1개 독립 변수 1개 단변량 단순 선형 회귀 모델 독립 변수 2개 이상 단변량 다중 선형 회귀 모델 종속 변수 2개 이상 독립 변수 1개 다변량 단순 선형 회귀 모델 독립 변수 2개 이상 다변량 다중 선형 회귀 모델 ex) 통화량과 환율, 실업률, 인구증가율이 물가에 미치는 영향 - 통화량, 환율, 실업률, 인구증가율 :..
데이터 모델링의 중요성 및 유의점 - 중복 : 같은 시간 같은 데이터 제공 - 비유연성 : 사소한 업무변화에 데이터 모델이 수시로 변경되면 안됨 - 비일관성 : 신용 상태에 대한 갱신없이 고객의 납부 이력 정보 갱신 안됨 데이터 모델링 개념적, 논리적, 물리적 모델링 데이터 독립성 요소 외부 스키마 : 개개인 사용자가 보는 개인적 DB 스키마 개념 스키마 : 모든 사용자 관점을 통합한 전체 DB 내부 스키마 : 물리적 장치에서 데이터가 실제적 저장 데이터 독립성 논리적 독립성 : 개념 스키마가 변경되어도 외부 스키마에 영향 x 물리적 독립성 : 내부 스키마가 변경되어도 외부/개념 스키마에 영향 x Mapping(사상) : 상호 독립적인 개념을 연결시켜주는 다리(역할) 데이터 모델링의 3요소 - 어떤 것(..