| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 9 | 10 | 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| 23 | 24 | 25 | 26 | 27 | 28 | 29 |
| 30 |
- sklearn
- Machine Learning
- 명령어
- 원핫인코딩
- SQL
- django
- CROSS JOIN
- 머신러닝
- Cartesina Product
- partition
- 기본
- Python
- 사이킷런
- ML
- data preprocessing
- SQLD
- PARTITION BY
- 레이블 인코딩
- Today
- Total
목록전체 글 (57)
프로그래밍 기록 Blog
PARTITION 함수 그룹 내 순위 및 그룹별 집계를 구할 때 유용하게 사용할 수 있다. SELECT 순위함수() OVER(PARTITION BY 컬럼명 ORDER BY 컬럼명) FROM 테이블명 SELECT 집계함수() OVER(PARTITION BY 컬럼명) FROM 테이블명 순위함수 ROW_NUMBER RANK DENSE_RANK 집계함수 SUM(합계) AVG(평균) MAX, MIN(최대,최소) COUNT(개수) 활용할 원본 데이터 예제1. 전체 인원의 급여 순위 SELECT deptno "부서", ename "직원이름", sal "급여", RANK() OVER(ORDER BY SAL DESC) AS "순위" FROM EMP; 예제2. 각 부서 내에서 직원의 급여 순위 SELECT deptno "..
앙상블(Ensemble) * 영문 뜻 : 조화 or 통일 보통 데이터를 예측할 때 하나의 모델을 사용한다. 하지만 앙상블 학습은 여러 모델을 사용하여 조화롭게 학습한 후, 예측 결과들을 결합하여 더 정확한 예측값을 구하는 학습 방법 또한, 여러 개의 의사 결정 트리를 결합하여 하나의 결정 트리보다 더 좋은 성능을 내는 머신러닝 기법이다. 강력한 하나의 모델을 사용하는 대신 약한 모델(분류기, Classfier) 여러 개를 사용하여 예측 정확성에 더 도움을 주는 방식이다. * 부트스트랩(bootstrap)은 random sampling을 적용하는 방법이다. ex) 예측을 하기 위해 임의(랜덤)로 n개를 추출하여 평균 측정 중복을 허용한 복원 추출로 n개를 추출하여, 뽑은 n개의 평균 구하는 것을 m번 반복..
포스팅 개요 데이터 전처리 과정에서 데이터 프레임을 통합해야 하는 상황이 생겼다. 축구를 좋아해서 EPL 팀과 선수로 예제... ▼(기본 데이터프레임) import pandas as pd epl_dict = { 'man_city':['에데르손', '케빈데브라이너', '라힘스털링', '가브리엘제주스' ,'세르히오아게로'], 'man_uni':['데헤아', '해리맥과이어', '마르코스로호', '폴 포그바', '래시포드'], 'tottenham':['요리스', '손흥민', '케인', '베일', '라멜라'] } epl_df = pd.DataFrame() for key in epl_dict: epl_df[key] = epl_dict[key] epl_df 1. 행 기준으로 데이터프레임 합치기 ▼(행 기준으로 추가할..
포스팅 개요 pandas에서 read_csv(file_path, encoding='utf8')을 했을 때, 다음과 같은 에러가 발생했다. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 26: invalid start byte df = pd.read_csv('file_name.csv', encoding='utf8') 보통 한글은 utf-8을 많이 사용하는데 이처럼 utf8 codec을 decode 할 수 없다고 에러가 발생한다. 이럴 때 encoding을 바꿔주면 해결할 수 있다. - encoding='cp949' 방식 df = pd.read_csv('file_name.csv', encoding='cp949') - encoding..
포스팅 개요 pandas에서 4GB csv 파일을 읽었을 때 노트북이 다운되거나 메모리가 부족하다는 에러 메세지가 나왔다. 검색해 본 결과, Apache의 Pyarrow, Dask, pandas의 chunksize를 이용하는 방법이 나와있었다. 1GB csv파일을 test파일로 사용하여 경과 시간을 파악했다. - pandas의 read_csv 사용했을 때 걸린 시간 import pandas as pd import time file_path = '파일위치.csv' start_time = time.time() # 시작시간 pd_df = pd.read_csv(file_path, encoding='utf8') print("time :", time.time() - start_time) # 현재시간 - 시작시간 -..