일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 머신러닝
- CROSS JOIN
- data preprocessing
- 사이킷런
- 원핫인코딩
- django
- PARTITION BY
- ML
- Cartesina Product
- SQL
- Machine Learning
- partition
- sklearn
- SQLD
- 기본
- 레이블 인코딩
- 명령어
- Python
- Today
- Total
목록분류 전체보기 (54)
Programming Blog
Cartesian Product(곱집합) A와 B를 서로 JOIN할 때, JOIN 조건을 생략하고 두 테이블의 모든 행을 조인 모든 조합으로 많은 결과 출력 > 과부화 가능성 CROSS JOIN 사용 원본 데이터 예제1. CROSS JOIN 미사용 SELECT ENAME, DNAME FROM EMP, DEPT ORDER BY ENAME; 예제2. CROSS JOIN 사용 SELECT ENAME, DNAME FROM EMP CROSS JOIN DEPT ORDER BY ENAME;
EQUI JOIN(등가 조인) 조인 조건이 정확히 일치하는 경우에 사용 > PK(기본키) 와 FK(외래키)를 사용한 조인 조인 조건에 ' = ' 를 이용하는 조인 예제1. 일반적인 EQUI JOIN SELECT * FROM EMP e INNER JOIN DEPT d ON e.deptno = d.deptno; 예제2. USING 문을 사용한 EQUI JOIN SELECT * FROM EMP e INNER JOIN DEPT d USING (deptno); 예제3. 잘못된 USING문 사용 SELECT * FROM EMP e INNER JOIN DEPT d USING (e.deptno = d.deptno); * USING 문에서는 PK(기본키)와 FK(외래키)가 중복되는 속성 이름 1개만 작성한다.
PARTITION 함수 그룹 내 순위 및 그룹별 집계를 구할 때 유용하게 사용할 수 있다. SELECT 순위함수() OVER(PARTITION BY 컬럼명 ORDER BY 컬럼명) FROM 테이블명 SELECT 집계함수() OVER(PARTITION BY 컬럼명) FROM 테이블명 순위함수 ROW_NUMBER RANK DENSE_RANK 집계함수 SUM(합계) AVG(평균) MAX, MIN(최대,최소) COUNT(개수) 활용할 원본 데이터 예제1. 전체 인원의 급여 순위 SELECT deptno "부서", ename "직원이름", sal "급여", RANK() OVER(ORDER BY SAL DESC) AS "순위" FROM EMP; 예제2. 각 부서 내에서 직원의 급여 순위 SELECT deptno "..
앙상블(Ensemble) * 영문 뜻 : 조화 or 통일 보통 데이터를 예측할 때 하나의 모델을 사용한다. 하지만 앙상블 학습은 여러 모델을 사용하여 조화롭게 학습한 후, 예측 결과들을 결합하여 더 정확한 예측값을 구하는 학습 방법 또한, 여러 개의 의사 결정 트리를 결합하여 하나의 결정 트리보다 더 좋은 성능을 내는 머신러닝 기법이다. 강력한 하나의 모델을 사용하는 대신 약한 모델(분류기, Classfier) 여러 개를 사용하여 예측 정확성에 더 도움을 주는 방식이다. * 부트스트랩(bootstrap)은 random sampling을 적용하는 방법이다. ex) 예측을 하기 위해 임의(랜덤)로 n개를 추출하여 평균 측정 중복을 허용한 복원 추출로 n개를 추출하여, 뽑은 n개의 평균 구하는 것을 m번 반복..
포스팅 개요 데이터 전처리 과정에서 데이터 프레임을 통합해야 하는 상황이 생겼다. 축구를 좋아해서 EPL 팀과 선수로 예제... ▼(기본 데이터프레임) import pandas as pd epl_dict = { 'man_city':['에데르손', '케빈데브라이너', '라힘스털링', '가브리엘제주스' ,'세르히오아게로'], 'man_uni':['데헤아', '해리맥과이어', '마르코스로호', '폴 포그바', '래시포드'], 'tottenham':['요리스', '손흥민', '케인', '베일', '라멜라'] } epl_df = pd.DataFrame() for key in epl_dict: epl_df[key] = epl_dict[key] epl_df 1. 행 기준으로 데이터프레임 합치기 ▼(행 기준으로 추가할..