일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 머신러닝
- data preprocessing
- 원핫인코딩
- Python
- CROSS JOIN
- 사이킷런
- SQLD
- Machine Learning
- 레이블 인코딩
- 명령어
- SQL
- PARTITION BY
- 기본
- Cartesina Product
- ML
- partition
- sklearn
- django
- Today
- Total
목록빅데이터 분석 (8)
Programming Blog
https://sy-log.tistory.com/60 [Pandas] 데이터프레임 중복 확인 및 제거 :: duplicated, drop_duplicates (unhashable type error 해결) 파이썬 데이터프레임 중복 데이터 다루기 Pandas DataFrame duplication (1) 중복되는 행(Row) 제거하기 :: drop_duplicates 데이터프레임에서 중복되는 행 데이터를 제거할 때, pandas의 drop_duplicates 메소드.. sy-log.tistory.com
- 결측값 들어있는 행 제거 df = df.dropna(axis=0) # axis=0 행 기준 [default] - 결측값 들어있는 열 제거 df = df.dropna(axis=1) # axis=1 열 기준 - 특정 컬럼의 행 결측값 제거 df['Column Name'].dropna(axis=0) # axis=0 행 기준 [default] - 특정 컬럼의 열 결측값 제거 df['Column Name'].dropna(axis=1) # axis=1 열 기준
df = df[df['Column Name'].str.contains('condition text')] Column Name : 컬럼명 condition text : 특정 문자
앙상블(Ensemble) * 영문 뜻 : 조화 or 통일 보통 데이터를 예측할 때 하나의 모델을 사용한다. 하지만 앙상블 학습은 여러 모델을 사용하여 조화롭게 학습한 후, 예측 결과들을 결합하여 더 정확한 예측값을 구하는 학습 방법 또한, 여러 개의 의사 결정 트리를 결합하여 하나의 결정 트리보다 더 좋은 성능을 내는 머신러닝 기법이다. 강력한 하나의 모델을 사용하는 대신 약한 모델(분류기, Classfier) 여러 개를 사용하여 예측 정확성에 더 도움을 주는 방식이다. * 부트스트랩(bootstrap)은 random sampling을 적용하는 방법이다. ex) 예측을 하기 위해 임의(랜덤)로 n개를 추출하여 평균 측정 중복을 허용한 복원 추출로 n개를 추출하여, 뽑은 n개의 평균 구하는 것을 m번 반복..
포스팅 개요 데이터 전처리 과정에서 데이터 프레임을 통합해야 하는 상황이 생겼다. 축구를 좋아해서 EPL 팀과 선수로 예제... ▼(기본 데이터프레임) import pandas as pd epl_dict = { 'man_city':['에데르손', '케빈데브라이너', '라힘스털링', '가브리엘제주스' ,'세르히오아게로'], 'man_uni':['데헤아', '해리맥과이어', '마르코스로호', '폴 포그바', '래시포드'], 'tottenham':['요리스', '손흥민', '케인', '베일', '라멜라'] } epl_df = pd.DataFrame() for key in epl_dict: epl_df[key] = epl_dict[key] epl_df 1. 행 기준으로 데이터프레임 합치기 ▼(행 기준으로 추가할..