일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 원핫인코딩
- 기본
- Python
- Cartesina Product
- 머신러닝
- sklearn
- SQLD
- 사이킷런
- partition
- PARTITION BY
- Machine Learning
- data preprocessing
- SQL
- 레이블 인코딩
- CROSS JOIN
- ML
- django
- 명령어
- Today
- Total
목록빅데이터 분석/Pandas (6)
Programming Blog
https://sy-log.tistory.com/60 [Pandas] 데이터프레임 중복 확인 및 제거 :: duplicated, drop_duplicates (unhashable type error 해결) 파이썬 데이터프레임 중복 데이터 다루기 Pandas DataFrame duplication (1) 중복되는 행(Row) 제거하기 :: drop_duplicates 데이터프레임에서 중복되는 행 데이터를 제거할 때, pandas의 drop_duplicates 메소드.. sy-log.tistory.com
- 결측값 들어있는 행 제거 df = df.dropna(axis=0) # axis=0 행 기준 [default] - 결측값 들어있는 열 제거 df = df.dropna(axis=1) # axis=1 열 기준 - 특정 컬럼의 행 결측값 제거 df['Column Name'].dropna(axis=0) # axis=0 행 기준 [default] - 특정 컬럼의 열 결측값 제거 df['Column Name'].dropna(axis=1) # axis=1 열 기준
df = df[df['Column Name'].str.contains('condition text')] Column Name : 컬럼명 condition text : 특정 문자
포스팅 개요 데이터 전처리 과정에서 데이터 프레임을 통합해야 하는 상황이 생겼다. 축구를 좋아해서 EPL 팀과 선수로 예제... ▼(기본 데이터프레임) import pandas as pd epl_dict = { 'man_city':['에데르손', '케빈데브라이너', '라힘스털링', '가브리엘제주스' ,'세르히오아게로'], 'man_uni':['데헤아', '해리맥과이어', '마르코스로호', '폴 포그바', '래시포드'], 'tottenham':['요리스', '손흥민', '케인', '베일', '라멜라'] } epl_df = pd.DataFrame() for key in epl_dict: epl_df[key] = epl_dict[key] epl_df 1. 행 기준으로 데이터프레임 합치기 ▼(행 기준으로 추가할..
포스팅 개요 pandas에서 read_csv(file_path, encoding='utf8')을 했을 때, 다음과 같은 에러가 발생했다. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 26: invalid start byte df = pd.read_csv('file_name.csv', encoding='utf8') 보통 한글은 utf-8을 많이 사용하는데 이처럼 utf8 codec을 decode 할 수 없다고 에러가 발생한다. 이럴 때 encoding을 바꿔주면 해결할 수 있다. - encoding='cp949' 방식 df = pd.read_csv('file_name.csv', encoding='cp949') - encoding..