일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 10km
- 하체
- Python
- 뚝섬유원지
- GitHub
- Podman
- docker
- 오답노트
- Run The Bridge
- 2021
- Linux
- 자전거
- 대구
- zabbix
- 맛집
- 달리기
- 중식
- Kubernetes
- 정보처리기사
- 소모임
- 힐링
- 유산소
- 건대입구역
- 러닝
- 한강
- Grafana
- 성수대교
- DSEC
- 대전
- Shell
Archives
- Today
- Total
Run The Bridge
Pandas 기초(9) 본문
728x90
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | import pandas as pd student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"}, {'name': 'Nate', 'major': "Computer Science", 'sex': "male"}, {'name': 'Abraham', 'major': "Physics", 'sex': "male"}, {'name': 'Brian', 'major': "Psychology", 'sex': "male"}, {'name': 'Janny', 'major': "Economics", 'sex': "female"}, {'name': 'Yuna', 'major': "Economics", 'sex': "female"}, {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"}, {'name': 'Edward', 'major': "Computer Science", 'sex': "male"}, {'name': 'Zara', 'major': "Psychology", 'sex': "female"}, {'name': 'Wendy', 'major': "Economics", 'sex': "female"}, {'name': 'Sera', 'major': "Psychology", 'sex': "female"}, {'name': 'John', 'major': "Computer Science", 'sex': "male"}, ] df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex']) df | cs |
DataFrame을 선언한다.
Result
0번째 Row하고 11번째 John이 중복된다.
중복된 Row 확인하는 방법
1 | df.duplicated() | cs |
Result
중복된 값 삭제하는 방법
1 | df.drop_duplicates() | cs |
Result
새로운 DataFrame을 선언한다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"}, {'name': 'Nate', 'major': "Computer Science", 'sex': "male"}, {'name': 'Abraham', 'major': "Physics", 'sex': "male"}, {'name': 'Brian', 'major': "Psychology", 'sex': "male"}, {'name': 'Janny', 'major': "Economics", 'sex': "female"}, {'name': 'Yuna', 'major': "Economics", 'sex': "female"}, {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"}, {'name': 'Edward', 'major': "Computer Science", 'sex': "male"}, {'name': 'Zara', 'major': "Psychology", 'sex': "female"}, {'name': 'Wendy', 'major': "Economics", 'sex': "female"}, {'name': 'Nate', 'major': None, 'sex': "male"}, {'name': 'John', 'major': "Computer Science", 'sex': None}, ] df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex']) df | cs |
Result
(1번, 11번), (1번, 10번)이 중복되지만 major가 다르기때문에 duplicated를 써도 False가 나온다.
Result
여기서는 duplicated안에 Column을 선언해준다.
1 | df.duplicated(['name']) | cs |
Result
1 | df.drop_duplicates(['name'], keep = 'first') # keep에는 first와 last가 존재 default는 first | cs |
first를 쓰면 처음나오는 값이 살아있고
last를 쓰면 마지막 값이 살아있는다.
감사합니다 Thank you!
728x90
'Python > Pandas' 카테고리의 다른 글
Pandas 기초(11) (0) | 2020.09.08 |
---|---|
Pandas 기초(10) (0) | 2020.09.07 |
Pandas 기초(8) (0) | 2020.09.07 |
Pandas 기초(7) (0) | 2020.09.07 |
Pandas 기초(6) (0) | 2020.09.03 |
Comments