Run The Bridge

Pandas 기초(9) 본문

Python/Pandas

Pandas 기초(9)

anfrhrl5555 2020. 9. 7. 16:19
728x90
반응형
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import pandas as pd
student_list = [{'name''John''major'"Computer Science"'sex'"male"},
                {'name''Nate''major'"Computer Science"'sex'"male"},
                {'name''Abraham''major'"Physics"'sex'"male"},
                {'name''Brian''major'"Psychology"'sex'"male"},
                {'name''Janny''major'"Economics"'sex'"female"},
                {'name''Yuna''major'"Economics"'sex'"female"},
                {'name''Jeniffer''major'"Computer Science"'sex'"female"},
                {'name''Edward''major'"Computer Science"'sex'"male"},
                {'name''Zara''major'"Psychology"'sex'"female"},
                {'name''Wendy''major'"Economics"'sex'"female"},
                {'name''Sera''major'"Psychology"'sex'"female"},
                {'name''John''major'"Computer Science"'sex'"male"},
         ]
df = pd.DataFrame(student_list, columns = ['name''major''sex'])
df
cs

DataFrame을 선언한다.


Result


0번째 Row하고 11번째 John이 중복된다.


중복된 Row 확인하는 방법

1
df.duplicated()
cs


Result


중복된 값 삭제하는 방법

1
df.drop_duplicates()
cs


Result



새로운 DataFrame을 선언한다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
student_list = [{'name''John''major'"Computer Science"'sex'"male"},
                {'name''Nate''major'"Computer Science"'sex'"male"},
                {'name''Abraham''major'"Physics"'sex'"male"},
                {'name''Brian''major'"Psychology"'sex'"male"},
                {'name''Janny''major'"Economics"'sex'"female"},
                {'name''Yuna''major'"Economics"'sex'"female"},
                {'name''Jeniffer''major'"Computer Science"'sex'"female"},
                {'name''Edward''major'"Computer Science"'sex'"male"},
                {'name''Zara''major'"Psychology"'sex'"female"},
                {'name''Wendy''major'"Economics"'sex'"female"},
                {'name''Nate''major'None'sex'"male"},
                {'name''John''major'"Computer Science"'sex'None},
         ]
df = pd.DataFrame(student_list, columns = ['name''major''sex'])
df
cs


Result


(1번, 11번), (1번, 10번)이 중복되지만 major가 다르기때문에 duplicated를 써도 False가 나온다.


Result



여기서는 duplicated안에 Column을 선언해준다.

1
df.duplicated(['name'])
cs


Result



1
df.drop_duplicates(['name'], keep = 'first')  # keep에는 first와 last가 존재 default는 first
cs


first를 쓰면 처음나오는 값이 살아있고


last를 쓰면 마지막 값이 살아있는다.


감사합니다 Thank you!

728x90
반응형

'Python > Pandas' 카테고리의 다른 글

Pandas 기초(11)  (0) 2020.09.08
Pandas 기초(10)  (0) 2020.09.07
Pandas 기초(8)  (0) 2020.09.07
Pandas 기초(7)  (0) 2020.09.07
Pandas 기초(6)  (0) 2020.09.03
Comments