[PYTHON/PANDAS] DataFrame 클래스 : drop_duplicates 메소드를 사용해 중복 데이터 제거하기

■ DataFrame 클래스의 drop_duplicates 메소드를 사용해 중복 데이터를 제거하는 방법을 보여준다.

▶ main.py


import pandas as pd

dataFrame = pd.DataFrame(
    {
        "class"         : ["A", "A", "A", "B", "C", "D"],
        "student_count" : [42, 35, 42, 50, 47, 45],
        "all_pass"      : ["Yes", "Yes", "Yes", "No", "No", "Yes"]
    }
)

print(dataFrame)

"""
  class  student_count all_pass
0     A             42      Yes
1     A             35      Yes
2     A             42      Yes
3     B             50       No
4     C             47       No
5     D             45      Yes
"""

print()

dataFrame.drop_duplicates(["class", "student_count"], inplace = True)

print(dataFrame)

"""
  class  student_count all_pass
0     A             42      Yes
1     A             35      Yes
3     B             50       No
4     C             47       No
5     D             45      Yes
"""

import pandas as pd

dataFrame = pd.DataFrame(

{

"class" : ["A", "A", "A", "B", "C", "D"],

"student_count" : [42, 35, 42, 50, 47, 45],

"all_pass" : ["Yes", "Yes", "Yes", "No", "No", "Yes"]

}

)

print(dataFrame)

"""

class student_count all_pass

0 A 42 Yes

1 A 35 Yes

2 A 42 Yes

3 B 50 No

4 C 47 No

5 D 45 Yes

"""

print()

dataFrame.drop_duplicates(["class", "student_count"], inplace = True)

print(dataFrame)

"""

class student_count all_pass

0 A 42 Yes

1 A 35 Yes

3 B 50 No

4 C 47 No

5 D 45 Yes

"""

▶ requirements.txt


numpy==2.1.3
pandas==2.2.3
python-dateutil==2.9.0.post0
pytz==2024.2
six==1.16.0
tzdata==2024.2

numpy==2.1.3

pandas==2.2.3

python-dateutil==2.9.0.post0

pytz==2024.2

six==1.16.0

tzdata==2024.2

※ pip install pandas 명령을 실행했다.