■ DataFrame 클래스의 groupby 메소드에서 observed 인자를 사용해 카테고리 컬럼을 집계하는 방법을 보여준다.
※ observed = False로 설정하면 카테고리 컬럼에서 값이 없는 카테고리도 표시된다.
▶ main.py
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 |
import pandas as pd dataFrame = pd.DataFrame( { "id" : [1, 2, 3, 4, 5, 6], "raw_grade" : ["a", "b", "b", "a", "a", "e"] } ) dataFrame["grade"] = dataFrame["raw_grade"].astype("category") newCategoryList = ["very good", "good", "very bad"] dataFrame["grade"] = dataFrame["grade"].cat.rename_categories(newCategoryList) dataFrame["grade"] = dataFrame["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"]) dataFrameGroupBy = dataFrame.groupby("grade", observed = False) series = dataFrameGroupBy.size() print(series) """ grade very bad 1 bad 0 medium 0 good 2 very good 3 dtype: int64 """ |
▶ requirements.txt
1 2 3 4 5 6 7 8 |
numpy==2.1.2 pandas==2.2.3 python-dateutil==2.9.0.post0 pytz==2024.2 six==1.16.0 tzdata==2024.2 |
※ pip install pandas 명령을 실행했다.