PANDAS Archives - 11 중 11 번째 페이지

[PYTHON/PANDAS] pandas 패키지 설치하기

■ pandas 패키지를 설치하는 방법을 보여준다. 1. 명령 프롬프트를 실행한다. 2. 명령 프롬프트에서 아래 명령을 실행한다. ▶ 실행 명령


pip install pandas

pip install "pandas[test]"

pip install "pandas[performance]"

pip install "pandas[plot, output-formatting]"

pip install "pandas[computation]"

pip install "pandas[excel]"

pip install "pandas[html]"

pip install "pandas[xml]"

pip install "pandas[postgresql, mysql, sql-other]"

pip install "pandas[hdf5, parquet, feather, spss, excel]"

pip install "pandas[fss, aws, gcp]"

pip install "pandas[clipboard]"

pip install "pandas[compression]"

pip install "pandas[consortium-standard]"

pip install pandas

pip install "pandas[test]"

pip install "pandas[performance]"

pip install "pandas[plot, output-formatting]"

pip install "pandas[computation]"

pip install "pandas[excel]"

pip install "pandas[html]"

pip install "pandas[xml]"

pip install "pandas[postgresql, mysql, sql-other]"

pip install "pandas[hdf5, parquet, feather, spss, excel]"

pip install "pandas[fss, aws, gcp]"

pip install "pandas[clipboard]"

pip install "pandas[compression]"

pip install "pandas[consortium-standard]"

[PYTHON/PANDAS] DataFrame 클래스 : 피벗 데이터 생성시 합계/소계부터 표시하기

■ DataFrame 클래스에서 피벗 데이터 생성시 합계/소계부터 표시하는 방법을 보여준다. ▶ main.py


import pandas as pd
import numpy  as np

np.random.seed(0)

category1List       = ["수익", "비용"]
category2Dictionary = {"수익" : ["영업수익", "영업외수익"], "비용" : ["영업비용", "영업외비용"]}
category3Dictionary = {
    "영업수익"   : ["제품매출", "용역매출"  ],
    "영업외수익" : ["이자수익", "배당금수익"],
    "영업비용"   : ["인건비"  , "재료비"    ],
    "영업외비용" : ["이자비용", "기부금"    ]
}

sourceList = []

def generateAccountCode(대분류, 중분류, 소분류):
    return f"{대분류[:1]}{중분류[:1]}{소분류[:1]}"

for category1 in category1List:
    for category2 in category2Dictionary[category1]:
        for category3 in category3Dictionary[category2]:
            accountCode = generateAccountCode(category1, category2, category3)
            for month in range(1, 13):
                targetAmount = np.random.randint(10000, 100000)
                actualAmount = np.random.randint(8000 , 120000)
                sourceList.append([category1, category2, category3, accountCode, f"2023-{month:02d}", targetAmount, actualAmount])

sourceDataFrame = pd.DataFrame(sourceList, columns = ["대분류", "중분류", "소분류", "계정코드", "해당월", "목표금액", "실적금액"])

pivotDataFrame = pd.pivot_table(
    sourceDataFrame,
    values       = ["목표금액", "실적금액"],
    index        = ["대분류", "중분류", "소분류"],
    columns      = ["해당월"],
    aggfunc      = "sum",
    fill_value   = 0,
    margins      = True,
    margins_name = "합계"
)

reorderedPivotDataFrame = pivotDataFrame.reorder_levels([1, 0], axis = 1).sort_index(axis = 1)

def addSubtotal(sourceDataFrame):
    levelCount    = sourceDataFrame.index.nlevels
    copyDataFrame = sourceDataFrame.copy()
    for i in range(levelCount - 1, 0, -1):
        groupbyDataFrame = sourceDataFrame.groupby(level = list(range(i))).sum()
        for indexTuple in groupbyDataFrame.index:
            if isinstance(indexTuple, tuple):
                newIndexTuple = indexTuple + ('소계',) * (levelCount - len(indexTuple))
            else:
                newIndexTuple = (indexTuple,) + ('소계',) * (levelCount - 1)
            copyDataFrame.loc[newIndexTuple] = groupbyDataFrame.loc[indexTuple]
    return copyDataFrame.sort_index()

# 소계를 추가한다.
resultDataFrame = addSubtotal(reorderedPivotDataFrame)

# 결과를 출력한다.
print(resultDataFrame)

# CSV 파일로 저장한다.
resultDataFrame.to_csv("hierarchical_aggregation.csv")

import pandas as pd

import numpy as np

np.random.seed(0)

category1List = ["수익", "비용"]

category2Dictionary = {"수익" : ["영업수익", "영업외수익"], "비용" : ["영업비용", "영업외비용"]}

category3Dictionary = {

"영업수익" : ["제품매출", "용역매출" ],

"영업외수익" : ["이자수익", "배당금수익"],

"영업비용" : ["인건비" , "재료비" ],

"영업외비용" : ["이자비용", "기부금" ]

}

sourceList = []

def generateAccountCode(대분류, 중분류, 소분류):

return f"{대분류[:1]}{중분류[:1]}{소분류[:1]}"

for category1 in category1List:

for category2 in category2Dictionary[category1]:

for category3 in category3Dictionary[category2]:

accountCode = generateAccountCode(category1, category2, category3)

for month in range(1, 13):

targetAmount = np.random.randint(10000, 100000)

actualAmount = np.random.randint(8000 , 120000)

sourceList.append([category1, category2, category3, accountCode, f"2023-{month:02d}", targetAmount, actualAmount])

sourceDataFrame = pd.DataFrame(sourceList, columns = ["대분류", "중분류", "소분류", "계정코드", "해당월", "목표금액", "실적금액"])

pivotDataFrame = pd.pivot_table(

sourceDataFrame,

values = ["목표금액", "실적금액"],

index = ["대분류", "중분류", "소분류"],

columns = ["해당월"],

aggfunc = "sum",

fill_value = 0,

margins = True,

margins_name = "합계"

)

reorderedPivotDataFrame = pivotDataFrame.reorder_levels([1, 0], axis = 1).sort_index(axis = 1)

def addSubtotal(sourceDataFrame):

levelCount = sourceDataFrame.index.nlevels

copyDataFrame = sourceDataFrame.copy()

for i in range(levelCount - 1, 0, -1):

groupbyDataFrame = sourceDataFrame.groupby(level = list(range(i))).sum()

for indexTuple in groupbyDataFrame.index:

if isinstance(indexTuple, tuple):

newIndexTuple = indexTuple + ('소계',) * (levelCount - len(indexTuple))

else:

newIndexTuple = (indexTuple,) + ('소계',) * (levelCount - 1)

copyDataFrame.loc[newIndexTuple] = groupbyDataFrame.loc[indexTuple]

return copyDataFrame.sort_index()

# 소계를 추가한다.

resultDataFrame = addSubtotal(reorderedPivotDataFrame)

# 결과를 출력한다.

print(resultDataFrame)

# CSV 파일로 저장한다.

resultDataFrame.to_csv("hierarchical_aggregation.csv")

▶ requirements.txt


numpy==2.1.2
pandas==2.2.3
python-dateutil==2.9.0.post0
pytz==2024.2
six==1.16.0
tzdata==2024.2

numpy==2.1.2

pandas==2.2.3

python-dateutil==2.9.0.post0

pytz==2024.2

six==1.16.0

tzdata==2024.2

[PYTHON/PANDAS] pivot_table 함수 : values/index/columns/aggfunc/fill_value/margins/margins_name 인자를 사용해 피벗 테이블 데이터 만들기

■ pivot_table 함수의 values/index/columns/aggfunc/fill_value/margins/margins_name 인자를 사용해 피벗 테이블 데이터를 만드는 방법을 보여준다. ▶ main.py


import pandas as pd
import numpy  as np

np.random.seed(0)

category1List       = ["수익", "비용"]
category2Dictionary = {"수익" : ["영업수익", "영업외수익"], "비용" : ["영업비용", "영업외비용"]}
category3Dictionary = {
    "영업수익"   : ["제품매출", "용역매출"  ],
    "영업외수익" : ["이자수익", "배당금수익"],
    "영업비용"   : ["인건비"  , "재료비"    ],
    "영업외비용" : ["이자비용", "기부금"    ]
}

sourceList = []

def generateAccountCode(대분류, 중분류, 소분류):
    return f"{대분류[:1]}{중분류[:1]}{소분류[:1]}"

for category1 in category1List:
    for category2 in category2Dictionary[category1]:
        for category3 in category3Dictionary[category2]:
            accountCode = generateAccountCode(category1, category2, category3)
            for month in range(1, 13):
                targetAmount = np.random.randint(10000, 100000)
                actualAmount = np.random.randint(8000 , 120000)
                sourceList.append([category1, category2, category3, accountCode, f"2023-{month:02d}", targetAmount, actualAmount])

sourceDataFrame = pd.DataFrame(sourceList, columns = ["대분류", "중분류", "소분류", "계정코드", "해당월", "목표금액", "실적금액"])

pivotDataFrame = pd.pivot_table(
    sourceDataFrame,
    values       = ["목표금액", "실적금액"],
    index        = ["대분류", "중분류", "소분류"],
    columns      = ["해당월"],
    aggfunc      = "sum",
    fill_value   = 0,
    margins      = True,
    margins_name = "합계"
)

import pandas as pd

import numpy as np

np.random.seed(0)

category1List = ["수익", "비용"]

category2Dictionary = {"수익" : ["영업수익", "영업외수익"], "비용" : ["영업비용", "영업외비용"]}

category3Dictionary = {

"영업수익" : ["제품매출", "용역매출" ],

"영업외수익" : ["이자수익", "배당금수익"],

"영업비용" : ["인건비" , "재료비" ],

"영업외비용" : ["이자비용", "기부금" ]

}

sourceList = []

def generateAccountCode(대분류, 중분류, 소분류):

return f"{대분류[:1]}{중분류[:1]}{소분류[:1]}"

for category1 in category1List:

for category2 in category2Dictionary[category1]:

for category3 in category3Dictionary[category2]:

accountCode = generateAccountCode(category1, category2, category3)

for month in range(1, 13):

targetAmount = np.random.randint(10000, 100000)

actualAmount = np.random.randint(8000 , 120000)

sourceList.append([category1, category2, category3, accountCode, f"2023-{month:02d}", targetAmount, actualAmount])

sourceDataFrame = pd.DataFrame(sourceList, columns = ["대분류", "중분류", "소분류", "계정코드", "해당월", "목표금액", "실적금액"])

pivotDataFrame = pd.pivot_table(

sourceDataFrame,

values = ["목표금액", "실적금액"],

index = ["대분류", "중분류", "소분류"],

columns = ["해당월"],

aggfunc = "sum",

fill_value = 0,

margins = True,

margins_name = "합계"

)

▶ requirements.txt


numpy==2.1.2
pandas==2.2.3
python-dateutil==2.9.0.post0
pytz==2024.2
six==1.16.0
tzdata==2024.2

numpy==2.1.2

pandas==2.2.3

python-dateutil==2.9.0.post0

pytz==2024.2

six==1.16.0

tzdata==2024.2

※ pip install pandas

[PYTHON/PANDAS] DataFrame 클래스 : 생성자에서 columns 인자를 사용해 DataFrame 객체 만들기

■ DataFrame 클래스의 생성자에서 columns 인자를 사용해 DataFrame 객체를 만드는 방법을 보여준다. ▶ main.py


import pandas as pd
import numpy  as np

np.random.seed(0)

category1List       = ["수익", "비용"]
category2Dictionary = {"수익" : ["영업수익", "영업외수익"], "비용" : ["영업비용", "영업외비용"]}
category3Dictionary = {
    "영업수익"   : ["제품매출", "용역매출"  ],
    "영업외수익" : ["이자수익", "배당금수익"],
    "영업비용"   : ["인건비"  , "재료비"    ],
    "영업외비용" : ["이자비용", "기부금"    ]
}

sourceList = []

def generateAccountCode(대분류, 중분류, 소분류):
    return f"{대분류[:1]}{중분류[:1]}{소분류[:1]}"

for category1 in category1List:
    for category2 in category2Dictionary[category1]:
        for category3 in category3Dictionary[category2]:
            accountCode = generateAccountCode(category1, category2, category3)
            for month in range(1, 13):
                targetAmount = np.random.randint(10000, 100000)
                actualAmount = np.random.randint(8000 , 120000)
                sourceList.append([category1, category2, category3, accountCode, f"2023-{month:02d}", targetAmount, actualAmount])

sourceDataFrame = pd.DataFrame(sourceList, columns = ["대분류", "중분류", "소분류", "계정코드", "해당월", "목표금액", "실적금액"])

import pandas as pd

import numpy as np

np.random.seed(0)

category1List = ["수익", "비용"]

category2Dictionary = {"수익" : ["영업수익", "영업외수익"], "비용" : ["영업비용", "영업외비용"]}

category3Dictionary = {

"영업수익" : ["제품매출", "용역매출" ],

"영업외수익" : ["이자수익", "배당금수익"],

"영업비용" : ["인건비" , "재료비" ],

"영업외비용" : ["이자비용", "기부금" ]

}

sourceList = []

def generateAccountCode(대분류, 중분류, 소분류):

return f"{대분류[:1]}{중분류[:1]}{소분류[:1]}"

for category1 in category1List:

for category2 in category2Dictionary[category1]:

for category3 in category3Dictionary[category2]:

accountCode = generateAccountCode(category1, category2, category3)

for month in range(1, 13):

targetAmount = np.random.randint(10000, 100000)

actualAmount = np.random.randint(8000 , 120000)

sourceList.append([category1, category2, category3, accountCode, f"2023-{month:02d}", targetAmount, actualAmount])

sourceDataFrame = pd.DataFrame(sourceList, columns = ["대분류", "중분류", "소분류", "계정코드", "해당월", "목표금액", "실적금액"])

▶ requirements.txt


numpy==2.1.2
pandas==2.2.3
python-dateutil==2.9.0.post0
pytz==2024.2
six==1.16.0
tzdata==2024.2

numpy==2.1.2

pandas==2.2.3

python-dateutil==2.9.0.post0

pytz==2024.2

six==1.16.0

tzdata==2024.2

※ pip install pandas

[PYTHON/PANDAS] to_datetime 함수 : DataFrame 객체에서 특정 컬럼의 날짜 포맷을 변경하기

■ to_datetime 함수를 사용해 DataFrame 객체에서 특정 컬럼의 날짜 포맷을 변경하는 방법을 보여준다. ▶ main.py


import pandas as pd

dataFrame = pd.read_csv("https://s3-us-west-2.amazonaws.com/streamlit-demo-data/uber-raw-data-sep14.csv.gz", nrows = 1000)

print("[변경전]")
print(dataFrame)
print()

dataTimeSeries1 = dataFrame["date/time"]

dataTimeSeries2 = pd.to_datetime(dataTimeSeries1)

print("[변경후]")
print(dataFrame)
print()

"""
[변경전]
             Date/Time      Lat      Lon    Base
0     9/1/2014 0:01:00  40.2201 -74.0021  B02512
1     9/1/2014 0:01:00  40.7500 -74.0027  B02512
2     9/1/2014 0:03:00  40.7559 -73.9864  B02512
3     9/1/2014 0:06:00  40.7450 -73.9889  B02512
4     9/1/2014 0:11:00  40.8145 -73.9444  B02512
..                 ...      ...      ...     ...
995  9/2/2014 11:11:00  40.7381 -73.9878  B02512
996  9/2/2014 11:14:00  40.7848 -73.9560  B02512
997  9/2/2014 11:14:00  40.7848 -73.9560  B02512
998  9/2/2014 11:17:00  40.7741 -73.9608  B02512
999  9/2/2014 11:18:00  40.7410 -73.7579  B02512

[1000 rows x 4 columns]

[변경후]
              Date/Time      Lat      Lon    Base
0   2014-09-01 00:01:00  40.2201 -74.0021  B02512
1   2014-09-01 00:01:00  40.7500 -74.0027  B02512
2   2014-09-01 00:03:00  40.7559 -73.9864  B02512
3   2014-09-01 00:06:00  40.7450 -73.9889  B02512
4   2014-09-01 00:11:00  40.8145 -73.9444  B02512
..                  ...      ...      ...     ...
995 2014-09-02 11:11:00  40.7381 -73.9878  B02512
996 2014-09-02 11:14:00  40.7848 -73.9560  B02512
997 2014-09-02 11:14:00  40.7848 -73.9560  B02512
998 2014-09-02 11:17:00  40.7741 -73.9608  B02512
999 2014-09-02 11:18:00  40.7410 -73.7579  B02512

[1000 rows x 4 columns]
"""

import pandas as pd

dataFrame = pd.read_csv("https://s3-us-west-2.amazonaws.com/streamlit-demo-data/uber-raw-data-sep14.csv.gz", nrows = 1000)

print("[변경전]")

print(dataFrame)

print()

dataTimeSeries1 = dataFrame["date/time"]

dataTimeSeries2 = pd.to_datetime(dataTimeSeries1)

print("[변경후]")

print(dataFrame)

print()

"""

[변경전]

Date/Time Lat Lon Base

0 9/1/2014 0:01:00 40.2201 -74.0021 B02512

1 9/1/2014 0:01:00 40.7500 -74.0027 B02512

2 9/1/2014 0:03:00 40.7559 -73.9864 B02512

3 9/1/2014 0:06:00 40.7450 -73.9889 B02512

4 9/1/2014 0:11:00 40.8145 -73.9444 B02512

.. ... ... ... ...

995 9/2/2014 11:11:00 40.7381 -73.9878 B02512

996 9/2/2014 11:14:00 40.7848 -73.9560 B02512

997 9/2/2014 11:14:00 40.7848 -73.9560 B02512

998 9/2/2014 11:17:00 40.7741 -73.9608 B02512

999 9/2/2014 11:18:00 40.7410 -73.7579 B02512

[1000 rows x 4 columns]

[변경후]

Date/Time Lat Lon Base

0 2014-09-01 00:01:00 40.2201 -74.0021 B02512

1 2014-09-01 00:01:00 40.7500 -74.0027 B02512

2 2014-09-01 00:03:00 40.7559 -73.9864 B02512

3 2014-09-01 00:06:00 40.7450 -73.9889 B02512

4 2014-09-01 00:11:00 40.8145 -73.9444 B02512

.. ... ... ... ...

995 2014-09-02 11:11:00 40.7381 -73.9878 B02512

996 2014-09-02 11:14:00 40.7848 -73.9560 B02512

997 2014-09-02 11:14:00 40.7848 -73.9560 B02512

998 2014-09-02 11:17:00 40.7741 -73.9608 B02512

999 2014-09-02 11:18:00 40.7410 -73.7579 B02512

[1000 rows x 4 columns]

"""

▶ requirements.txt


numpy==2.0.0
pandas==2.2.2
python-dateutil==2.9.0.post0
pytz==2024.1
six==1.16.0
tzdata==2024.1

numpy==2.0.0

pandas==2.2.2

python-dateutil==2.9.0.post0

pytz==2024.1

six==1.16.0

tzdata==2024.1

※ pip install

[PYTHON/PANDAS] read_csv 함수 : 특정 URL을 갖는 압축 CSV 파일 읽기

■ read_csv 함수를 사용해 특정 URL을 갖는 압축된 CSV 파일을 읽는 방법을 보여준다. ▶ main.py


import pandas as pd

urlString = "https://s3-us-west-2.amazonaws.com/streamlit-demo-data/uber-raw-data-sep14.csv.gz"
rowCount  = 1000

dataFrame = pd.read_csv(urlString, nrows = rowCount)

print(dataFrame)

"""
             Date/Time      Lat      Lon    Base
0     9/1/2014 0:01:00  40.2201 -74.0021  B02512
1     9/1/2014 0:01:00  40.7500 -74.0027  B02512
2     9/1/2014 0:03:00  40.7559 -73.9864  B02512
3     9/1/2014 0:06:00  40.7450 -73.9889  B02512
4     9/1/2014 0:11:00  40.8145 -73.9444  B02512
..                 ...      ...      ...     ...
995  9/2/2014 11:11:00  40.7381 -73.9878  B02512
996  9/2/2014 11:14:00  40.7848 -73.9560  B02512
997  9/2/2014 11:14:00  40.7848 -73.9560  B02512
998  9/2/2014 11:17:00  40.7741 -73.9608  B02512
999  9/2/2014 11:18:00  40.7410 -73.7579  B02512

[1000 rows x 4 columns]
"""

import pandas as pd

urlString = "https://s3-us-west-2.amazonaws.com/streamlit-demo-data/uber-raw-data-sep14.csv.gz"

rowCount = 1000

dataFrame = pd.read_csv(urlString, nrows = rowCount)

print(dataFrame)

"""

Date/Time Lat Lon Base

0 9/1/2014 0:01:00 40.2201 -74.0021 B02512

1 9/1/2014 0:01:00 40.7500 -74.0027 B02512

2 9/1/2014 0:03:00 40.7559 -73.9864 B02512

3 9/1/2014 0:06:00 40.7450 -73.9889 B02512

4 9/1/2014 0:11:00 40.8145 -73.9444 B02512

.. ... ... ... ...

995 9/2/2014 11:11:00 40.7381 -73.9878 B02512

996 9/2/2014 11:14:00 40.7848 -73.9560 B02512

997 9/2/2014 11:14:00 40.7848 -73.9560 B02512

998 9/2/2014 11:17:00 40.7741 -73.9608 B02512

999 9/2/2014 11:18:00 40.7410 -73.7579 B02512

[1000 rows x 4 columns]

"""

▶ requirements.txt


numpy==2.0.0
pandas==2.2.2
python-dateutil==2.9.0.post0
pytz==2024.1
six==1.16.0
tzdata==2024.1

numpy==2.0.0

pandas==2.2.2

python-dateutil==2.9.0.post0

pytz==2024.1

six==1.16.0

tzdata==2024.1

※ pip install

[PYTHON/PANDAS] DataFrame 클래스 : head 메소드를 사용해 선두 데이터 N개 추출하기

■ DataFrame 클래스를 사용해 head 메소드를 사용해 선두 데이터 N개를 추출하는 방법을 보여준다. ▶ main.py


from pykrx import stock

baseDate = "20240620"
market   = "KOSPI" # ALL, KOSPI, KOSDAQ, KONEX

dataFrame1 = stock.get_market_ohlcv_by_ticker(date = baseDate, market = market)

dataFrame2 = dataFrame1.head(5)

print(dataFrame2)

"""
          시가    고가    저가    종가  거래량    거래대금  등락률
티커
095570    4620    4645    4520    4520  163829   747360865   -3.42
006840   14540   14670   14500   14650    2720    39737650    0.55
027410    3500    3575    3500    3560   60515   214689145    1.71
282330  111200  111300  109800  109900   56181  6190875900   -1.26
138930    8030    8180    8000    8170  438374  3559809610    1.74
"""

from pykrx import stock

baseDate = "20240620"

market = "KOSPI" # ALL, KOSPI, KOSDAQ, KONEX

dataFrame1 = stock.get_market_ohlcv_by_ticker(date = baseDate, market = market)

dataFrame2 = dataFrame1.head(5)

print(dataFrame2)

"""

시가 고가 저가 종가 거래량 거래대금 등락률

티커

095570 4620 4645 4520 4520 163829 747360865 -3.42

006840 14540 14670 14500 14650 2720 39737650 0.55

027410 3500 3575 3500 3560 60515 214689145 1.71

282330 111200 111300 109800 109900 56181 6190875900 -1.26

138930 8030 8180 8000 8170 438374 3559809610 1.74

"""

▶ requirements.txt


certifi==2024.6.2
charset-normalizer==3.3.2
contourpy==1.2.1
cycler==0.12.1
DateTime==5.5
Deprecated==1.2.14
fonttools==4.53.0
idna==3.7
kiwisolver==1.4.5
matplotlib==3.9.0
multipledispatch==1.0.0
numpy==2.0.0
packaging==24.1
pandas==2.2.2
pillow==10.3.0
pykrx==1.0.45
pyparsing==3.1.2
python-dateutil==2.9.0.post0
pytz==2024.1
requests==2.32.3
six==1.16.0
tzdata==2024.1
urllib3==2.2.2
wrapt==1.16.0
xlrd==2.0.1
zope.interface==6.4.post2

certifi==2024.6.2

charset-normalizer==3.3.2

contourpy==1.2.1

cycler==0.12.1

DateTime==5.5

Deprecated==1.2.14

fonttools==4.53.0

idna==3.7

kiwisolver==1.4.5

matplotlib==3.9.0

multipledispatch==1.0.0

numpy==2.0.0

packaging==24.1

pandas==2.2.2

pillow==10.3.0

pykrx==1.0.45

pyparsing==3.1.2

python-dateutil==2.9.0.post0

pytz==2024.1

requests==2.32.3

six==1.16.0

tzdata==2024.1

urllib3==2.2.2

wrapt==1.16.0

xlrd==2.0.1

zope.interface==6.4.post2

※ pip install

[PYTHON/PANDAS] DataFrame 클래스 : 생성자에서 columns 인자를 사용해 컬럼명 설정하기

■ DataFrame 클래스의 생성자에서 columns 인자를 사용해 컬럼명을 설정하는 방법을 보여준다. ▶ 예제 코드 (PY)


import pandas    as pd
import numpy     as np

dataFrame = pd.DataFrame(
    np.random.randn(10, 20),
    columns = ("컬럼 %d" % i + 1 for i in range(20))
)

import pandas as pd

import numpy as np

dataFrame = pd.DataFrame(

np.random.randn(10, 20),

columns = ("컬럼 %d" % i + 1 for i in range(20))

)

[PYTHON/PANDAS] DataFrame 클래스 : to_json 메소드를 사용해 CSV 파일에서 JSONL 파일 생성하기

■ DataFrame 클래스의 to_json 메소드를 사용해 CSV 파일에서 JSONL 파일을 생성하는 방법을 보여준다. ▶ 예제 코드 (PY)


import pandas

dataFrame = pandas.read_csv(
    "tsukuyomi.csv",
    usecols  = [1, 2],
    names    = ["prompt", "completion"],
    skiprows = 2
)

dataFrame.to_json(
    "tsukuyomi.jsonl",
    orient      = "records",
    lines       = True,
    force_ascii = False
)

import pandas

dataFrame = pandas.read_csv(

"tsukuyomi.csv",

usecols = [1, 2],

names = ["prompt", "completion"],

skiprows = 2

)

dataFrame.to_json(

"tsukuyomi.jsonl",

orient = "records",

lines = True,

force_ascii = False

)

▶ requirements.txt


numpy==1.26.4
pandas==2.2.2
python-dateutil==2.9.0.post0
pytz==2024.1
six==1.16.0
tzdata==2024.1

numpy==1.26.4

pandas==2.2.2

python-dateutil==2.9.0.post0

pytz==2024.1

six==1.16.0

tzdata==2024.1

tsukuyomi.zip

[PYTHON/PANDAS] DataFrame 클래스 : plot 메소드를 사용해 스택 수평 막대 차트 그리기

■ DataFrame 클래스의 plot 메소드를 사용해 스택 수평 막대 차트를 그리는 방법을 보여준다. ▶ 예제 코드 (PY)


import matplotlib.pyplot as pp
import numpy as np
import pandas as pd

dataFrame = pd.DataFrame(np.random.rand(6, 4), index = ["one", "two", "three", "four", "five", "six"], columns = pd.Index(["A", "B", "C", "D"], name = "Genus"))

dataFrame.plot(kind = "barh", stacked = True)

pp.show()

import matplotlib.pyplot as pp

import numpy as np

import pandas as pd

dataFrame = pd.DataFrame(np.random.rand(6, 4), index = ["one", "two", "three", "four", "five", "six"], columns = pd.Index(["A", "B", "C", "D"], name = "Genus"))

dataFrame.plot(kind = "barh", stacked = True)

pp.show()

[PYTHON/PANDAS] DataFrame 클래스 : plot 메소드를 사용해 수직 막대 차트 그리기

■ DataFrame 클래스의 plot 메소드를 사용해 수직 막대 차트를 그리는 방법을 보여준다. ▶ 예제 코드 (PY)


import matplotlib.pyplot as pp
import numpy as np
import pandas as pd

dataFrame = pd.DataFrame(np.random.rand(6, 4), index = ["one", "two", "three", "four", "five", "six"], columns = pd.Index(["A", "B", "C", "D"], name = "Genus"))

dataFrame.plot(kind = "bar")

pp.show()

import matplotlib.pyplot as pp

import numpy as np

import pandas as pd

dataFrame = pd.DataFrame(np.random.rand(6, 4), index = ["one", "two", "three", "four", "five", "six"], columns = pd.Index(["A", "B", "C", "D"], name = "Genus"))

dataFrame.plot(kind = "bar")

pp.show()

[PYTHON/PANDAS] DataFrame 클래스 : plot 메소드를 사용해 LINE 차트 그리기

■ DataFrame 클래스의 plot 메소드를 사용해 LINE 차트를 그리는 방법을 보여준다. ▶ 예제 코드 (PY)


import matplotlib.pyplot as pp
import numpy as np
import pandas as pd

dataFrame = pd.DataFrame(np.random.randn(10, 4).cumsum(axis = 0), columns = ["A", "B", "C", "D"], index = np.arange(0, 100, 10))

dataFrame["B"].plot()

pp.show()

import matplotlib.pyplot as pp

import numpy as np

import pandas as pd

dataFrame = pd.DataFrame(np.random.randn(10, 4).cumsum(axis = 0), columns = ["A", "B", "C", "D"], index = np.arange(0, 100, 10))

dataFrame["B"].plot()

pp.show()

[PYTHON/PANDAS] DataFrame 클래스 : plot 메소드를 사용해 LINE 차트 그리기

■ DataFrame 클래스의 plot 메소드를 사용해 LINE 차트를 그리는 방법을 보여준다. ▶ 예제 코드 (PY)


import matplotlib.pyplot as pp
import numpy as np
import pandas as pd

dataFrame = pd.DataFrame(np.random.randn(10, 4).cumsum(axis = 0), columns = ["A", "B", "C", "D"], index = np.arange(0, 100, 10))

dataFrame.plot()

pp.show()

import matplotlib.pyplot as pp

import numpy as np

import pandas as pd

dataFrame = pd.DataFrame(np.random.randn(10, 4).cumsum(axis = 0), columns = ["A", "B", "C", "D"], index = np.arange(0, 100, 10))

dataFrame.plot()

pp.show()

[PYTHON/PANDAS] Series 클래스 : hist 메소드를 사용해 정규 분포 히스토그램 그리기

■ Series 클래스의 hist 메소드를 사용해 정규 분포 히스토그램을 그리는 방법을 보여준다. ▶ 예제 코드 (PY)


import matplotlib.pyplot as pp
import numpy as np
import pandas as pd

series = pd.Series(np.random.normal(0, 1, size = 200))

series.hist(bins = 100, density = True)

pp.show()

import matplotlib.pyplot as pp

import numpy as np

import pandas as pd

series = pd.Series(np.random.normal(0, 1, size = 200))

series.hist(bins = 100, density = True)

pp.show()

[PYTHON/PANDAS] Series 클래스 : hist 메소드를 사용해 히스토그램 그리기

■ Series 클래스의 hist 메소드를 사용해 히스토그램을 그리는 방법을 보여준다. ▶ 예제 코드 (PY)


import matplotlib.pyplot as pp
import numpy as np
import pandas as pd

series = pd.Series(np.random.normal(0, 1, size = 200))

series.hist(bins = 10)

pp.show()

import matplotlib.pyplot as pp

import numpy as np

import pandas as pd

series = pd.Series(np.random.normal(0, 1, size = 200))

series.hist(bins = 10)

pp.show()

[PYTHON/PANDAS] Series 클래스 : plot 메소드를 사용해 수평 막대 차트 그리기

■ Series 클래스의 plot 메소드를 사용해 수평 막대 차트를 그리는 방법을 보여준다. ▶ 예제 코드 (PY)


import matplotlib.pyplot as pp
import numpy as np
import pandas as pd

series = pd.Series(np.random.rand(16), index = list("abcdefghijklmnop"))

series.plot(kind = "barh")

pp.show()

import matplotlib.pyplot as pp

import numpy as np

import pandas as pd

series = pd.Series(np.random.rand(16), index = list("abcdefghijklmnop"))

series.plot(kind = "barh")

pp.show()

[PYTHON/PANDAS] Series 클래스 : plot 메소드를 사용해 수직 막대 차트 그리기

■ Series 클래스의 plot 메소드를 사용해 수직 막대 차트를 그리는 방법을 보여준다. ▶ 예제 코드 (PY)


import matplotlib.pyplot as pp
import numpy as np
import pandas as pd

series = pd.Series(np.random.rand(16), index = list("abcdefghijklmnop"))

series.plot(kind = "bar")

pp.show()

import matplotlib.pyplot as pp

import numpy as np

import pandas as pd

series = pd.Series(np.random.rand(16), index = list("abcdefghijklmnop"))

series.plot(kind = "bar")

pp.show()

[PYTHON/PANDAS] Series 클래스 : plot 메소드를 사용해 LINE 차트 그리기

■ Series 클래스의 plot 메소드를 사용해 LINE 차트를 그리는 방법을 보여준다. ▶ main.py


import matplotlib.pyplot as pp
import numpy as np
import pandas as pd

series = pd.Series(np.random.randn(10).cumsum(), index = np.arange(0, 100, 10))

series.plot()

pp.show()

import matplotlib.pyplot as pp

import numpy as np

import pandas as pd

series = pd.Series(np.random.randn(10).cumsum(), index = np.arange(0, 100, 10))

series.plot()

pp.show()

▶ requirements.txt


cycler==0.11.0
fonttools==4.34.4
kiwisolver==1.4.4
matplotlib==3.5.3
numpy==1.23.1
packaging==21.3
pandas==1.4.3
Pillow==9.2.0
pip==22.0.4
pyparsing==3.0.9
python-dateutil==2.8.2
pytz==2022.2.1
setuptools==58.1.0
six==1.16.0

cycler==0.11.0

fonttools==4.34.4

kiwisolver==1.4.4

matplotlib==3.5.3

numpy==1.23.1

packaging==21.3

pandas==1.4.3

Pillow==9.2.0

pip==22.0.4

pyparsing==3.0.9

python-dateutil==2.8.2

pytz==2022.2.1

setuptools==58.1.0

six==1.16.0