[pandas]DataFrame

DataFrame

내용

DataFrame 생성
객체의 호출과 슬라이싱

DataFrame 생성

Data Frame은 두 개 이상의 Series객체를 결합한 여러개의 행과 열로 구성된 구조입니다. 이 구조의 데이터들은 Series와 같이 정수, 문자, 부동소수, 파이썬 객체 등이 될 수 있으며 각 열 마다 다른 자료 형태들을 복합적으로 사용될 수 있습니다. 이 구조가 가질 수 있는 데이터 형태 및 구조를 구체적으로 나타내면 다음과 같습니다.

1차원 배열, 리스트, 사전, 또는 Series
2차원 numpy 배열
Structured or record ndarray(데이터베이스 형식)
A Series
Another DataFrame

다음 함수에 의해 DataFrame객체를 생성합니다.

DataFrame(data, index, columns, dtype);
- index: 행이름
- columns: 열이름
- dtype: 자료형

DataFrame은 행과 열을 가진 2차원입니다. 차원과 모양은 속성 .ndim과 .shape로 확인 할 수 있습니다.

d=[[ 0. ,  2.5,  5. ,  7.5, 10. ], ['book','house','car','smartphone','computer']]
d_df=pd.DataFrame(d); d_df

	0	1	2	3	4
0	0.0	2.5	5.0	7.5	10.0
1	book	house	car	smartphone	computer

print(f"d_df의 차원:{d_df.ndim}, _모양:{d_df.shape}")

d_df의 차원:2, _모양:(2, 5)

위 결과와 같이 DataFrmae은 2차원입니다. 즉, 기본 구조는 행과 열로 이루어지며 함수의 인수 index와 columns를 사용하여 각각의 이름을 지정할 수 있습니다. 별도로 지정하지 않는 경우 위 결과와 같이 행인덱스, 열인덱스로 지정됩니다. 생성된 객체의 행이름이나 열이름은 속성 .index, .columns를 적용합니다.

d_df.index=["r1", 'r2']
d_df.columns=['c1', 'c2', 'c3','c4','c5']
d_df

	c1	c2	c3	c4	c5
r1	0.0	2.5	5.0	7.5	10.0
r2	book	house	car	smartphone	computer

사전 형식의 객체는 인덱스 역할을 하는 key와 값인 value를 같이 나타내는 구조입니다. 이 구조의 객체는 다음 함수에 의해 dataframe으로 전환할 수 있으며 이 객체는 2차원이므로 key의 방향성을 지정해야 합니다.

pandas.DataFrame.from_dict(data, orient='columns')
- orient: 데이터의 방향성을 결정
  데이터의 키가 열이름이 되기 위해서는 'columns'
  행이름이 되기 위해서는 'index'로 지정
  지정되지 않은 부분은 인덱스로 자동지정

data = {'col_1': [3, 2, 1, 0], 'col_2': ['a', 'b', 'c', 'd']}
data_pd=pd.DataFrame.from_dict(data); data_pd

	col_1	col_2
0	3	a
1	2	b
2	1	c
3	0	d

data_pd2=pd.DataFrame.from_dict(data, orient='index'); data_pd2

	0	1	2	3
col_1	3	2	1	0
col_2	a	b	c	d

두 개이상의 Series를 가진 사전 구조의 데이터를 DataFrame 구조로 전환할 수 있습니다. 다음의 예에서 사전 형식인 d의 키 ‘one’의 값들은 3개, ‘two’의 값들은 4개로 두 Series 값들의 수가 다릅니다. 이 경우 포함되지 않은 경우 NaN이 자동적으로 부여됩니다.

d={'one':pd.Series([1,2,3], index=['a','b','c']), 'two':pd.Series([1,2,3,4], index=['a','b','c','d'])}
df=pd.DataFrame(d); df

	one	two
a	1.0	1
b	2.0	2
c	3.0	3
d	NaN	4

객체의 호출과 슬라이싱

메서드 .head(n), .tail(n)으로 객체의 처음과 마지막 부분을 호출할 수 있습니다. n은 호출할 행의 수이며 기본값은 5입니다.

df.head(1)

	one	two
a	1.0	1

df.tail(1)

	one	two
d	NaN	4

DataFrame의 슬라이싱은 2차원 array(행렬) 객체와 유사하지만 다음 표와 같이 대괄호 대신 loc[ ], 또는 iloc[ ]를 사용합니다.

함수	내용
df[열이름] df[ [열이름1, 열이름2, ...] ]	열선택 , 다중의 열을 호출할 경우 호출할 열이름은 하나의 인자가 되어야 하므로 리스트([])로 묶어 표현해야 합니다.
df.loc[행이름, 열이름]	라벨(이름)에 의한 행, 열 선택
df.iloc[정수]	위치를 나타내는 정수에 의해 행 선택
호출시 범위를 나타내기 위해서는 콜론(":")을 사용합니다. [시작:마지막] → 시작에서 마지막 직전의 정수를 의미 [:] → 모든 원소를 의미

DataFrame에서 하나의 요소만 추출할 경우 그 요소의 자료형을 가지지만 두 개 이상의 요소를 호출할 경우 Series 또는 DataFrame 객체가 됩니다. 특히 하나의 열이나 행을 슬라이싱(추출)한다면 추출된 객체는 Series 형태가 됩니다.

다음 객체는 파이썬 패키지 FinanceDataReader의 함수 DataReader(대상코드, 시작날짜, 마지막날짜)를 적용하여 코스피('KS11')의 일부 자료를 호출한 것입니다. 이 함수의 결과는 pandas.DataFrame입니다.

st=pd.Timestamp(2024,8,1)
et=pd.Timestamp(2024, 8,21)
df=fdr.DataReader('KS11', st, et)
df.head(2)

	Open	High	Low	Close	Volume	…
Date						…
2024-08-01	2787.27	2794.11	2772.97	2777.68	480833975	…
2024-08-02	2719.39	2725.05	2666.40	2676.19	531785136	-…

num1=df.iloc[0,0]
num1, type(num1)

(2787.27, numpy.float64)

col1=df['Open']
col1

Date
2024-08-01    2787.27
2024-08-02    2719.39
  ⋮
2024-08-21    2687.20
Name: Open, dtype: float64

type(col1)

pandas.core.series.Series

df.iloc[2:5, :4]

	Open	High	Low	Close
Date
2024-08-05	2611.30	2611.30	2386.96	2441.55
2024-08-06	2533.34	2578.77	2491.47	2522.15
2024-08-07	2515.27	2594.83	2510.82	2568.41

df.loc['2024-08-21', ['Open', 'Close']]

Open     2687.20
Close    2701.13
Name: 2024-08-21 00:00:00, dtype: float64

df.iloc[-1]

Open      2.687200e+03
High      2.704980e+03
Low       2.684610e+03
Close     2.701130e+03
Volume    4.173296e+08
Change    1.700000e-03
UpDown    1.000000e+00
Comp      4.500000e+00
Amount    9.378558e+12
MarCap    2.210561e+15
Name: 2024-08-21 00:00:00, dtype: float64

[Linear Algebra] 유사변환(Similarity transformation)

유사변환(Similarity transformation) n×n 차원의 정방 행렬 A, B 그리고 가역 행렬 P 사이에 식 1의 관계가 성립하면 행렬 A와 B는 유사행렬(similarity matrix)이 되며 행렬 A를 가역행렬 P와 B로 분해하는 것을 유사 변환(similarity transformation) 이라고 합니다. $$\tag{1} A = PBP^{-1} \Leftrightarrow P^{-1}AP = B $$ 식 2는 식 1의 양변에 B의 고유값을 고려한 것입니다. \begin{align}\tag{식 2} B - \lambda I &= P^{-1}AP – \lambda P^{-1}P\\ &= P^{-1}(AP – \lambda P)\\ &= P^{-1}(A - \lambda I)P \end{align} 식 2의 행렬식은 식 3과 같이 정리됩니다. \begin{align} &\begin{aligned}\textsf{det}(B - \lambda I ) & = \textsf{det}(P^{-1}(AP – \lambda P))\\ &= \textsf{det}(P^{-1}) \textsf{det}((A – \lambda I)) \textsf{det}(P)\\ &= \textsf{det}(P^{-1}) \textsf{det}(P) \textsf{det}((A – \lambda I))\\ &= \textsf{det}(A – \lambda I)\end{aligned}\\ &\begin{aligned}\because \; \textsf{det}(P^{-1}) \textsf{det}(P) &= \textsf{det}(P^{-1}P)\\ &= \textsf{det}(I)\end{aligned}\end{align} 유사행렬의 특성 유사행렬인 두 정방행렬 A와 B는 'A ~ B' 와 같...

유리함수 그래프와 점근선 그리기

내용 유리함수(Rational Function) 점근선(asymptote) 유리함수 그래프와 점근선 그리기 유리함수(Rational Function) 유리함수는 분수형태의 함수를 의미합니다. 예를들어 다음 함수는 분수형태의 유리함수입니다. $$f(x)=\frac{x^{2} - 1}{x^{2} + x - 6}$$ 분수의 경우 분모가 0인 경우 정의할 수 없습니다. 이와 마찬가지로 유리함수 f(x)의 정의역은 분모가 0이 아닌 부분이어야 합니다. 그러므로 위함수의 정의역은 분모가 0인 부분을 제외한 부분들로 구성됩니다. sympt=solve(denom(f), a); asympt [-3, 2] $$-\infty \lt x \lt -3, \quad -3 \lt x \lt 2, \quad 2 \lt x \lt \infty$$ 이 정의역을 고려해 그래프를 작성을 위한 사용자 정의함수는 다음과 같습니다. def validX(x, f, symbol): ① a=[] b=[] for i in x: try: b.append(float(f.subs(symbol, i))) a.append(i) except: pass return(a, b) #x는 임의로 지정한 정의역으로 불연속선점을 기준으로 구분된 몇개의 구간으로 전달할 수 있습니다. #그러므로 인수 x는 2차원이어야 합니다. def RationalPlot(x, f, sym, dp=100): fig, ax=plt.subplots(dpi=dp) # ② for k in x: #③ x4, y4=validX(k, f, sym) ax.plot(x4, y4) ax.spines['left'].set_position(('data', 0)) ax.spines['right...

부분분수의 미분

내용 방법 1 방법 2 방법 3 부분분수의 미분 분수의 미분은 일정한 공식 을 적용하여 계산할 수 있습니다. 그러나 분수 자체가 단순한 표현으로 이루어지지 않았다면 미분 과정이나 결과는 매우 복잡할 수 있습니다. 만약 복잡한 분수 함수를 간단한 분수들로 분해할 수 있다면 계산이 보다 간편해질 것입니다. 이와 같이 분해된 간단한 분수들을 부분분수 라고 합니다. 예를 들어 다음 두 분수의 합을 계산해 봅니다. $$\begin{align} \frac{1}{x+1}+\frac{2}{x-1}&=\frac{x-1+2(x+1)}{(x+1)(x-1)}\\ &=\frac{3x+1}{x^2-1} \end{align}$$ 위 과정은 3개 이상의 여러 분수에서도 이루어질 수 있습니다. 또한 역으로 진행될 수 있습니다. 즉, 분수를 부분 분수로 분할할 수 있습니다. 그러나 이러한 과정은 대수분수 (분자의 가장 큰 차수가 분모의 최고의 차수보다 작은 분수)에서만 이루어질 수 있습니다. 예를 들어 $\displaystyle \frac {x^2+2}{x^2-1}$의 경우는 분자와 분모의 차수는 2차로 같습니다. 이러한 경우 다음과 같이 분리할 수 있습니다. $$\frac{x^2+2}{x^2-1}=1+\frac{3}{x^2-1}$$ 위의 식 중 $\displaystyle \frac{3}{x^2-1}$은 분자의 차수가 분모의 차수 보다 낮은 대수 분수이므로 부분 분수로 분리할 수 있습니다. 이와같이 부분 분수로 분해하는 방법은 다음과 같이 몇 가지로 구분할 수 있습니다. 방법 1 위 예의 결과 $\displaystyle \frac{3x+1}{x^2-1}$의 경우를 역으로 생각해 봅니다. 분모의 인수분해가 가능하면 그 분모의 인수에 의해 다음과 같이 분해할 수 있습니다. $$\begin{align} \frac{3x+1}{x^2-1}&=\frac{3x+1}{(x+1)(x-1)}\\ &=\frac{A}{x+1...

sons dataStory

이 블로그 검색

pandas_ta를 적용한 통계적 인덱스 지표