Ch 2. 데이터 수집하기
자본시장 시계열 소개
1. 가격 시계열 vs 수익률 시계열
- scale-free
- stationary (<- random walk)
- 금융시장에서는 거의 정상 시계열이 없다
- distributional advantages
2. 수익률의 측정
- (t-1 ~ t 기간 동안의) (One-period) Simple Return
- (t-1 ~ t - k 기간 동안의) (Multiperiod) Simple Return
- One-period Simple Return
$$1+R_t=\frac{P_t}{P_{t-1}}$$
$$P_t=P_{t-1}(1+R_t)$$
- Multiperiod Simple Return
3. 연속복리 수익률(Continously Compounded Return)
- 로그 수익률
- 퍼센트 수익률 \(r_t = 100 * \ln (P_t / P_{t-1})\)
- Continuously Compounded Return
자본시장 시계열(수익률 분포)의 주요 통계적 속성
1. 일별 수익률 분포의 통계적 특성
- (참고) 선행개념: 확률밀도함수(Probability Density Function, pdf)
- 왜도(skewness)가 높다
- 비대칭성
- 정의: (확률밀도함수의 3rd central moment)
- 첨도(kurtosis)가 높다
- 두꺼운 꼬리분포(fat-tail)
- 정의: (확률밀도함수의 4th central moment)
- 정규분포의 경우 K(x) = 3이며, K(x) - 3 > 0 인 경우 첨도가 높다고 본다
- 실무적으로는 정규분포에 비하여 극단값(extreme value)를 가질 확률이 높다는 뜻(leptokurtic)
- 반대로 K(x) - 3 < 0 인 경우는 short-tail로 볼 수 있으며 극단적인 경우 uniform distribution over a finite interval 이 됨 (platykurtic)
- (일별, 월별, 연별) 수익률의 시계열적 특징: 자기 상관성이 없다(가격이랑 다름)
- 금융시장이 그만큼 Random Walk 하게 움직인다는 뜻
2. (c.f.) 자산 수익률을 측정하는 다른 방법
- APR (Annual Percentage Rate), CAGR (Compound Annual Growth Rate)
data.pct_change().mean().plot(kind='bar', figsize=(10, 6))
Ch 3. 금융시계열 이용하여 시장 예측하기
시계열을 금융분석에 응용하기
변동성의 개념과 모형의 필요성
- 금융시계열에서 수익률의 분산을 보는 이유
- t시점의 수익률 = \(100 * \ln(x_t / x_{t-1})\)
- 시간가변하는 변동성을 모형화하는 경우, 분산이 시점 t에 의존하므로, t-1기까지의 정보를 이용하여 변동성을 측정하는 조건부 분산이 예측오차를 줄일 수 있다는 장점을 가진다
- 지금까지 다룬 시계열 분석은 다른 변수 또는 해당 변수 자체의 과거값의 변화에 대응하는 종속변수의 평균적인 변화 분석에 초점을 둠
- 따라서 회귀모형 또는 시계열 모형에 포함되는 오차항에 대한 정보는 추정값에 대한 통계적 추론을 위하여 보조적 역할이었음
- 금융시장의 변동성은 시간에 따라 변화하는 것이 일반적
- 변동성이 커진다는 것은 일반적으로 자산시장으로 유입되는 정보의 양이 많아짐을 뜻함
- 예) FOMC 금리 발표, 신흥국 환 위기, 유럽발 재정위기, 산유국 감산 소식 등
- 금융시장에서 변동성에 대한 관심이 증가함에 따라 금융시계열의 분산(variance) 및 공분산(covariance) 등에 대한 추정과 예측이 필요
- 변동성
- 변동성은 자산 수익의 표준편차 혹은 분산으로 측정됨
- 대부분의 금융시계열은 변동성의 군집현상(volatility clustering)이 나타남
- 오차항의 분산이 일정하다는 OLS 회귀모형의 기본 가정을 위배
- 기준금리를 비롯한 각종 경제지표의 발표, 금융위기, 재정 위기와 같은 외부 충격(shock)에 영향을 받는다는 의미
- 이러한 충격이 일정기간 동안 영향을 미치게 되므로 시계열상 이분산성이 발생
- 조건부 분산
- x 의 값을 알고 있을 때 이에 대한 조건부확률분포 p(y|x)의 분산
- 예측문제의 관점으로 보면 조건부분산은 예측의 불확실성를 뜻함
- 조건부 이분산성 (Conditional Heteoskedasticity)
- 오차항의 분산과 독립변수가 일정한 관계를 가질 수 있다
변동성 모형: ARCH, GARCH
ARCH (AutoRegressive Conditional Heteroskedasticity)
- ARCH 는 Engle(1982)에 의해 제시되었으며, 오차항의 분산의 현재값이 이전의 오차항의 제곱값들에 의존할 것이라는 접근에서 출발
- "바로 직전의 오차항의 제곱값에 의존": \(σ_t^2 = α_0 + α_1 * ϵ_{t-1}^2\)
- 전체 모형은 조건부 평균과 분산에 대해 두 개의 구별되는 모형을 포함함
- ARCH 모형의 문제점
- 양(+)의 shock과 음(-)의 shock을 동일하게 다루고 있음(과거 shock의 제곱값)
- : 실제로는 방향에 따라 비대칭적인 영향력을 보일 때가 많다
- ARCH 의 차수를 어떻게 결정해야 하는가?
- : 실제로 필요한 q 값이 상당히 클 수가 있음
- 조건부 분산이 양(+)이 되기 위한 충분조건은 파라미터가 모두 비음성(non-negative)이어야 함
- : 추정해야하는 모수가 많아지는 경우 이러한 제약이 충족되지 않을 수 있음
GARCH (Generalized AutoRegressive Conditional Heteroskedasticity)
- ARCH 모형과 달리, GARCH 모형은 변동성의 시계열 의존성, 즉 자기상관을 표현하는 데 있어서 모수의 수를 줄일 수 있다는 장점
- GARCH 모형은 조건부분산이 직전의 오차항의 제곱값과 함께 자체 시차값(lagged values)에 의존하도록 함
- GARCH (1,1)
- (1) \(Y_t = γ_0 + γ_1* X_{1t} + ... + γ_k*X_{kt} + ϵ_t\)
- (2) \(σ_t^2 = ω + α_0 + α_1 * ϵ_{t-1}^2 + ... + α_q * ϵ_{t-q}^2\)
- 조건부 평균에 대한 식 (1) 은 외생 변수 및 오차항의 함수로 표현됨
- GARCH(1, 1) = ARCH(∞) 모형이므로 추정해야 하는 모수의 수를 줄일 수 있다는 장점
벡터자기회귀(Vector AutoRegressive Model, VAR)
- 실증분석에서는 2개 이상의 시계열을 동시에 모형화하는 것이 유리
- 자산시장를 비롯한 거시경제 시계열은 서로 독립적으로 움직이는 것이 아니라 일정한 상관관계를 보이는 편
- 벡터자기회귀(VAR)은 k개의 AR식을 벡터로 쌓은 것과 같다
- 다만 단일 시계열 AR과 다른 점은 설명변수로 자기 자신의 lag뿐 아니라 다른 변수들의 lag도 포함한다는 점
벡터오차수정모형(Vector Autocorection Model, VECM)
- 공적분 관계의 존재 여부에 따라 VAR와 VECM을 선택
- 공적분(Cointegration): 두 비정상 시계열을 선형조합 했을 때 시계열의 적분 차수가 낮아지거나 정상상태가 되는 경우
- 적분차수: 정상성이 되기까지 차분해야 하는 횟수
- 두 개 이상의 시계열이 공적분 관계에 있으면 장기관계 또는 균형관계를 가진다는 의미
- VAR 모형은 각 시계열이 안정성 조건을 만족하지 않아도 사용할 수 있지만, 일반적으로 불안정성 시계열의 경우 차분을 하거나 변수간 장기적 관계에 대하여 정보를 상실할 수 있다는 단점
- 따라서 변수간 공적분 관계에 있는 시계열은 차분을 거치지 않고 원 데이터를 써서 모형에 적합시킬 수 있다는 점에서 장점을 가진다
- "Spurious Correlation" (가짜 상관관계)
충격반응함수 (Impulse Response Function, IRF)
- 충격반응함수는 VAR의 추정계수를 바탕으로 모형 내 변수에 대하여 일정한 크기의 충격을 가할 때 모형의 모든 변수들이 시간의 흐름에 따라 어떻게 반응하는가를 나타낸 것
- 내생변수의 현재값과 미래값에 대한 오차항 중 하나에 대한 1표준편차 충격(one standard deviation shock)의 효과를 추적함
- 즉, 특정 변수의 단위당 충격(unit shock)의 크기에 해당하는 충격을 그것이 자기 자신의 변수와 나머지 변수에 미치는 영향을 의미
- 변수간의 상호인과관계를 분석하고 변수의 변화에 따른 파급효과를 분석하는 데 이용
'인공지능 > [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석' 카테고리의 다른 글
AR, MA, ARMA, ARIMA 관련 기본 설명, 비트코인 예시 링크 (0) | 2024.11.13 |
---|---|
[강의 요약] 패캠 시계열 분석 - Part5. 딥러닝을 이용하여 정교하게 예측하기 (0) | 2024.11.13 |
[강의 요약] 패캠 시계열 분석 - Part3. 본격 시계열 분석하기 (0) | 2024.11.13 |
[강의 요약] 패캠 시계열 분석 - Part2. 머신러닝으로 데이터 실무 맛보기 (0) | 2024.11.13 |
[강의 요약] 패캠 시계열 분석 - Part1. 데이터 분석 첫 걸음 떼기 (0) | 2024.11.12 |