머신러닝으로 투자에 성공할 수 있을까?
투자관련 머신러닝 추천 영상입니다.
금융영역 딥러닝 문제점
문제점 1. 시계열 Feature 자체의 노이즈
다음 주가 = 현재 주가 + 정보 + 노이즈
문제는 노이즈 > 정보
lstm(RNN)을 이용한 주가 예측 -> 비슷하지만 오른쪽으로 Lagging
문제점 2. 시계열 Feature 종류 대비 짧은 시계열 길이 (부족한 데이터)
예) 자산배분
자산군 데이터 : 금, 채권, 주식, 리츠, 원자재
매크로 데이터 : 금리, 인플레이션, 장단기금리차
High Level Feature : 자산군 모멘텀 효과, 자산군 평균회귀 효과, 확장적 통화정책,
긴축적 통화정책 분류, 단기부채사이클, 장기부채사이클
주로 Monthly Frequency 데이터 -> 40년 데이터 = 겨우 480개의 Sequence 길이
고려할 수 있는 요소는 수십 ~ 수백개인데, 고려할 수 있는 데이터 길이는 너무 짧음 -> 차원의 저주
고려할 요소가 늘어나면 그것을 사용할지 판단하기 위해서는 필요한 데이터가 기하급수적으로 늘어남
문제점 3. 문제점 1과 문제점 2로 인한 Overfitting
해결 방안
문제점 1. 시계열 Feature 자체의 노이즈
- Time-series denoising
Moving Average(MA, EMA, ...) -> 오른쪽으로 Lagging
Bilateral Filter(어느 정도 denoising 할지?)
CNN Stacked AutoEncoder 기반 Denoising Module (자동)
문제점 2. 시계열 Feature 종류 대비 짧은 시계열 길이
GAN 기반 데이터 생성
(간접적으로라도) 경제적 함의점을 내포하는 모델 설계
데이터 -> 직관 -> 모델 -> 포트폴리오 생성
문제점 3. 문제점 1과 문제점 2로 인한 Overfitting
- Asynchronous Multi Network Learning
Overfitting이라고 해서 단순하게 L1, L2 Norm을 적용하면 안됨
여러개 네트워크 학습 -> validation 경쟁 -> 네트워크 탈락, 추가 -> validation -> test -> 앙상블
여러개 네트워크 학습 -> 경쟁 -> overfitting 정도에 따라 예측들이 다른 구간 -> 잘모르겠다 -> 보수적 투자
- Bayesian Inference - Uncertainty Quantification
a. Monte Carlo Dropout -> Tau, Dropout rate, Activation에 따른 영향도 높다는 단점
b. Monte Carlo Batch Normaliztion
c. Deep Learning Regression + Gaussian Process Regression
선지도학습 후 GPR 학습 -> 가장 심플하고 적용하기 간단
마지막 Fully Connected 하기 전의 노드들이
선형 독립적으로 Representation Learning이 잘 됐다는 가정 하에 효과적으로 GPR 학습 가능
금융 머신러닝 전문가들은 '머신러닝으로 투자하기'를 과연 긍정적으로 보는가?