1. 相場
  2. ペアトレード

ペアトレードへの道 第1回

前提となる知識のまとめ。

時系列データの種類

時系列データ(time series data)は、時間の推移とともに観測されるデータのことで、観測される順序に意味があることが大きな特徴だ。 経済やファイナンスで目にするほとんどのデータもこの時系列データになる。

時系列データそのものは、原系列と呼ばれることが多く、時系列分析の目的は、ほとんどの場合この原系列の性質を明らかにすることだ。 ただし、実際の解析は、原系列に何かしらの変換を施した系列に対して行われることも少なくない。

対数系列

対数変換は良く用いられる変換のひとつである。ファイナンスデータの中には、値が大きくなるにつれて、ばらつきが大きくなるデータが多く、 後に説明する定常性の仮定が満たされないため時系列解析が困難となる。 このような問題に対処するためデータを対数に変換することがよく行われる。

原系列に対数変換を施した系列は対数系列と呼ばれ、$\log y_t$と表記される。

差分系列(階差系列)

時系列分析においては、1時点離れたデータとの差も多用され、このような系列は差分系列または階差系列と呼ばれて、$\Delta y_t$と表記される。

対数差分系列

変化率に興味がある場合には、通常の変化率が用いられることもあるが、 対数差分系列 $\Delta\log y_t$が用いられることも多い。対数差分系列は対数系列の差分系列だが、 これで変化率が計算できるのは、変化分が小さいとするとき、1次のテイラー展開により以下が成立するためである。

通常の変化率 : $\frac{y_t - y_{t-1}}{y_{t-1}}$

$$\log(y_t) - \log(y_{t-1}) = \log(\frac{y_t}{y_{t-1}}) = \log(1+\frac{y_t - y_{t-1}}{y_{y-1}}) \approx \frac{y_t - y_{t-1}}{y_{t-1}} $$

ファイナンスの分野では、変化率ではなく収益率騰落率という言葉が使われることが多い。 日足終値をベースとすれば、終値の対数を取り差分系列を計算することで日次収益率の系列が得られる。

基本統計量

一般的なデータ分析と同様に、時系列解析においても、最初に基本統計量を用いてデータの要約を行う。 最も基本的な統計量は、期待値(expectation)もしくは平均(mean)であり、 これは各時点の$y_t$が平均的にどれくらいの値を取るかを表すものである。$y_t$の期待値は$E(y_t)$と表記される。

期待値と平均値の違い

期待値は以下の式で計算され、$p_i$はあるデータが生じる確率、$x_i$はそのデータの値、$n$はサンプルサイズを表す。

$$ \sum_{k=i}^{n} p_i x_i $$

この式を言葉にすれば、期待値 とは「その値を取る確率 x その値」の合計 ということになる。

例として、トレードを行っていて、ある日の損益を予想する状況を考えてみる。 暴落が発生した場合は100万円の損失、発生しなかった場合は5万円の利益とすると、

$$ \begin{aligned} x_1&= -100 \cr x_2&= 5 \end{aligned} $$

となり、期待値を計算するには上記式より更にそれぞれの確率が必要なことが分かるので、それぞれの確率を

$$ \begin{aligned} p_1&= 0.05 \cr p_2&= 0.95 \end{aligned} $$

とすれば、

$$ (\frac{5}{100} \times -100) + (\frac{95}{100} \times 5) $$

で期待値は計算できる。それぞれに設定した値についてはさておき、考え方としては自然である。 一方、平均値は下記の式で表され、観測されたデータの平均というそのままの意味となる。

$$ \frac{1}{n}\sum_{k=i}^{n} x_i $$

ある日のトレード損益の平均を計算するには、ある日が複数あったとしてという無理やりな仮定を置かなければならず、 期待値も平均値も同じ値になるが、この例の場合、期待値を考える方が収まりが良いと言えるだろう。

分散

$y_t$が期待値から平均的にどの程度ばらつく可能性があるかを表す統計量の1つが分散(variance)である。 より正確には、$y_t$の分散は期待値を用いて$E(y_t - \mu_t)^2$で定義され、$Var(y_t)$と表記される。ここで、$μ_t = E(y_t)$である。 平均との差は、プラスとマイナスの両方があり得るため、2乗して双方が打ち消し合うことを避けている。

また、分散の平方根は標準偏差(standard deviation)と呼ばれ、 ファイナンスの分野では、この標準偏差のことをボラティリティ(volatility)と呼ぶことが多くある。 ボラティリティは、リスクを計測する重要な指標として用いられる。

ボラティリティ(Volatility)

ボラティリティは、価格変動の大きさを表す指標であり、その定義は様々だ。 収益率データの標準偏差として定義するのであれば、$n$個の収益率データ$ \lbrace r_1, r_2, …, r_n \rbrace $が得られている場合、以下となる。

$$ \sqrt{ \frac{1}{n-1} \sum_{i=1}^{n} \lparen r_i - \frac{1}{n} \sum_{j=1}^{n} r_j\rparen^2 } $$

この定義は、収益率のヒストリカルデータを用いているため、ヒストリカルボラティリティと呼ばれることもある。

共分散

共分散(covariance)は、二組の対応するデータの関係を表す値である。 平均からの偏差の積の平均値であり、2組の確率変数 $X$と$Y$の共分散$Cov(X, Y)$ は

$$Cov(X, Y) = E[(X - E[X])(Y-E[Y])]$$

で定義される。

共分散の意味と簡単な求め方 - 高校数学の美しい物語

共分散と相関係数の関係

相関係数(correlation coefficient)は、2つの確率変数の間にある線形な関係の強弱を測る指標である。

積和$(X - E[X])(Y-E[Y])$における確率変数 $X$と$Y$ は一般的に単位が異なるため、掛け合わせたものに数値以上の意味はない。 そこで、標準偏差で割って無名数にしてから、$\sum$ ${(\frac{(X - E[X]}{\sigma (X)})(\frac{(X - E[X]}{\sigma (X)})}$を考える。

この値はデータ数nの増加とともに値が増大していくので更にnで割ると

$$ p = \frac{1}{n}\sum{(\frac{(X - E[X]}{\sigma (X)})(\frac{(X - E[X]}{\sigma (X)})} $$

これを式変形すると相関係数の式となる。

$$ p = \frac{\frac{1}{n} \cdot \sum{(X - E[X])(Y-E[Y])} }{\sigma (X) \cdot \sigma (Y)} $$

そして、$\frac{1}{n} \cdot \sum{(X - E[X])(Y-E[Y])}$ と $E[(X - E[X])(Y-E[Y])]$ は同じであるから

$$ p = \frac{ Cov(X, Y) }{\sigma (X) \cdot \sigma (Y)} $$

時系列分析に特有の統計量

自己共分散

自己共分散(autoconvariance)は、同一の時系列データにおける異時点間の共分散である。具体的には、一次の自己共分散は

$$\gamma_{1t} = Cov(y_t,y_{t-1}) = E[(y_t - \mu_t)(y_{t-1} - \mu_{t-1}) ]$$

で定義される。ここで、$\mu_{t-1} = E(y_{t-1})$である。 自己共分散は、共分散を計算する2つの確率変数が同一の時系列データの要素であることを除いては、通常の共分散と何ら変わることはない。 したがって、自己共分散は共分散と同様に解釈することができる。

例えば、1次の自己共分散が正であれば、1時点離れたデータは期待値を基準として同じ方向に動く傾向があり、 逆に1次の自己共分散が負であれば、1時点離れたデータは期待値を基準として逆の方向に動く傾向がある。 また、1次の自己共分散が0であれば、そのような傾向は見られないということになる。

2次以降の自己共分散も同様に定義され、一般的に$k$次の自己共分散は

$$\gamma_{kt} = Cov(y_t,y_{t-k}) = E[(y_t - \mu_t)(y_{t-k} - \mu_{t-k}) ]$$

で定義される。ここで、$\mu_{t-k} = E(y_{t-k})$である。分散は0次の自己共分散はと考えることもできるだろう。

また、自己共分散を$ k $の関数として見たものは自己共分散関数と呼ばれる。

自己相関係数

自己共分散の1つの問題は共分散と同様に値が単位に依存してしまうことである。したがって、自己共分散の値によって、変数間の強弱を測ることはできない。

そこで値が単位に依存しないように自己共分散を基準化したものが自己相関係数(autocorrelation coeffient)である。

$$ \rho_{kt} = Corr(y_t, y_{t-k}) = \frac{Cov(y_t, y_{t-k})}{\sqrt{ Var(y_t) \cdot Var(y_{t-k}) }} = \frac{\gamma_{kt}}{ \sqrt{\gamma_{0t} \gamma_0, _{t-k}} }$$

自己相関係数は単に自己相関と言われることもある。定義より$ \rho_{0t} = 1 $であることは明らかであり、自己相関係数は相関係数の一種であるので、 $ k \ge 1$において$ \lvert \rho_{kt} \rvert \le 1 $も成立する。

自己相関係数を$k$の関数としてみたものは自己相関関数と呼ばれ、自己相関関数をグラフに描いたものはコレログラム(correlogram)よ呼ばれる。

時系列分析のアプローチ

時系列データ$(y_t)^T_{t=1}$をある確率変数列$(y_t)^\infty_{t=-\infty}$からの現実値とみなし、その確率変数列の生成過程に関して何かしらの性質や構造を仮定する。

このような確率変数列は確率過程(stochastic process)もしくはデータ生成過程(GDP; data generating process)と呼ばれ、 時系列分析では確率過程の構造を時系列モデルと呼ぶ。

定常性

様々な時系列モデルの根幹となるのが定常性(stationarity)という概念である。 定常性の仮定の下で基礎的な時系列モデルが構築され、それらのモデルを基にして非定常なモデルが構築されている。

定常性は、同時分布や基本統計量の時間普遍性に関するものであり、 何を不変とするかで弱定常性(weak stationarity)と強定常性(static stationarity)の2つに分類されるが、 ファイナンスの分野では、単に定常性というと、弱定常性を指すことが多い。

弱定常性

任意の$t$と$k$に対して、下記が成立する場合、過程は弱定常と言われる。 $$ E(y_t) = μ $$ $$ Cov(Y_t, Y_{t-k}) = E[(y_t - \mu)(y_{t-k} - \mu)] = \gamma_k$$

定常過程において自己共分散は時点に依存せずに時間差$k$にのみ依存する。 したがって、任意の$k$に対捨て、$\gamma_k = \gamma_{-k}$が成立する。また、弱定常のとき、自己相関は

$$ Corr(y_t, y_{t-k})= \frac{\gamma_{kt}}{\sqrt{\gamma_{0t}\gamma_{0t,t-k}}} = \frac{\gamma_k}{\gamma_0} = \rho_k $$

となり、自己相関も時点に依存しなくなる。さらに、$\rho_k = \rho_{-k} $が成立する。

強定常性

任意の$t$と$k$に対して、$(y_t, y_{t+1}, .... , y_{t+k})'$の同時分布が同一となる場合、過程は強定常性と言われる。ここで$y'$はベクトル$y$の転置を表す。

強定常性は弱定常性より強い概念であり、過程の分散が有限であるならば、強定常性過程は弱定常性となる。

弱定常性は、過程の自己相関構造、つまり異時点のデータ間の線形依存関係が時点$t$に依存せずに、時間差のみに依存することを必要とするのに対し、 強定常性過程は異時点のデータにおいて、線形依存構造だけでなく、すべての形の依存構造が時点$t$に依存せずに時間差のみに依存することを必要とする。

正規過程

一般的に、弱定常過程が強定常性過程であるとは限らないが、重要な例外として正規課程(Gaussian process)と呼ばれる過程がある。 正規課程は任意の$t$と$k$に対して、$(y_t, y_{t+1}, …. , y_{t+k})'$の同時分布が多変量正規分布となるような過程で定義される。

多変量正規分布は期待値と共分散によって完全決定されるので、弱定常正規過程は強定常となる。 つまり、正規課程に関しては、強定常と弱定常は同値である。

ホワイトノイズ

すべての時点$t$において下記が成立する時、$\epsilon_t$はホワイトノイズ(white noise)と呼ばれる。

$$ E(\epsilon_t) = 0 $$ $$ \gamma_k = E(\epsilon_t \epsilon_{t-k} ) = \begin{cases}\sigma^2, & k = 0 \\\\0, & k \neq 0 \end{cases} $$

ホワイトノイズは全ての時点において期待値が0で、かつ分散が一定であり、さらに自己相関を持たないこと必要とする。 これにより、ホワイトノイズは弱定常過程であることは明らかであり、様々な時系列モデルを構築する上で重要な構成要素となっている。

最も基礎的な弱定常過程は、ホワイトノイズを用いて以下のように表現できる。

$$ y_t = \mu + \epsilon_t, ~~ \epsilon_t \sim W.N.(\sigma^2) $$

このモデルは、$\mu$と$\sigma$の2つのパラメーターを持ち、それぞれ過程の期待値と標準偏差を表し、 このパラメーターの値を変更することで、異なる水準とばらつきを持つ系列を作成することができる。

自己相関の検定

時系列分析においても、最初に基本統計量を用いてデータの要約を行うが、その中でも重要なのが自己相関の検定である。 データが自己相関を持っているのであれば、その自己相関構造を記述できる時系列モデルを行使櫛、そのモデルを予測などに用いることができる。 逆にデータが自己相関を持っていないのであれば、時系列分析で出来ることは非常に限られてしまうので、 データが自己相関を持っているかどうかを判定することは重要となる。

自己相関の推定値を計算する

自己相関の検定を行なうためには、まず自己相関の推定値を計算する必要があり、定常性の仮定の下では期待値や自己相関などの基本統計量は 時点に依存しないので、データから対応する標本統計量を計算することで、自然な推定量を得ることができる。

$$ \bar{y} = \frac{1}{T}\sum _{t=1} ^{T} {y_t} $$ $$ \hat{\gamma}_k = \frac{1}{T}\sum _{t=1} ^{T} (y_t - \bar{y})(y _{t-k} - \bar{y}), \quad k = 0, 1, 2,... $$ $$ \hat{\rho}_k = \frac{\hat{\gamma}_k}{\hat{\gamma}_0}, \quad k = 1,2,3,... $$

それぞれ標本平均(sample mean)、標本自己共分散標本自己相関係数と呼ばれれる。

相場の最新記事

  1. 11月18日から11月29日

  2. 11月1日から11月15日

  3. 10月14日から10月31日

  4. 10月1日から10月11日

  5. 12月25日から12月29日

PAGE TOP