いろいろな分布(2章)

バイオインフォマティクス

バイオインフォマティクス

  • ベルヌーイ試行と二項分布:コイン投げ、サイコロ振り。pk = nCk p^k q^K-k, E(X) = kp, V(X) = Kpq, 母関数P(z) = (q + pz)^K (K:試行回数, p, q:2種の結果が起こる確率、q = 1-p)
  • 幾何分布:初めての成功が得られるまでベルヌーイ試行を繰り返すような状況に相当する分布。pk = q^k p, E(X) = q/p(←オッズ!), Var(X) = q/p^2, P(z) = p/(1-qz)
  • ポアソン分布:ある一定時間内のランダムな時刻に発生する事象の数を観察する実験をモデル化するために用いられる。一定時間内に起きる事象の例:ガイガー・カウンターの放射線検知数、緊急通話の回数、自動車事故の発生数など。二項分布において、λ=np(試行回数によらず発生回数が一定)、n→∞(試行回数を限りなく大きくする)を仮定して、確率を算出。P(X=k) = exp(-λ) λ^k/k!, E(X) = λ, Var(X) = λ, P(z) = exp[λ(z-1)] パラメータ1つ(平均値λ)で決定する。事象が単位時間あたり平均λ回発生する事象が単位時間中にちょうどk回起こる確率。
  • 多項分布:二項分布におけるベルヌーイ試行を一般化したもの
  • 超幾何分布:2種の属性1(M個)と0(N-M個)をもつ有限の集団から、非復元抽出でランダムに要素を得たときの属性1の数に対応する分布。P(X=k) = MCk×N-MCn-K/NCn
  • 正規分布中心極限定理有限の分散を持つ数多くの独立な確率変数の和は、近似的に正規分布に従う)長さ、重さ、面積などの観測誤差を表現する変数や、集団の個体を表現する多くのパラメータは、正規分布を用いてモデル化される。Kが大きいとき、二項分布は生起bんぷに収束する。正規分布に従う独立な変数の和はまた正規分布。f(x) = 1/σ√2π * exp[-1/2 (x-μ/σ)^2], E(X) = μ, V(X) = σ^2, F(ω) = exp(jμω-ω^2σ^2/2)
  • 指数分布:幾何分布の連続版。指数分布は、待ち時間、次に故障が発生るするまでの時間間隔、生存時間などのランダムな時間間隔をモデル化するためにしばしば用いられる。単位時間あたり平均λ回発生する事象の発生間隔がt単位時間である確率。確率密度関数は、f(t) = λ exp (-λt)。E(T) = 1/λ、V(T) = 1/λ^2、F(ω) = λ/(λ-jω) http://www.slideshare.net/teramonagi/ss-11296227 がわかりやすい。
  • ガンマ分布:ランダムなショックが何回か(k回)起ってはじめて故障する場合のモデル。事象が単位時間あたり平均λ回発生する事象がk回以上起こる確率。A gamma distribution is a general type of statistical distribution that is related to the beta distribution and arises naturally in processes for which the waiting times between Poisson distributed events are relevant. Gamma distributions have two free parameters, labeled α and θ, a few of which are illustrated above. http://www.tagen.tohoku.ac.jp/labo/ishijima/gamma-03.html がわかりやすい。ガンマ分布に従う確率変数Xのモーメントは、E(X) = kθ, Var(X) = kθ^2, F(ω) = 1/(1-jθω)^k
  • ベータ分布:[0, 1]で定義。f(x) = Γ(a+b)/Γ(a)Γ(b) x^a-1(1-x)^b-1 a>0, b>0。a>1, b>1ならグラフはベルが他、a<1, b<1ならU字型となる。E(X) = a/(a+b), Var(X) = ab/(a+b)^2(a+b+1)。