2005년 11월 24일 목요일

확률 통계(Probability and Statistics)

frequency(도수) : 각 값이 나타난 갯수의 합
relative frequency : frequency/(data size)
histograms : 도수별로 그린 막대그래프
cululative frequency plot = ogive : 누적도수분포그래프
stem and leaf plot : 각 구간별 숫자를 한번만 적고 작은 자릿수 수를 뒤에 길게 적음

Sample mean = weighted average : 평균
Sample Median : 중앙값, 짝수개이면 두 가운데 값의 평균
Sample Mode : 최빈값
Sample variance : 분산
Sample standard deviation : 표준편차
Sample Percentiles : 상위 100p%의 값. p=50이면 median

Chebyshev's inequality : mean과 variance를 가지고 그 범위에 들어있는 값들의 갯수를 추정할 수 있는 공식
scatter diagram : paired data (x,y)를 2차원상에 그림.
sample correlation coefficient : -1~1사이의 값.

조건부 확률(conditional probability)
Bayes' formular
Independent events
Random variable = procedual 프로그래밍 언어의 variable처럼 값이 바뀔 수 있다.;

. discrete random variable
  . Bernoulli random variable
    P(X = 0) = 1-p
    P(X = 1) = p

  . Binomial random variable
    Bernoulli에서 X가 여러개 => Xi
    P{X = i} = (n, k)(p^k)((1-p)^(n-k))
    n개에서 k개의 특정 구슬 중 i개를 고를 확률(
    고르고 구슬을 다시 집어넣지 않음.

  . Poisson random variable
    Binomial에서 n이 매우 크고 p가 매우 작을 때
    P{X = i} = (e ^ (-l))(l^i)/(i!)
    l = np

  . Hypergeometric random variable
    Binomial에서 n이 매우 클 때
    P(X = i) = (N, i)(M, n-i)/(N+M, n)
    n개에서 k개의 특정 구슬 중 i개를 고를 확률(replacement)
    고르고 구슬을 다시 집어넣음.

. continuous random variable
  . Uniform random variable
    a < x < b, f(x) = 1/(b-a)
  . Normal random variables
    f(x) = (1 / (sqrt(2pie)sigma))exp(-(x-mu)^2/(2sigma^2))

  . Exponential random varibles
    f(x) = lambda * exp(-lambda * x) if x > 0
         = 0 if x < 0
    memoryless property가 있음.
    P{X>s+t|X>t} = P{X>s} for all s,t >= 0

  . chi-square distribution(Xn ^ 2)
    Z = standard normal random variable
    Zi are independent.
    Xn ^ 2 = Z1 ^ 2 + Z2 ^ 2 + ... + Zn ^ 2 +
    n : degree of freedom

  . t-distribution
    Xn ^ 2 = chi-square distribution
    Tn = Z / sqrt((Xn ^ 2)/n)
    n : degree of freedom

  . F-distribution
    Xn ^ 2, Xm ^ 2 ard independent.
    Fn,m = (Xn^2/n)/(Xm^2/m)
    n,m : degree of freedom

. Central Limit Theorem
  . for n large,
    X1 + X2 + .. + Xn ~ N(n*mu, n*sigma^2)
    mu : mean
    sigma^2 : variance
    
. Maximum likelihood estimators
  . sample을 가지고 population의 값을 추정
  . 가장 확률이 높은 값을 그것으로 추정
  . 대게 sample mean을 population mean으로 둠.

. Confidence interval
  . 추정치의 분포(면적)가 95%, 99% 등의 범위내에 있는 구간.

. Hypothesis test

. regression
  . sample을 가지고 값의 관계를 fitting

댓글 없음:

댓글 쓰기