Chapter 1 : R κΈ°μ΄μ λ°μ΄ν° λ§νΈ
Chapter 2 : ν΅κ³ λΆμ (λ€μ)
Chapter 3 : μ ν λ°μ΄ν° λ§μ΄λ (λ€μ)
ν΅κ³λΆμμ μ΄ν΄
• ν΅κ³
- νΉμ μ§λ¨μ λμμΌλ‘ μνν μ‘°μ¬λ μ€νμ ν΅ν΄ λμ¨ κ²°κ³Όμ λν μμ½λ ννμ νν
• ν΅κ³μλ£μ νλ λ°©λ²
- μ΄ μ‘°μ¬(census): λμ μ§λ¨ λͺ¨λλ₯Ό μ‘°μ¬νλ κ². λ§μ λΉμ©κ³Ό μκ°μ΄ μμλλ―λ‘ νΉλ³ν κ²½μ°λ₯Ό μ μΈνκ³ λ μ¬μ©λμ§ μλλ€.
- νλ³Έμ‘°μ¬:
· λͺ¨μ§λ¨: μ‘°μ¬νκ³ μ νλ λμ μ§λ¨ μ 체
· μμ: λͺ¨μ§λ¨μ ꡬμ±νλ κ°μ²΄
· νλ³Έ(sample): μ‘°μ¬νκΈ° μν΄ μΆμΆν λͺ¨μ§λ¨μμΌλΆ μμ
· λͺ¨μ: νλ³Έ κ΄μΈ‘μ μν΄ κ΅¬νκ³ μ νλ λͺ¨μ§λ¨μ λν μ 보
· λͺ¨μ§λ¨μ μ μ, νλ³Έμ ν¬κΈ°, μ‘°μ¬λ°©λ², μ‘°μ¬κΈ°κ°, νλ³ΈμΆμΆλ°©λ²μ μ νν λͺ μν΄μΌ νλ€.
- νλ³Έ μΆμΆ λ°©λ²μ λ°λΌ λΆμ κ²°κ³Ό ν΄μμ ν° μ°¨μ΄κ° λ°μνλ€.
1. λ¨μλλ€μΆμΆλ²(simple random sampling): κ° μνμ λ²νΈλ₯Ό λΆμ¬νμ¬ μμμ nκ°λ₯Ό μΆμΆνλ λ°©λ². κ° μνμ΄ μ νλ νλ₯ μ λμΌ
2. κ³ν΅μΆμΆλ²(systematic sampling): λ¨μλλ€μΆμΆλ²μ λ³νλ λ°©μμΌλ‘ λ²νΈλ₯Ό λΆμ¬ν μνμ λμ΄νμ¬ Kκ°μ© nκ°μ ꡬκ°μΌλ‘ λλκ³ μ²« ꡬκ°μμ νλλ₯Ό μμλ‘ μ νν νμ Kκ°μ© λμ΄μ νλ³Έμ μ ν. μμμ μμΉμμ 맀 kλ²μ§Έ νλͺ©μΆμΆ
3. μ§λ΅μΆμΆλ²(cluster random sampling): κ΅°μ§μ ꡬλΆνκ³ κ΅°μ§λ³λ‘ λ¨μλλ€μΆμΆλ²μ ν ν λͺ¨λ μλ£λ₯Ό νμ©νκ±°λ μνλ§νλ λ°©λ².
4. μΈ΅νμΆμΆλ²(stratified random sampling): μ΄μ§μ μΈ μμλ€λ‘ ꡬμ±λ λͺ¨μ§λ¨μμ κ° κ³μΈ΅μ κ³ λ£¨ λνν μ μλλ‘ νλ³Έμ μΆμΆνλ λ°©λ². μ μ¬ν μμλΌλ¦¬ λͺ κ°μ μΈ΅(stratum)μΌλ‘ λλμ΄ κ° μΈ΅μμ λλ€ μΆμΆνλ λ°©λ²
- μ€ν: νΉμ λͺ©μ νμμ λμμκ² μ²λ¦¬λ₯Ό κ°ν νμ κ·Έ κ²°κ³Όλ₯Ό κ΄μΈ‘ν΄ μλ£λ₯Ό μμ§νλ λ°©λ²
• μΈ‘μ (measurement)
- νλ³Έμ‘°μ¬λ μ€νμ μ€μνλ κ³Όμ μμ μΆμΆλ μμλ€μ΄λ μ€ν λ¨μλ‘λΆν° μ£Όμ΄μ§ λͺ©μ μ μ ν©νλλ‘ κ΄μΈ‘νμ¬ μλ£λ₯Ό μ»λ κ²
• ν΅κ³λΆμ
- νΉμ ν μ§λ¨μ΄λ λΆνμ€ν νμμ λμμΌλ‘ μλ£λ₯Ό μμ§ν΄ λμ μ§λ¨μ λν μ 보λ₯Ό ꡬνκ³ , μ μ ν ν΅κ³λΆμ λ°©λ²μ μ΄μ©ν΄ μμ¬κ²°μ μ νλ κ³Όμ μ΄λ€.
- κΈ°μ ν΅κ³(descriptive statistic): μ£Όμ΄μ§ μλ£λ‘λΆν° μ΄λ ν νλ¨μ΄λ μμΈ‘κ³Ό κ°μ μ£Όκ΄μ΄ μμΌ μ μλ κ³Όμ μ λ°°μ νμ¬ ν΅κ³ μ§λ¨λ€μ μ¬λ¬ νΉμ±μ μλννμ¬ κ°κ΄μ μΈ λ°μ΄ν°λ‘ λνλ΄λ ν΅κ³λΆμ λ°©λ²λ‘
- μΆμΈ‘ν΅κ³(inference statistic): μμ§λ μλ£λ₯Ό μ΄μ©ν΄ λμ μ§λ¨(λͺ¨μ§λ¨)μ λν μμ¬κ²°μ μ νλ κ²
· λͺ¨μμΆμ : νλ³ΈμΌλ‘λΆν° λͺ¨μ§λ¨μ νΉμ±μΈ λͺ¨μλ₯Ό λΆμνμ¬ λͺ¨μ§λ¨μ μΆλ‘ νλ€.
· κ°μ€κ²μ : λμ μ§λ¨μ λν΄ νΉμ κ°μ€μ μ€μ ν νμ κ·Έ κ°μ€μ΄ μ³μμ§ κ·Έλ₯Έμ§μ λν μ±νμ¬λΆλ₯Ό κ²°μ νλ λ°©λ²
· μμΈ‘: λ―Έλμ λΆνμ€μ±μ ν΄κ²°ν΄ ν¨μ¨μ μΈ μμ¬κ²°μ μ μν΄ μν
• νλ₯ λ° νλ₯ λΆν¬
1. νλ₯
- νΉμ μ¬κ±΄μ΄ μΌμ΄λ κ°λ₯μ±μ μ²λ
· ν본곡κ°: μ΄λ€ μ€νμ μ€μν λ λνλ μ μλ λͺ¨λ κ²°κ³Όλ€μ μ§ν©
· μ¬κ±΄: κ΄μ°°μκ° κ΄μ¬μ΄ μλ μ¬κ±΄. ν본곡κ°μ λΆλΆμ§ν©
· μμ: λνλ μ μλ κ°κ°μ κ²°κ³Όλ€
2. νλ₯ λ³μ
- νΉμ κ°μ΄ λνλ κ°λ₯μ±μ΄ νλ₯ μ μΌλ‘ μ£Όμ΄μ§λ λ³μ
- μ μμμ΄ ν본곡κ°, μΉμμ΄ μ€μκ°μΈ ν¨μ
- 0μ΄ μλ νλ₯ μ κ°μ§λ μ€μκ°μ ννμ λ°λΌ μ΄μ°ν νλ₯ λ³μμ μ°μν νλ₯ λ³μλ‘ κ΅¬λΆ
3. μ΄μ°ν νλ₯ λ³μ(discrete random variable)
- 0μ΄ μλ νλ₯ κ°μ κ°μ§λ λ³μκ° μ
μ μλ κ²½μ°(νλ₯ μ§λν¨μ)
· λ² λ₯΄λμ΄ νλ₯ λΆν¬(Bernoulli distribution): κ²°κ³Όκ° 2κ°λ§ λμ€λ κ²½μ°
· μ΄νλΆν¬(Binomial distribution): λ² λ₯΄λμ΄ μνμ nλ² λ°λ³΅νμ λ kλ² μ±κ³΅ν νλ₯
- μ±κ³΅ν νλ₯ pκ° 0μ΄λ 1μ κ°κΉμ§ μκ³ nμ΄ μΆ©λΆν ν¬λ©΄ μ΄νλΆν¬λ μ κ·λΆν¬μ κ°κΉμμ§λ€.
- μ±κ³΅ν νλ₯ pκ° 0.5μ κ°κΉμ°λ©΄ μ’
λͺ¨μ
· κΈ°νλΆν¬(Geometric distribution): μ±κ³΅ νλ₯ μ΄ pμΈ λ² λ₯΄λμ΄ μνμμ 첫 μ±κ³΅μ΄ μκΈ°κΉμ§ xλ² μ€ν¨ν νλ₯
· λ€νλΆν¬(Multi-nomial distribution): μ΄νλΆν¬λ₯Ό νμ₯ν κ²μΌλ‘ μΈ κ°μ§ μ΄μμ κ²°κ³Όλ₯Ό κ°μ§λ λ°λ³΅ μνμμ λ°μνλ νλ₯ λΆν¬
· ν¬μμ‘λΆν¬(Poisson distribution): μκ°κ³Ό κ³΅κ° λ΄μμ λ°μνλ μ¬κ±΄μ λ°μνμμ λν νλ₯ λΆν¬
4. μ°μν νλ₯ λ³μ
- κ°λ₯ν κ°μ΄ μ€μμ μ΄λ νΉμ κ΅¬κ° μ 체μ ν΄λΉνλ νλ₯ λ³μ(νλ₯ λ°λν¨μ)
· κ· μΌλΆν¬(uniform distribution): λͺ¨λ νλ₯ λ³μ Xκ° κ· μΌν νλ₯ μ κ°μ§λ νλ₯ λΆν¬
· μ κ·λΆν¬(normal distribution): νκ· μ΄ μ μ΄κ³ νμ€νΈμ°¨κ° σ μΈ xμ νλ₯ λ°λν¨μ
· νμ€μ κ·λΆν¬: νκ· μ΄ 0μ΄κ³ νμ€νΈμ°¨κ° 1μΈ μ κ·λΆν¬
· t-λΆν¬: λ μ§λ¨μ νκ· μ΄ λμΌνμ§ μκ³ μ ν λ νμ©νλ κ²μ ν΅κ³λ. μ κ·λΆν¬λ³΄λ€ λ νΌμ Έμκ³ μμ λκ° μ»€μ§μλ‘ μ κ·λΆν¬μ κ°κΉμμ§λλ€.
· χ2 λΆν¬(chi-square distribution): λͺ¨νκ· κ³Ό λͺ¨λΆμ°μ΄ μλ €μ§μ§ μμ λͺ¨μ§λ¨μ λͺ¨λΆμ°μ λν κ°μ€ κ²μ μ μ¬μ©λλ λΆν¬. λ μ§λ¨ κ°μ λμ§μ± κ²μ μ νμ©λλ€. λ²μ£Όν μλ£μ λν΄ μ»μ΄μ§ κ΄μΈ‘κ°κ³Ό κΈ°λκ°μ μ°¨μ΄λ₯Ό 보λ μ ν©μ± κ²μ μ νμ©. μμ λκ° μμ λλ μΌμͺ½μ μΉμ°μ³ μμ§λ§ μμ λκ° μ»€μ§μλ‘ μ κ·λΆν¬ννκ° λ©λλ€.
· F-λΆν¬: λ μ§λ¨κ° λΆμ°μ λμΌμ± κ²μ μ μ¬μ©λλ κ²μ ν΅κ³λμ λΆν¬. μ κ·λΆν¬ ννμ λΉμ·νλ μ€λ₯Έμͺ½ κΌ¬λ¦¬κ° κΈ΄ λͺ¨μ. λ κ°μ μμ λκ° μ¦κ°ν μλ‘ μ κ·λΆν¬μ κ°κΉμμ§λλ€.
• μΆμ κ³Ό κ°μ€κ²μ
1. νλ₯ νλ³Έ(random sample)
- νλ₯ λΆν¬λ λΆν¬λ₯Ό κ²°μ νλ νκ· , λΆμ° λ±μ λͺ¨μ(parameter)λ₯Ό κ°μ§κ³ μλ€.
- νΉμ ν νλ₯ λΆν¬λ‘λΆν° λ 립μ μΌλ‘ λ°λ³΅ν΄ νλ³Έμ μΆμΆνλ κ²μ΄λ€.
- κ° κ΄μ°°κ°λ€μ μλ‘ λ 립μ μ΄λ©° λμΌν λΆν¬
· μΆμ (estimation): νλ³ΈμΌλ‘λΆν° λ―Έμ§μ λͺ¨μλ₯Ό μΆμΈ‘νλ κ²μ΄λ€.
· μ μΆμ : "λͺ¨μκ° νΉμ ν κ°μΌ κ²"μ΄λΌκ³ μΆμ νλ κ²μ΄λ€. νλ³Έμ νκ· , μ€μμ, μ΅λΉκ° λ±μ μ¬μ©νλ€.
- μ μΆμ λμ 쑰건:
β λΆνΈμ±(unbiasedness): λͺ¨λ κ°λ₯ν νλ³Έμμ μ»μ μΆμ λμ κΈ°λκ°μ΄λ€.
β‘ ν¨μ¨μ±(efficiency): μΆμ λμ λΆμ°μ΄ μμμλ‘ μ’λ€.
β’ μΌμΉμ±(consistency): νλ³Έμ ν¬κΈ°κ° μμ£Ό 컀μ§λ©΄, μΆμ κ°μ΄ λͺ¨μμ κ±°μ κ°μμ§λ€.
β£ μΆ©μ‘±μ±(sufficient): μΆμ λμ λͺ¨μμ λνμ¬ λͺ¨λ μ 보λ₯Ό μ 곡νλ€.
· ꡬκ°μΆμ : μ μΆμ μ μ νμ±μ 보μνκΈ° μν΄ νλ₯ λ‘ ννλ λ―Ώμμ μ λ νμμ λͺ¨μκ° νΉμ ν ꡬκ°μ μμ κ²μ΄λΌκ³ μ μΈνλ κ².
- νμ μΆμ λμ λΆν¬μ λν μ μ κ° μ£Όμ΄μ ΈμΌ νκ³ , ꡬν΄μ§ κ΅¬κ° μμ λͺ¨μκ° μμ κ°λ₯μ±μ ν¬κΈ°(μ λ’°μμ€)κ° μ£Όμ΄μ ΈμΌ ν¨
· κ°μ€κ²μ : λͺ¨μ§λ¨μ λν μ΄λ€ κ°μ€μ μ€μ ν λ€μ νλ³Έκ΄μ°°μ ν΅ν΄ κ·Έ κ°μ€μ μ±νμ¬λΆλ₯Ό κ²°μ νλ λΆμλ°©λ²
- νλ³Έ κ΄μ°° λλ μ€νμ ν΅ν΄ κ·λ¬΄κ°μ€κ³Ό λ립κ°μ€ μ€μμ νλλ₯Ό μ ννλ κ³Όμ μ΄λ€.
- κ·λ¬΄κ°μ€μ΄ μ³λ€λ μ μ νμ κ²μ ν΅κ³λ κ°μ ꡬν νμ μ΄ κ°μ΄ λνλ κ°λ₯μ±μ ν¬κΈ°μ μν΄ κ·λ¬΄κ°μ€μ μ±ν μ¬λΆλ₯Ό κ²°μ νλ€.
- κ·λ¬΄κ°μ€(null hypothesis, H0 ): "λΉκ΅νλ κ°κ³Ό μ°¨μ΄κ° μλ€"λ₯Ό κΈ°λ³Έ κ°λ μΌλ‘ νλ κ°μ€
- λ립κ°μ€(alternative hypothesis, H1 ): λλ ·ν μ¦κ±°κ° μμ λ μ£Όμ₯νλ κ°μ€
- κ²μ ν΅κ³λ(test statistic): κ΄μ°°λ νλ³ΈμΌλ‘λΆν° ꡬνλ ν΅κ³λ. κ²μ μ κ°μ€μ μ§μλ₯Ό νλ¨νλ κΈ°μ€
- μ μμμ€(significance level): κ·λ¬΄κ°μ€μ κΈ°κ°νκ² λλ νλ₯ μ ν¬κΈ°λ‘ "κ·λ¬΄κ°μ€μ΄ μ³μλ°λ μ΄λ₯Ό κΈ°κ°νλ νλ₯ μ ν¬κΈ°"
- κΈ°κ°μ(critical region): κ·λ¬΄κ°μ€μ΄ μ³λ€λ μ μ νμμ ꡬν κ²μ ν΅κ³λμ λΆν¬μμ νλ₯ μ΄ μ μμμ€μΈ λΆλΆ
- μ 1μ’ μ€λ₯(type 1 error): κ·λ¬΄κ°μ€μ΄ μ³μλ°λ κ·λ¬΄κ°μ€μ κΈ°κ°νκ² λλ μ€λ₯
- μ 2μ’ μ€λ₯(type 2 error): κ·λ¬΄κ°μ€μ΄ μ³μ§ μμ λ°λ κ·λ¬΄κ°μ€μ μ±ννκ² λλ μ€λ₯
- λ κ°μ§ μ€λ₯λ μλ‘ μμΆ©κ΄κ³κ° μμ΄μ μΌλ°μ μΌλ‘ κ°μ€κ²μ μμλ μ 1μ’ μ€λ₯μ ν¬κΈ°λ₯Ό 0.1, 0.05, 0.01 λ±μΌλ‘ κ³ μ μν¨ λ€ μ 2μ’ μ€λ₯κ° μ΅μκ° λλλ‘ κΈ°κ°μμ μ€μ
• λΉλͺ¨μ κ²μ
- ν΅κ³μ κ²μ μμ λͺ¨μ§λ¨μ λͺ¨μμ λν κ²μ μ λͺ¨μμ κ²μ κ³Ό λΉλͺ¨μμ κ²μ μΌλ‘ ꡬλΆνλ€.
- λͺ¨μμ λ°©λ²(parametic method): κ²μ νκ³ μ νλ λͺ¨μ§λ¨μ λΆν¬μ λν κ°μ μ νκ³ , κ·Έ κ°μ νμμ κ²μ ν΅κ³λκ³Ό κ²μ ν΅κ³λμ λΆν¬λ₯Ό μ λν΄ κ²μ μ μ€μνλ λ°©λ²μ΄λ€.
· κ°μ€μ μ€μ : κ°μ λ λΆν¬μ λͺ¨μμ λν΄ κ°μ€μ μ€μ νλ€.
· κ²μ λ°©λ²: κ΄μΈ‘λ μλ£λ₯Ό μ΄μ©ν΄ ꡬν νλ³Ένκ· , νλ³ΈλΆμ° λ±μ μ΄μ©ν΄ κ²μ μ μ€μνλ€.
- λΉλͺ¨μμ λ°©λ²(non-parametic method): μλ£κ° μΆμΆλ λͺ¨μ§λ¨μ λΆν¬μ λν μ무 μ μ½μ κ°νμ§ μκ³ κ²μ μ μ€μνλ κ²μ λ°©λ²μ΄λ€. κ΄μΈ‘λ μλ£κ° νΉμ λΆν¬λ₯Ό λ°λ₯Έλ€κ³ κ°μ ν μ μλ κ²½μ°μ μ΄μ©νλ€. κ΄μΈ‘λ μλ£μ μκ° λ§μ§ μκ±°λ μλ£κ° κ°μ²΄ κ°μ μμ΄ κ΄κ³λ₯Ό λνλ΄λ κ²½μ°μ μ΄μ©νλ€.
· κ°μ€μ μ€μ : κ°μ λ λΆν¬κ° μμΌλ―λ‘ κ°μ€μ λ¨μ§ "λΆν¬μ ννκ° λμΌνλ€" λλ "λΆν¬μ ννκ° λμΌνμ§ μλ€"μ κ°μ΄ λΆν¬μ ννμ λν΄ μ€μ νλ€.
· κ²μ λ°©λ²: κ΄μΈ‘κ°μ μ λμ μΈ ν¬κΈ°μ μμ‘΄νμ§ μλ κ΄μΈ‘κ°λ€μ μμ(rank)λ λ κ΄μΈ‘κ° μ°¨μ΄μ λΆνΈ λ±μ μ΄μ©ν΄ κ²μ νλ€.
κΈ°μ΄ ν΅κ³λΆμ
• κΈ°μ ν΅κ³(Descriptive statistics)
- μλ£μ νΉμ±μ ν, κ·Έλ¦Ό, ν΅κ³λ λ±μ μ¬μ©νμ¬ μ½κ² νμ ν μ μλλ‘ μ 리/μμ½νλ κ²μ΄λ€.
- μλ£λ₯Ό μμ½νλ κΈ°μ΄μ ν΅κ³λ₯Ό μλ―Ένλ€.
- λ°μ΄ν° λΆμμ μμ λ°μ΄ν°μ λλ΅μ μΈ ν΅κ³μ μμΉλ₯Ό κ³μ°ν΄λ΄μΌλ‘μ¨ λ°μ΄ν°μ λν λλ΅μ μΈ μ΄ν΄μ μμΌλ‘ λΆμμ λν ν΅μ°°λ ₯μ μ»κΈ°μ μ 리νλ€
· μ€μ¬μμΉμ μΈ‘λ: νλ³Ένκ· , μ€μκ°
· μ°ν¬μ μΈ‘λ: λΆμ°, νμ€νΈμ°¨, μ¬λΆμμλ²μ
· μλ: λΆν¬μ λΉλμΉμ λλ₯Ό λνλ΄λ μΈ‘λ
· 첨λ: λΆν¬μ μ€μ¬μμ λΎ°μ‘±ν μ λλ₯Ό λνλ΄λ μΈ‘λ
· νμ€ν κ·Έλ¨: νλ‘ λμ΄μλ λμ λΆν¬λ₯Ό μ 보 κ·Έλ¦ΌμΌλ‘ λνλΈ κ². μ°μνμΌλ‘ νμλ λ°μ΄ν°λ₯Ό νννλ©° μμλ‘ μμλ₯Ό λ°κΏ μ μκ³ λ§λμ κ°κ²©μ΄ μλ€.
· λ§λκ·Έλν: λ²μ£ΌνμΌλ‘ ꡬλΆλ λ°μ΄ν°λ₯Ό νννλ©° λ²μ£Όμ μμλ₯Ό μλμ λ°λΌ λ°κΏ μ μλ€.
· μμκ·Έλ¦Ό: λ€μ― μ«μ μμ½μ ν΅ν΄ κ·Έλ¦ΌμΌλ‘ νν(μ΅μκ°, Q1, Q2, Q3, μ΅λκ°)
• μΈκ³Όκ΄κ³μ μ΄ν΄
· μ’ μλ³μ(dependent variable, y): λ€λ₯Έ λ³μμ μν₯μ λ°λ λ³μ
· λ 립λ³μ(independent variable, x): μν₯μ μ£Όλ λ³μ
· μ°μ λ(scatter plot): μ’ννλ©΄ μμ μ λ€λ‘ νν
- λ λ³μ μ¬μ΄μ μ νκ΄κ³κ° μ±λ¦½νλκ°?
- λ λ³μ μ¬μ΄μ ν¨μκ΄κ³κ° μ±λ¦½νλκ°?
- μ΄μκ°μ΄ μ‘΄μ¬νλκ°?
- λͺ κ°μ μ§λ¨μΌλ‘ ꡬλΆλλκ°?
• 곡λΆμ° (Covariance)
- λ νλ₯ λ³μ X, Yμ λ°©ν₯μ μ‘°ν©(μ νμ±)μ΄λ€.
- X, Yκ° μλ‘ λ 립μ΄λ©΄ 곡λΆμ°μ 0μ΄λ€.
• μκ΄κ΄κ³(Correlation) λΆμ
- λ°μ΄ν° μμ λ λ³μ κ°μ κ΄κ³λ₯Ό μμ보기 μν λΆμλ°©λ²
- μκ΄κ³μκ° 1μ κ°κΉμΈμλ‘ λ°μ΄ν°κ° κ°ν μμ μκ΄κ΄κ³λ₯Ό κ°μ§λ€.
- μκ΄κ³μκ° -1μ κ°κΉμΈμλ‘ λ°μ΄ν°κ° κ°ν μμ μκ΄κ΄κ³λ₯Ό κ°μ§λ€.
- μκ΄κ³μκ° 0μΈ κ²½μ° λ°μ΄ν° κ°μ μκ΄κ΄κ³κ° μλ€.
· νΌμ΄μ¨ μκ΄κ³μ: λ±κ°μ²λ μ΄μμΌλ‘ μΈ‘μ λ λ λ³μλ€μ μκ΄κ΄κ³ μΈ‘μ λ°©μ. μ°μν λ³μ, μ κ·μ± κ°μ . λλΆλΆ λ§μ΄ μ¬μ©
· μ€νΌμ΄λ§ μκ΄κ³μ: μμ΄μ²λμΈ λ λ³μλ€μ μκ΄κ΄κ³ μΈ‘μ λ°©μ. μμν λ³μ, λΉλͺ¨μμ λ°©λ². μμλ₯Ό κΈ°μ€μΌλ‘ μκ΄κ΄κ³ μΈ‘μ
νκ· λΆμ
• νκ·λΆμμ κ°μ
- ν κ° λλ κ·Έ μ΄μμ λ
립λ³μλ€μ΄ μ’
μλ³μμ λ―ΈμΉλ μν₯μ μΆμ ν μ μλ ν΅κ³κΈ°λ²
- λ³μλ€ μ¬μ΄μ μΈκ³Όκ΄κ³λ₯Ό λ°νκ³ λͺ¨νμ μ ν©νμ¬ κ΄μ¬μλ λ³μλ₯Ό μμΈ‘νκ±°λ μΆλ‘ νκΈ° μν λΆμλ°©λ²
· νκ· λͺ¨νμ΄ ν΅κ³μ μΌλ‘ μ μλ―Ένκ°?
- F ν΅κ³λμ νμΈνλ€. μ μμμ€ 5% νμμ F ν΅κ³λμ p-κ°μ΄ 0.05λ³΄λ€ μμΌλ©΄ μΆμ λ νκ·μμ ν΅κ³μ μΌλ‘ μ μνλ€κ³ λ³Ό μ μλ€.
· νκ· κ³μλ€μ΄ μ μλ―Ένκ°?
- ν΄λΉ κ³μμ t ν΅κ³λκ³Ό p-κ° λλ μ΄λ€μ μ 뒰ꡬκ°μ νμΈνλ€.
· λͺ¨λΈμ΄ μΌλ§λ μ€λͺ
λ ₯μ κ°μ§λκ°?
- κ²°μ κ³μλ₯Ό νμΈνλ€. κ²°μ κ³μλ 0~1 κ°μ κ°μ§λ©°, λμ κ°μ κ°μ§μλ‘ μΆμ λ νκ·μμ μ€λͺ
λ ₯μ΄ λλ€.
· λͺ¨νμ΄ λ°μ΄ν°λ₯Ό μ μ ν©νκ³ μλκ°?
- μμ°¨λ₯Ό κ·Έλνλ‘ κ·Έλ¦¬κ³ νκ·μ§λ¨μ νλ€.
• νκ·λΆμμ κ²μ
· νκ· κ³μμ κ²μ : νκ·κ³μκ° 0μ΄λ©΄ μ
λ ₯λ³μ xμ μΆλ ₯λ³μ y μ¬μ΄μλ μλ¬΄λ° κ΄κ³κ° μλ€.
· κ²°μ κ³μ(R^2): κ²°μ κ³μλ μ 체 μ κ³±ν©μμ νκ· μ κ³±ν©μ λΉμ¨. μ¦, R^2 = SSR / SST
- μ 체 λ°μ΄ν°λ₯Ό νκ· λͺ¨νμ΄ μ€λͺ
ν μ μλ μμ΄λ€. κ²°μ κ³μλ 1μ κ°κΉμΈμλ‘ νκ·λͺ¨νμ΄ μ 체 λ°μ΄ν°λ₯Ό μ μ€λͺ
ν¨μ μλ―Ένλ€.
• νκ·μ§μ μ μ ν©λ κ²ν
· κ²°μ κ³μλ₯Ό ν΅ν΄ μΆμ λ νκ·μμ΄ μΌλ§λ νλΉνμ§ κ²ν
· F ν΅κ³λ κ°μ΄ ν¬λ©΄ κ·λ¬΄κ°μ€μ κΈ°κ°νλ€. μ¦, λͺ¨νμ΄ μ μνλ€κ³ κ²°λ‘ .
• μ ννκ·λΆμ
· μ ννκ·λΆμμ κ°μ
β μ νμ±: μ λ ₯λ³μμ μΆλ ₯λ³μμ κ΄κ³κ° μ ν
β‘ λ±λΆμ°μ±: μ€μ°¨μ λΆμ°μ΄ μ λ ₯λ³μμ 무κ΄νκ² μΌμ νλ€.
β’ λ 립μ±: λ 립 λ³μμ μμ°¨λ κ΄λ ¨μ΄ μλ€.
β£ λΉμκ΄μ±: μ€μ°¨λ€λΌλ¦¬ μκ΄μ΄ μλ€.
β€ μ μμ±(μ κ·μ±): μ€μ°¨μ λΆν¬κ° μ κ·λΆν¬
• λ€μ€μ ννκ·λΆμ
· λͺ¨νμ΄ ν΅κ³μ μΌλ‘ μ μλ―Ένκ°?
- F ν΅κ³λμΌλ‘ νμΈ
· νκ· κ³μλ€μ΄ μ μλ―Ένκ°?
- t ν΅κ³λμΌλ‘ νμΈ
· λͺ¨νμ΄ μΌλ§λ μ€λͺ
λ ₯μ κ°μ§λκ°?
- κ²°μ κ³μλ‘ νμΈ
· λͺ¨νμ΄ λ°μ΄ν°λ₯Ό μ μ ν©νκ³ μλκ°?
- μμ°¨μ μ’
μλ³μμ μ°μ λλ‘ νμΈ
· λ°μ΄ν°κ° μ μ κ°μ μ λ§μ‘±μν€λκ°?
- μ νμ±, λ
립μ±, λ±λΆμ°μ±, λΉμκ΄μ±, μ μμ±
· λ€μ€κ³΅μ μ±(multi-colinearity)
- λ€μ€μ ννκ·λΆμμμ μ€λͺ
λ³μλ€ μ¬μ΄μ μ νκ΄κ³κ° μ‘΄μ¬νλ©΄ νκ·κ³μμ μ νν μΆμ μ΄ κ³€λ
- λ€μ€κ³΅μ μ± κ²μ¬λ°©λ²
1. λΆμ°ν½μ°½μμΈ(VIF): 10λ³΄λ€ ν¬λ©΄ μ¬κ°ν λ¬Έμ
2. μνμ§μ: 10 μ΄μμ΄λ©΄ λ¬Έμ κ° μλ€κ³ λ³΄κ³ 30 λ³΄λ€ ν¬λ©΄ μ¬κ°
- λ€μ€κ³΅μ μ± ν΄κ²°λ°©μ: μ νκ΄κ³κ° κ°ν λ³μ μ κ±°, μ£Όμ±λΆ νκ·, λ₯ν νκ·
• μ΅μ νκ·λ°©μ μμ μ ν
· μ€λͺ
λ³μ μ ν
- λ°μ΄ν°μ μ€λͺ
λ³μμ μκ° λ§μμ§λ©΄ κ΄λ¦¬νλλ° λ§μ λ
Έλ ₯μ΄ μꡬλλ―λ‘, κ°λ₯ν λ²μ λ΄μμ μ μ μμ μ€λͺ
λ³μλ₯Ό ν¬ν¨
· λͺ¨νμ ν
- λΆμ λ°μ΄ν°μ κ°μ₯ μ λ§λ λͺ¨νμ μ°Ύμλ΄λ λ°©λ²
- λͺ¨λ κ°λ₯ν λ
립λ³μλ€μ μ‘°ν©μ λν νκ·λͺ¨νμ λΆμν΄ κ°μ₯ μ ν©ν νκ·λͺ¨νμ μ ν
· λ¨κ³μ λ³μμ ν(Stepwise variable selection)
- μ μ§μ νλ²(forward selection): μ νΈλ§ μλ μμλͺ¨νμΌλ‘λΆν° μμν΄ μ€μνλ€κ³ μκ°λλ μ€λͺ λ³μλΆν° μ°¨λ‘λ‘ λͺ¨νμ μΆκ°νλ€.
- μ μ§μ νλ²μ μ΄ν΄νκΈ° μ½κ³ λ³μμ κ°μκ° λ§μ κ²½μ°μλ μ¬μ© κ°λ₯ν©λλ€. νμ§λ§ λ³μκ°μ μμ λ³λμλ κ·Έ κ²°κ³Όκ° ν¬κ² λ¬λΌμ Έ μμ μ±μ΄ λΆμ‘±ν λ¨μ
- νμ§μ κ±°λ²(backward elimination): λ 립λ³μ ν보 λͺ¨λλ₯Ό ν¬ν¨ν λͺ¨νμμ μΆλ°ν΄ κ°μ₯ μ μ μν₯μ μ£Όλ λ³μλΆν° νλμ© μ κ±°νλ©΄μ λ μ΄μ μ κ±°ν λ³μκ° μμ λμ λͺ¨νμ μ ν
- νμ§μ κ±°λ²μ μ 체 λ³μλ€μ μ 보λ₯Ό μ΄μ©νλ μ₯μ μ΄ μλ λ°λ©΄ λ³μμ κ°μκ° λ§μ κ²½μ° μ¬μ©νκΈ° μ΄λ €μ
- λ¨κ³λ³ λ°©λ²(stepwise method): μ μ§μ νλ²μ μν΄ λ³μλ₯Ό μΆκ°νλ©΄μ μλ‘κ² μΆκ°λ λ³μμ κΈ°μΈν΄ κΈ°μ‘΄ λ³μμ μ€μλκ° μ½νλλ©΄ ν΄λΉ λ³μλ₯Ό μ κ±°νλ λ± λ¨κ³λ³λ‘ μΆκ° λλ μ κ±°λλ λ³μμ μ¬λΆλ₯Ό κ²ν ν΄ λ μ΄μ μμ λ μ€λ¨
· λ²μ νλ μ νκΈ°μ€
- λͺ¨νμ 볡μ‘λμ λ²μ μ μ£Όλ λ°©λ²
- λͺ¨λ ν보 λͺ¨νλ€μ λν΄ AIC(Akaike information criterion) λλ BIC(Bayesian information criterion)λ₯Ό κ³μ°νκ³ κ·Έ μ€ μ΅μκ° λλ λͺ¨νμ μ ννλ€.
- AICλ₯Ό νμ©νλ λ°©λ²μ΄ 보νΈνλ λ°©λ²