초이준철
물낌표
초이준철
전체 방문자
오늘
어제
  • 분류 전체보기 (67) N
    • 경험 (6)
    • 책으로 배우는 공부 (11) N
      • 통계 학습 (5) N
      • 데이터 책 (6)
    • SQL (37)
    • Python (6)
    • Tableau (7)
      • Tableau 기본 (2)
      • Tableau 빅스데이터 22여름 대학생 TWBX (5)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • MYSQL 집계함수
  • mysql concat
  • MYSQL desc
  • 물낌표
  • 데이터분석가
  • mysql set
  • TWBX 과제
  • 스터디 1일차
  • TWBX 대학생
  • Mysql ifnull
  • mysql 문자열 자르기
  • MYSQL insert
  • 통계101x데이터 분석
  • MYSQL CASE문
  • MYSQL group by
  • MYSQL 테이블 구조
  • 데이터리안
  • 데벨챌
  • mysql 문자열 연결
  • 새빨간 거짓말 통계

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
초이준철

?!

[통계101x데이터 분석] 5장 "가설검정 "
책으로 배우는 공부/통계 학습

[통계101x데이터 분석] 5장 "가설검정 "

2025. 7. 10. 15:25
목차
1. 가설검정
2. 제1종 오류
3. 제2종 오류

1. 가설검정이란?

  • 분석자가 세운 가설을 검증하기 위한 방법이고 가설검정에서는 p값(p-value)이라는 수치를 계산하여 가설을 지지하는지 기각할지 판단하는 것이다. * p-value 개념은 아래 설명
  • 확증적 자료분석
    • 미리 세운 가설을 검증하는 접근법
      • ex) “새로 송출한 광고가 상품 매출을 늘렸다”라는 가설을 세우고, 이를 검증함으로써 광고 효과 유무를 밝힐 수 있다.
  • 탐색적 자료분석
    • 가설을 미리 세우지 않고 전체 데이터를 탐색적으로 해석하는 접근법
  • 귀무가설
    • 밝히고자 하는 가설을 부정하는 명제
    • ex) 신약 테스트에 대한 A집단(실험군)과 B집단(대조군)의 결과는 같다. 즉, 신약의 효과가 없다.
  • 대립가설
    • 밝히고 싶은 가설
    • ex) 신약 테스트에 대한 A집단(실험군)과 B집단(대조군)이 다르다. 즉, 신약의 효과가 있다.
  • 귀무가설 / 대립가설 관계
    • 보통 귀무가설이 옳다면 대립가설이 틀린 것이고 귀무가설이 틀리다면 대립가설이 옳다는 관계이다.
  • p-value란?
    • 귀무가설이 옳다고 가정했을 때 관찰한 값 이상으로 극단적인 값이 나올 확률을 일컫는다.
p-value에 대한 추가적인 설명
1. 일반적으로 p값이 0.05 이하인 경우 귀무가설 하에서 현실 데이터는 나타나기 어렵다고 판단하고 귀무가설을 버리고(기각하고) 대립가설을 채택한다. 이때 발생하는 평균값의 차이를 “통계적으로 유의미한 차이가 있다.”라고 한다.
2. p값이 0.05를 상회하는 경우 귀무가설을 기각할 수 없으며 “통계적으로 유의미한 차이는 발견하지 못했다”라는 결과가 된다.
결과적으로 귀무가설을 기각할 것인지 채택할 것인지의 판단 경계로 이용하는 값을 유의 수준 a라고 한다.

3. 가설검정에는 p값을 계산하고 유의수준 α와 비교함으로써 대립가설을 지지할지, 그러지 않을지에 대해 판단을 내린다.
4. 판단에는 p<α로 귀무가설을 기각하고 대립가설을 채택하는 것과, p≥α로 귀무가설을 기각할 수 없는 것의 2가지가 있다.
* 유의수준(α)이란?
잘못된 결정을 허용할 수 있는 최대 확률이다. 쉽게 말해서 "귀무가설이 사실인데도 실수로 그것을 버릴 확률"을 미리 정해두는 것 


* 유의 수준(α) 예시
α = 0.05라면 "나는 5% 정도의 실수를 감수하고 귀무가설을 기각할 거야."라는 의미

 

2. 제1종 오류란?

  • 실제로는 아무런 차이가 없음에도 차이가 있다고 판단해 버리는 잘못을 말한다.
    • ex) 사실 약의 효과가 없는데도 있다고 주장하는 것
  • 그러나 우리는 진실을 직접 알 수 없기에 해석 결과가 제 1종 오류를 범했는지 아닌지 판단할 수 없다. 대신에 p값과 유의수준 α를 이용하여 제1종 오류가 일어날 확률을 통제할 수는 있다.
    • p값은 귀무가설이 옳다고 가정했을 때 실제로 얻은 데이터 이상으로 극단적인 값이 나타날 확률이다. 따라서 확보한 데이터가 귀무가설에서 얻은 것이라면 p<α 확률은 α가 된다. 이 때문에 α를 경계로 귀무가설을 기각하면 귀무가설이 옳은데도 착오로 귀무가설을 기각해 버리는 오류가 확률 α로 발생하게 된다. 
    • 즉, 유의수준 α의 값을 미리 정해 둠으로써 제1종 오류가 일어날 확률을 통제할 수 있는 것이다.
      • ex) 유의수준(α)를 0.05로 설정했다면, 오류가 일어날 확률을 5%까지만 허용하자는 걸 의미

3. 제2종 오류란?

  • 정말로 차이가 있는데도 차이가 있다고는 말할 수 없어, 귀무가설을 기각하지 않는 판단을 내리는 것을 의미한다.
    • ex) 사실 약의 효과가 있는데 효과가 있다고 말할 수 없다고 판단해 버리는 잘못
  • 제2종 오류가 일어나는 확률은 β로 나타내는데, 제 2종 오류가 일어나지 않은 확률이다. 즉, 정말로 차이가 있을 때 있다고 올바르게 판단할 확률을 검정력 1-β라고 한다. β는 α와 달리 직접 통제할 수 없다.
    • β는 표본크기가 커질수록 작아진다.
      • 왜냐하면, 표본의 크기가 커진다는 것은 데이터가 더 안정적이게 되고 실제 차이가 더 뚜렷하게 나타나기 때문이다.
      • β는 진짜 차이가 있는데도 못 알아볼 확률이라고 했다. 쉽게 말해 '표본이 커진다 → 실제 차이가 더 뚜렷하게 나타난다 → 못 알아 볼 확률이 작아진다'는 것이다.
저작자표시 (새창열림)
    '책으로 배우는 공부/통계 학습' 카테고리의 다른 글
    • [통계101x데이터 분석] 4장 "추론통계~신뢰구간"
    • [통계101x데이터 분석] 3장 "통계분석의 기초"
    • [통계학101x데이터 분석] 2장 "모집단과 표본"
    • [통계 101x데이터 분석] 1장 "통계학이란?"
    초이준철
    초이준철
    WNWA

    티스토리툴바