본문 바로가기

Data Science

p-value에 대한 짤막한 지식 정리

  • p-value 란 ?
    • 귀무 가설(연구에서 검증하려는 가설)이 맞다는 전제하에 내가 구한 통계값이 얼마나 자주 나올 것인가?
    • 추출한 데이터의 평균이 원래의 전체 데이터 평균과 얼마나 다른 값인지를 알 수 있는 방법
  • p-value가 필요한 이유
    • 모집단을 통해 검정을 하는게 아니라 sampling 된 데이터를 바탕으로 가설 검정을 하기 때문에 필요하다. 아무리 무작위 추출을 잘 한다 하더라도 추출된 데이터의 평균은 전체 데이터의 평균에서 멀어질 수 있다.
  • p-value = 0.05 이 나왔다. 어떻게 해석할 수 있을까?
    • 100번의 실험을 했을 때 95번의 실험이 연구자의 가설대로 재현이 되었고 5번의 예외적 경우가 있었다.
  • AB Test를 수행했는데 그 결과의 p-value 가 높았다. 어떻게 하면 좋을까?
    • 우선 실험 기간이 충분하지 않았을 수도 있음으로 AB Test 기간을 늘려봅니다.
    • 실험 기간을 충분히 가져갔음에도 p-value 값이 높았다면 우연히 발생했을 확률이 높은 것이다.