지난 포스팅에선 1 ~ 3 part 부분을 읽고 기록했어요.
이번주는 4 ~ 8 part 부분을 읽고 'part 8'에 나오는 이야기를 기록해보려 해요.
제 3의 요인과 상관관계
서울의 한 장로교 목사의 수입과 대구에 파는 맥주 가격 사이에는 높은 상관관계가 성립한다.
위와 같은 말을 들으면 어떤 생각이 드시나요?
책에서는 목사와 맥주 사이에는 제 3의 요인이 존재한다고 해요.
모든 물가나 가격 수준이 시간이 지남에 따라 상승한다는 요인을 받아 두 가지 모두가 상승한다고 해요.
결국, 목사와 맥주 사이에는 '시간이 지남에따라 상승하는 물가'란 제 3의 요인이 존재한다는 거죠.
책의 또 다른 예시를 살펴볼까요?
결혼식을 가장 많이하는 6월에 자살률이 최고로 증가한다.
이와 같은 이야기를 들었을 때 여러분들은 결혼식과 자살률이 상관관계가 있다고 생각하시나요?
"6월 결혼식에서 실연 당한 남자들을 자살로 몰고 가는 것이다." 라고 해석을 할 수도 있겠네요.
이는 사람에 따라 다양하게 해석될 수가 있습니다.
해석에 따라 상관관계가 있을 수도 없을 수가 있는 것이죠.
책에서는 이와 관련되어 경계해야 할 점을 알려줍니다.
상관관계를 뒷받침하는 데이터의 범위를 넘어서까지
그 상관관계가 지속해서 성립할 것이라고 추측하는 것
상관관계가 없을 것 같은 두 가지 요소 사이에 제 3의 요소가 존재한다면 이야기가 달라지겠지만,
전혀 논리성이 뒷받침 되지 않고 데이터의 범위를 넘어서 두 관계를 추측하는 것은 위험하다는 것이에요.
데이터와 관련된 일을 하는 사람들이라면, 질문을 던지고 가설을 세우는 과정은 중요해요.
하지만, 책에서 알려준 것처럼 논리성이 뒷받침되지 않고 과도한 추측은 위험하다는 것을 꼭 기억하셨으면 좋겠어요.
part 8의 제목이 왜 '통계도 논리다'인지 알 것 같네요.