목차
1. 데이터를 요약하는 것
2. 대상을 설명하는 것
3. 새로 얻을 데이터를 예측하는 것
4. 추가로 학습한 것 (간략하게)
1. 데이터를 요약하는 것
아무런 처리도 없는 데이터 원자료 [1.2, 2.1, 2.1, 0.8, 2.4, 0.9, 0.7]를 보고 우리는 쉽게 판단할 수 없다. 따라서 데이터를 요약하고 정리할 방법이 필요하고 대표적인 방법이 평균값 계산이다.
데이터 원자료만 봤을 때
[1.2, 2.1, 2.1, 0.8, 2.4, 0.9, 0.7] 이게 뭐야?
평균값 계산을 통해 봤을 때
해당 데이터 원자료의 평균이 1.7이구나!
2. 대상을 설명하는 것
대상이 가진 성질과 관계성을 명확히 밝히고 이를 이해하는 걸 의미한다. 우리는 일상생활에서도 관찰을 통해 관계성을 쉽게 발견할 수 있다. 붉은 사과를 먹을 땐 달달한데, 초록 사과는 시큼하다는 경험을 했다면, 사과의 색과 맛 사이에는 관계성이 있다고 짐작할 수 있다.
또 다른 이야기로 설명하자면 '연소득'과 '행복도' 두 가지 키워드의 관계성을 데이터로 확인한다고 치자. 시각화를 했더니 연소득이 증가할수록 행복도가 증가하고 있는 사실을 그래프를 통해서 확인했다. 우리는 이를 통해 "연소득이 증가할 수록 행복도도 증가하는구나"라고 생각할 수 있다.
추가로 알아야 할 것은 인과관계와 상관관계에 대한 개념이다.
인과관계란? 2가지 중 하나(원인)를 변화시키면 다른 하나(결과)도 바꿀 수 있는 관계를 말한다.
상관관계란? 한쪽이 크면 다른 한쪽도 큰 관계를 의미한다.
* 상관관계에서 주의할 점은 한쪽을 변화시켰다 하더라도 다른 한쪽이 변한다고 단정할 수 없다.
3. 새로 얻을 데이터를 예측하는 것
데이터를 예측한다는 것은 이미 얻은 데이터를 기반으로, 이후 새롭게 얻을 데이터를 예측하는 것을 말한다. 농작물 예측 예시를 보자.
목적
- 미지의 데이터 = '올가을의 수확량'을 올여름 평균 기온으로 예측하고자 한다.
예측
- 30년 동안의 데이터를 확인해 보니 평균 기온에 따른 수확량을 알 수 있다. 올여름 평균 기온은 30도임으로 올가을의 수확량은 15톤가량 되겠다. 왜냐하면, 30년간 평균 기온이 30도일 때 수확량은 15톤이었기 때문이다.
추가 학습 내용
1. 통계적 추론
- 데이터에서 가정한 확률 모형의 성질을 추정하는 방법
2. 가설검정
- 세운 가설과 얻은 데이터가 얼마나 들어맞는지 평가하여 가설을 채택할 것인가를 판단하는 방법
여기에 대한 자세한 내용은 앞으로 나올 예정이에요 :)