목차
1. 다양한 데이터 유형
2. 대표적인 기술통계량
3. 이상값
4. 확률
5. 정규분포
1. 다양한 데이터 유형
- 양적 변수란 숫자로 나타낼 수 있는 변수
- 이산형: 횟수, 사람 수 같이 셀 수 있는 숫자 데이터이다. 예를 들면 주사위 눈처럼 1부터 6까지의 정수 형태로 나오는 것
- 연속형: 키나 몸무게와 같이 이어지는 값을 의미한다.
- 질적 변수란 숫자가 아닌 범주로 나타내는 변수
- 설문 조사의 예/아니오, 동전의 앞/뒤, 맑음/흐름/눈/비와 같은 날씨, 식당 메뉴
2. 대표적인 기술통계량
- 대푯값이란 대략적인 분포 위치를 의미하고 대표적인 값을 정량화하기 위해 사용하는 통계량
- 평균값
- 중앙값
- 최빈값

3. 이상값
이상값에 대한 명확한 정의는 없지만 평균값에서 표준편차의 2배 또한 3배 이상 벗어난 숫자를 이상값으로 본다. 실제로 데이터를 해석할 때는 이상값이 실제 값이 아니라, 측정 시나 데이터 기록 시 실수일 가능성도 고려해야 한다. 데이터 분석 현장에서는 시각화를 통해 이상값이 있는지를 확인하고, 이것이 실제 값인지 실수로 생긴 값인지를 판단하는 것이 중요하다.

4. 확률
- 확률이란 발생 여부가 불확실한 사건의 발생 가능성을 숫자로 표현하는 것이다. 흔히 알고 있는 예시로 보자.
주머니에 붉은 구슬 4개와 흰 구슬 1개가 있다. 안을 보지 않고 구슬 하나를 꺼내는 경우의 수를 보자.
P(흰 구슬) = 1/5
P(붉은 구슬) = 4/5
* 여기서 흰 구슬, 붉은 구슬에 따라 확률이 달라지기 때문에 이것들을 확률 변수라 부른다.
- 확률분포란 가로축에 확률변수를, 세로축에 그 확률변수의 발생 가능성을 표시한 분포이다.
- 독립이란 확률변수가 2개가 있다고 가정한다면 X와 Y의 동시확률분포 P(X,Y)가 각각의 확률 P(X)와 P(Y)의 곱과 같다는 뜻이다. 쉽게 말해 한쪽이 어떤 값을 취하든지 다른 한쪽의 발생 확률은 변하지 않는다는 것을 의미
- 조건부확률이란 한쪽 확률변수 Y의 정보가 주어졌을 때, 다른 한쪽 확률변수 X의 확률을 조건부확률 P(X|Y)라 한다.
조건부확률 쉬운 예시
주머니에 빨간 사탕 4개, 파란 사탕 3개, 초록 사탕 3개가 있다. 이 중에서 껍질이 반짝이는 사탕은 6개, 그렇지 않은 사탕은 4개이다. 그리고 반짝이는 사탕 중에서 빨간 사탕은 3개이다.
만약, 반짝이는 사탕 중에서 빨간 사탕일 경우의 수는?
조건이 반짝이는 사탕 중임으로 6개이고, 이 중에서 빨간 사탕은 3개이다. 답은 3/6 > 50%
5. 정규분포
통계학에서 가장 자주 등장하는 중요한 확률분포는 정규분포이다. 정규분포는 평균과 표준편차에 따라 그래프의 형태가 달라진다.
