초이준철
물낌표
초이준철
전체 방문자
오늘
어제
  • 분류 전체보기 (67)
    • 경험 (6)
    • 책으로 배우는 공부 (11)
      • 통계 학습 (5)
      • 데이터 책 (6)
    • SQL (37)
    • Python (6)
    • Tableau (7)
      • Tableau 기본 (2)
      • Tableau 빅스데이터 22여름 대학생 TWBX (5)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • MYSQL 테이블 구조
  • TWBX 대학생
  • TWBX 과제
  • 데이터분석가
  • mysql set
  • MYSQL insert
  • 통계101x데이터 분석
  • mysql 문자열 자르기
  • 물낌표
  • MYSQL 집계함수
  • Mysql ifnull
  • 데벨챌
  • mysql 문자열 연결
  • mysql concat
  • MYSQL group by
  • 스터디 1일차
  • MYSQL CASE문
  • 새빨간 거짓말 통계
  • MYSQL desc
  • 데이터리안

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
초이준철

?!

[통계101x데이터 분석] 3장 "통계분석의 기초"
책으로 배우는 공부/통계 학습

[통계101x데이터 분석] 3장 "통계분석의 기초"

2025. 6. 30. 16:44
목차
1. 다양한 데이터 유형
2. 대표적인 기술통계량
3. 이상값
4. 확률
5. 정규분포

1. 다양한 데이터 유형

  • 양적 변수란 숫자로 나타낼 수 있는 변수
    • 이산형: 횟수, 사람 수 같이 셀 수 있는 숫자 데이터이다. 예를 들면 주사위 눈처럼 1부터 6까지의 정수 형태로 나오는 것
    • 연속형: 키나 몸무게와 같이 이어지는 값을 의미한다.
  • 질적 변수란 숫자가 아닌 범주로 나타내는 변수
    • 설문 조사의 예/아니오, 동전의 앞/뒤, 맑음/흐름/눈/비와 같은 날씨, 식당 메뉴

2. 대표적인 기술통계량

  • 대푯값이란 대략적인 분포 위치를 의미하고 대표적인 값을 정량화하기 위해 사용하는 통계량
    • 평균값
    • 중앙값
    • 최빈값

평균값, 중앙값, 최빈값 그래프 예시

 

3. 이상값

이상값에 대한 명확한 정의는 없지만 평균값에서 표준편차의 2배 또한 3배 이상 벗어난 숫자를 이상값으로 본다. 실제로 데이터를 해석할 때는 이상값이 실제 값이 아니라, 측정 시나 데이터 기록 시 실수일 가능성도 고려해야 한다. 데이터 분석 현장에서는 시각화를 통해 이상값이 있는지를 확인하고, 이것이 실제 값인지 실수로 생긴 값인지를 판단하는 것이 중요하다.

이상치 예시

4. 확률

  • 확률이란 발생 여부가 불확실한 사건의 발생 가능성을 숫자로 표현하는 것이다. 흔히 알고 있는 예시로 보자.
주머니에 붉은 구슬 4개와 흰 구슬 1개가 있다. 안을 보지 않고 구슬 하나를 꺼내는 경우의 수를 보자.
P(흰 구슬) = 1/5
P(붉은 구슬) = 4/5
* 여기서 흰 구슬, 붉은 구슬에 따라 확률이 달라지기 때문에 이것들을 확률 변수라 부른다.

 

  • 확률분포란 가로축에 확률변수를, 세로축에 그 확률변수의 발생 가능성을 표시한 분포이다.
  • 독립이란 확률변수가 2개가 있다고 가정한다면 X와 Y의 동시확률분포 P(X,Y)가 각각의 확률 P(X)와 P(Y)의 곱과 같다는 뜻이다. 쉽게 말해 한쪽이 어떤 값을 취하든지 다른 한쪽의 발생 확률은 변하지 않는다는 것을 의미
  • 조건부확률이란 한쪽 확률변수 Y의 정보가 주어졌을 때, 다른 한쪽 확률변수 X의 확률을 조건부확률 P(X|Y)라 한다.
조건부확률 쉬운 예시
주머니에 빨간 사탕 4개, 파란 사탕 3개, 초록 사탕 3개가 있다. 이 중에서 껍질이 반짝이는 사탕은 6개, 그렇지 않은 사탕은 4개이다. 그리고 반짝이는 사탕 중에서 빨간 사탕은 3개이다.

만약, 반짝이는 사탕 중에서 빨간 사탕일 경우의 수는?
조건이 반짝이는 사탕 중임으로 6개이고, 이 중에서 빨간 사탕은 3개이다. 답은 3/6 > 50%  

 

5. 정규분포

통계학에서 가장 자주 등장하는 중요한 확률분포는 정규분포이다. 정규분포는 평균과 표준편차에 따라 그래프의 형태가 달라진다.

출처: 위키백과 정규분포

 

저작자표시 (새창열림)
    '책으로 배우는 공부/통계 학습' 카테고리의 다른 글
    • [통계101x데이터 분석] 5장 "가설검정 "
    • [통계101x데이터 분석] 4장 "추론통계~신뢰구간"
    • [통계학101x데이터 분석] 2장 "모집단과 표본"
    • [통계 101x데이터 분석] 1장 "통계학이란?"
    초이준철
    초이준철
    WNWA

    티스토리툴바