최보름달

[DATA] 기술통계 본문

문송한 회사생활/DATA 공부

[DATA] 기술통계

PieMoon 2020. 10. 27. 23:54

기술통계

수집된 자료를 정리, 요약하여 그 집단의 특성을 알기 쉽게 정보화 하는 방법.

 

자료란?

관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 따라 관찰, 측정한 값.

 

자료의 분류

  • 질적자료: 문자로 표시되는 자료 (예: 직업, 성별 등)
  • 양적자료: 숫자로 표시되는 자료 (예: 키, 몸무게 등)

 

양적자료의 분류

  • 이산형 자료: 셀 수 있는 자료 (예: 고객 수 등)
  • 연속형 자료: 셀 수 없는 자료 (예: 길이, 온도 등 모든 가능한 측정값을 세는 것이 불가능한 자료)

(? 길이는 셀 수 있는데 왜 셀 수 없는 자료라고 하는 것일까? 잘 모르겠는 부분...)

 

변수

관심의 대상이 되는 사물이나 사건의 속성으로, 서로 다른 두 개 이상의 값을 가지는 것

 

변수의 분류

질적변수

  • 명목척도(범주형 자료): 측정 대상이 어느 집단에 속하는지 분류하는 경우 (예: 성별, 신규고객/기존고객 등) 
  • 서열척도(순서형 자료): 측정 대상이 서열관계를 갖는 척도로 선택사항이 일정한 순서인 경우 (예: 고객등급, 순위 등)

양적변수

  • 등간척도(상대적 크기): 측정 대상이 갖고 있는 속성의 양을 측정, 결과가 숫자로 표현됨. (예: 온도)
  • 비율척도(절대영점존재): 등간척도가 갖는 특성에 더하여 절대적인 영점이 존재하고 두 측정 값의 비율이 의미가 있는 척도. (예: 체중, 구매횟수, 총구매액 등)

 

 

자료의 정리

  • 평균: 극단 값의 영향으로 왜곡된 정보를 제공할 수 있다는 특징이 있다.
  • 중앙값: 중앙에 오는 값. 극단값의 영향을 받지 않지만, 상대적인 위치만 나타낼 수 있다. 
  • 최빈수: 가장 많은 값.
  • 백분위수
  • 사분위수
  • 왜도: 분포의 기울어진 정도. 
  • 첨도: 평균 주위에 몰려있는 정도.
  • 범위: 최대값과 최소값의 차이
  • 분산: 평균으로부터 얼마나 떨어져 있는지를 나타내는 값.
  • 표준편차: 평균과 관련한 상대적 위치를 알고자 할 때 사용함.
  • 변동계수: 평균에 대한 변동의 상대적인 산포도(흩어진 정도)를 나타내는 값.

 

자료의 수집

전체를 조사하기에는 비효율적이므로, 표본을 추출해서 조사를 한다. 

 

비확률표본추출법:

할당추출, 편의추출, 판단추출. 각 추출 단위가 표본에 추출된 확률을 객관적으로 알 수 없는 추출법

 

확률표본추출법:

  단순 무작위 추출: 추출 확률이 동일하게 표본을 추출함.

   계통 추출: 순서가 있는 경우, 일정 간격으로 표본을 추출함.

   층화 추출: 여러 층으로 분류하여 각 층에서 일정한 표본을 추출함.

   집락 추출: 모집단을 소그분으로 나눠서 표본집단을 추출하여 표본을 전수 조사함.

 

 

시대고시기획에서 출간한 경영빅데이터 분석사 2급을 요약했습니다.