일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Notice
Tags
- constraint
- 책리뷰
- 직장인일기
- 테이블삭제
- 회사생활
- Update
- data
- INSERT
- 30일글쓰기
- 전생
- 도전
- ERD
- 보울룸
- Drop
- SQL
- null
- where절
- 데이터모델링
- 인덱스
- 일기
- 환생
- 빅데이터
- 넷플릭스
- 회사싫어
- SQLD
- rename
- 30일챌린지
- 직장생활
- 홈트
- ROWNUM
Archives
- Today
- Total
최보름달
[DATA] 기술통계 본문
기술통계
수집된 자료를 정리, 요약하여 그 집단의 특성을 알기 쉽게 정보화 하는 방법.
자료란?
관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 따라 관찰, 측정한 값.
자료의 분류
- 질적자료: 문자로 표시되는 자료 (예: 직업, 성별 등)
- 양적자료: 숫자로 표시되는 자료 (예: 키, 몸무게 등)
양적자료의 분류
- 이산형 자료: 셀 수 있는 자료 (예: 고객 수 등)
- 연속형 자료: 셀 수 없는 자료 (예: 길이, 온도 등 모든 가능한 측정값을 세는 것이 불가능한 자료)
(? 길이는 셀 수 있는데 왜 셀 수 없는 자료라고 하는 것일까? 잘 모르겠는 부분...)
변수
관심의 대상이 되는 사물이나 사건의 속성으로, 서로 다른 두 개 이상의 값을 가지는 것
변수의 분류
질적변수
- 명목척도(범주형 자료): 측정 대상이 어느 집단에 속하는지 분류하는 경우 (예: 성별, 신규고객/기존고객 등)
- 서열척도(순서형 자료): 측정 대상이 서열관계를 갖는 척도로 선택사항이 일정한 순서인 경우 (예: 고객등급, 순위 등)
양적변수
- 등간척도(상대적 크기): 측정 대상이 갖고 있는 속성의 양을 측정, 결과가 숫자로 표현됨. (예: 온도)
- 비율척도(절대영점존재): 등간척도가 갖는 특성에 더하여 절대적인 영점이 존재하고 두 측정 값의 비율이 의미가 있는 척도. (예: 체중, 구매횟수, 총구매액 등)
자료의 정리
- 평균: 극단 값의 영향으로 왜곡된 정보를 제공할 수 있다는 특징이 있다.
- 중앙값: 중앙에 오는 값. 극단값의 영향을 받지 않지만, 상대적인 위치만 나타낼 수 있다.
- 최빈수: 가장 많은 값.
- 백분위수
- 사분위수
- 왜도: 분포의 기울어진 정도.
- 첨도: 평균 주위에 몰려있는 정도.
- 범위: 최대값과 최소값의 차이
- 분산: 평균으로부터 얼마나 떨어져 있는지를 나타내는 값.
- 표준편차: 평균과 관련한 상대적 위치를 알고자 할 때 사용함.
- 변동계수: 평균에 대한 변동의 상대적인 산포도(흩어진 정도)를 나타내는 값.
자료의 수집
전체를 조사하기에는 비효율적이므로, 표본을 추출해서 조사를 한다.
비확률표본추출법:
할당추출, 편의추출, 판단추출. 각 추출 단위가 표본에 추출된 확률을 객관적으로 알 수 없는 추출법
확률표본추출법:
단순 무작위 추출: 추출 확률이 동일하게 표본을 추출함.
계통 추출: 순서가 있는 경우, 일정 간격으로 표본을 추출함.
층화 추출: 여러 층으로 분류하여 각 층에서 일정한 표본을 추출함.
집락 추출: 모집단을 소그분으로 나눠서 표본집단을 추출하여 표본을 전수 조사함.
시대고시기획에서 출간한 경영빅데이터 분석사 2급을 요약했습니다.
'문송한 회사생활 > DATA 공부' 카테고리의 다른 글
[DATA] 추측통계 (0) | 2020.10.30 |
---|---|
[DATA] 통계분석의 이해 (0) | 2020.10.27 |
[DATA] 빅데이터의 어두운 면 (0) | 2020.09.17 |
[DATA] 빅데이터 기본 테크닉 (0) | 2020.09.17 |
[DATA] 데이터베이스 정의와 특징 (0) | 2020.09.17 |