본문 바로가기

728x90

SMALL

python통계

(4)

[Python] 8. 이산확률분포 import scipy.stats as stats from scipy.special import comb,perm import numpy as np import matplotlib.pyplot as plt import matplotlib matplotlib.rcParams['font.family']='Malgun Gothic' matplotlib.rcParams['axes.unicode_minus'] = False 지난 시간 복습용 연습문제 1. 숫자 1부터 10까지 적혀있는 카드 10장이 있다. 이 중에서 하나의 카드를 뽑았을 때, 8이 적힌 카드가 나올 확률을 구하시오. 2. 주사위를 하나 던져 3이 나올 확률을 구하시오 3. 주사위를 2개 던져 눈금의 합이 6이 나올 확률을 구하시오 4. 1000 ..

[Python] 5. 모집단과 표본 : 모평균 추정, 중심극한정리 기술통계 분포를 표현하는 또다른 방법은 분포의 특징을 나타내는 여러가지 숫자를 계산하여 그 숫자로서 분포를 나타내는 것이다. 이러한 값들을 기술통계(descriptive statistics)라고 한다. 대표적인 기술통계는 다음과 같다. 표본평균, 표본중앙값, 표본최빈값 표본분산, 표본표준편차 표본왜도, 표본첨도 표본평균 표본평균(sample mean, sample average): 데이터 분포의 대략적인 위치를 나타낸다. 이 식에서 𝑁은 자료의 개수, 𝑖는 자료의 순서(index)를 뜻한다. 분산과 표준편차 데이터가 얼마나 변동(variation)하고 있는지를 알아야 한다. 이러한 정보를 알려주는 특징값이 표본분산(sample variance) 또는 표본표준편차(sample standard deviati..

[Python] 2. 대표값, 산포도, 정규화, 도수 import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy.stats import mode 데이터 불러오기 (pd.read_csv) python 파일 경로에 data3 폴더 만든 후 다음의 ch2_scores_em.csv파일 넣어놓기 대표값 평균값 중앙값 최빈값 df = pd.read_csv('data3/ch2_scores_em.csv', index_col='student number') df.head() scores = df['english'].values scores [OUT] : array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58, 70, 47, 51, 64, 62, 70, 71, ..

[Python] 1. 데이터 종류 : 이산 변수, 연속 변수 import pandas as pd 데이터 불러오기 (pd.read_csv) python 파일 경로에 data3 폴더 만든 후 다음의 ch1_sport_test.csv 파일 넣어놓기 데이터 종류 이산 변수(범주형 변수) : 주사위 눈, 연령, 결석 횟수, 학생수 (1점, 2점 이렇게 끊어지는 경우도 해당) 연속 변수 : 길이, 무게, 시간, 온도 (소수점까지 계속 연속인 경우) df = pd.read_csv( 'data3/ch1_sport_test.csv', index_col='학생번호') df 이산 변수 : 학생 번호, 학년, 윗몸일으키기, 점수, 순위 연속 변수 : 악력 review - 이산 변수와 연속 변수 차이 구분

이전 1 다음

728x90

LIST

티스토리툴바