본문 바로가기

분류 전체보기238

R 데이터시각화 함수를 활용한 탐색적 자료분석 질적 자료의 표현: 질적 자료를 표현하기 위하여 이용되는 그래프에는 막대그래프(bar graph), 원그래프(pie chart) 등이 있다. 막대그래프 : 질적 자료의 각 범주의 도수나 상대도수를 막대의 높이로 나타낸 그래프를 막대그래프라고 한다. > ### 1-1) 도수분포표와 막대그래프 #### > x x table(x) x 대중교통 도보 승용차 자전거 9 11 4 6 > barplot(table(x), xlab="범주", ylab="도수", main="통학수단 막대그래프") > ### 1-2) 히스토그램 #### > x=c(21.6, 23.6, 22.4, 25.3, 20.6, 26.1, 20.6, 23.4, 25.3, 21.3, + 35.1, 24.9, 21.8, 23.3, 22.2, 19.3, 1.. 2021. 6. 10.
R plot: 이산형 분포의 근사 > # 1) 초기하분포의 이항근사 > > # 초기값 설정 : N=20, p=0.05 (K=1) > # n=5, x는 0부터 n=5까지, 반올림할 소수점 자리(eps=3) 지정 > N > # n=5, p=0.05(N=20, K=1)일 때의 초기하분포, 이항분포의 pdf를 벡터로 생성하여 비교 > # round() 함수를 사용하여 소수점 eps (3)번째 자리까지 표시 > # Excel의 round(number, num_digits) 함수와 사용방식 동일 > round(hyper.v1 round(binom.v1 > # N의 배수 지정: N을 20, 40, 60, 100, 1000, 10000까지로 만들기 위함 > N.times > # 초기하분포 행렬(hyper.m1)을 sapply와 N.times를 이용하여.. 2021. 6. 9.
R plot: 이산형 분포의 누적분포함수 > # 2) 초기하분포의 누적분포함수 > > # 초기값으로 재설정 > N chpar > # phyper() 함수를 이용하여 초기하분포의 cdf 변수인 c.hyper 생성 > c.hyper1 # c.hyper의 plot 생성 : 누적확률분포이므로 y의 범위는 0부터 1까지로 지정 > plot(0:5, c.hyper1, type='S', col='Red', ylab='F(x)', xlab='X', lwd=3, ylim=c(0, 1), + main = c("X ~ HG(N=20; n=5, p=0.2); cdf")) > # 하얀 배경에 하얀 선을 삽입하여 세로선을 가리는 효과 적용 > points(x-1, c.hyper1, type='h', col="white", lwd=5) > # 폐구간(시작점) > poin.. 2021. 6. 8.
R plot: 이산형 분포의 확률밀도함수 > ##### Theme 1. 이산형 분포의 pdf와 cdf ##### > # 1) 초기하분포의 확률밀도함수 > > # 초기값을 N=20, K=4(p=0.2)로 설정 > # n=5, x는 0부터 n=5까지 지정 > N # 초기하분포(hyper)의 pdf(p)이므로 변수 이름을 p.hyper로 지정 > # 모수의 초기값 N=20, K=4, n=5로 p.hyper1 생성 > p.hyper1 # 모든 p.hyper의 값이 0.47을 초과하지 않으므로 y의 범위를 0부터 0.5로 고정 > # col(색상)은 "Red", "Green", "Blue", "Orange", "Skyblue", "Purple" 순으로 지정 > plot(0:5, p.hyper1, type='h', col='Red', ylab='f(x)'.. 2021. 6. 8.
워드클라우드 자체실습: wordcloud2() https://github.com/BeomSu-Lim/R_Wordcloud2_loona BeomSu-Lim/R_Wordcloud2_loona Contribute to BeomSu-Lim/R_Wordcloud2_loona development by creating an account on GitHub. github.com R 프로그램을 통해 워드클라우드 실습을 진행한 결과입니다. R 파일 1개 + 실습용 텍스트 파일 2개 + 예시결과 사진 10장으로 구성되어 있으며 실습문제 또한 2개로 나뉘어져 있습니다. 첫 번째 실습은 "이달의 소녀 - Number 1" 노래 하나를 사용한 워드클라우드이며, 두 번째 실습은 'ViViD'부터 '시간은 한 바퀴 돌아'까지 2016년 10월부터 2020년 4월까지, 수록곡 .. 2021. 6. 7.
R Distributions: 초기하분포, 초기하분포의 이항근사 > ##### 3. Hyper-Geometric Distributions : 초기하분포 ##### > N format(hg1, scientific=F, digit=3) # (3) format() 함수: 소수 형태로 표시 [1] "0.58375237" "0.33939091" "0.07021881" "0.00638353" "0.00025104" "0.00000335" > format(hg2, scientific=F, digit=3) [1] "0.58375237" "0.33939091" "0.07021881" "0.00638353" "0.00025104" "0.00000335" > cumsum(hg1) # (4) cumsum() 함수 이용 [1] 0.5837524 0.9231433 0.9933621 0.999.. 2021. 6. 7.
R Distributions: 포아송분포 > ##### 2. Poisson Distributions : 포아송분포 ##### > # poisson distribution with lambda=2, X ~ Poisson(lambda=2) > lambda x pois1 pois1 [1] 0.13533528 0.27067057 0.27067057 0.18044704 0.09022352 0.03608941 > pois2 pois2 [1] 0.13533528 0.27067057 0.27067057 0.18044704 0.09022352 0.03608941 > cumsum(pois2) # (3) cumsum 함수 이용 - 확률값 누적 [1] 0.1353353 0.4060058 0.6766764 0.8571235 0.9473470 0.9834364 > pp.. 2021. 6. 6.
R Distributions: 이항분포의 누적분포함수 > ##### 실습2. 이항분포의 누적분포함수 ##### > opar > p points(x-1, binom.cdf.1, type='h', col="white", lwd=5) # type='h', col='white'로 하얀 세로막대선 생성, cdf에서 불필요한 y축 선을 하얀 선으로 덮는 효과 적용 > points(x-1, binom.cdf.1, pch=16) # 폐구간(시작점) > points(x, binom.cdf.1, pch=1) # 개구간(종료점) > > # 확률을 0.3으로 변경 > p (binom.cdf.2 plot(x, binom.cdf.2, type='S', ylab='F(x)', xlab='x', ylim=c(0,1), + main="X ~ B(10, 0.3); CDF", lwd=5, .. 2021. 6. 5.
R Distributions: 이항분포 > ##### [R Distributions] ##### > ##### 1. Binomial Distributions : 이항분포 ##### > > # 1) pmf을 이용한 확률 계산 > p p # 2) dbinom 함수를 이용한 확률 계산 > dbinom(1, size=n, prob=p) # dbinom = d(밀도함수) + binom(이항분포) = density + binomial [1] 0.4444444 > (binom.pdf > # 3) dbinom 함수와 cumsum 함수를 이용한 누적확률 계산 > cumsum(binom.pdf) # 전체 누적확률분포 계산 = cum(누적분포) + sum(합) [1] 0.2962963 0.7407407 0.9629630 1.0000000 > > # 4) pbin.. 2021. 6. 4.