본문 바로가기

데이터 [Data]/R22

대한민국 범죄현황 분석 - 인공지능 개발자 양성과정 R 프로젝트 ※ 인공지능 개발자 양성과정 내 프로젝트 수행 http://kcm.kfq.or.kr/_Information/Information_06.aspx 0) 4인 1조 R 프로젝트 기간: 2021. 6. 11 ~ 6. 15 1) 목적: 국내 범죄발생 현황조사 및 범죄유형과 요일, 장소 등에 따른 차이가 있는지를 분석해보기 위함 2) 사용기술 - 국가통계포털(KOSIS) 자료를 활용하여 데이터를 Oracle SQL Developer로 연동 - ggplot2, dplyr, gridExtra, kormaps2014 등의 패키지를 활용하여 데이터 전처리, 분석 및 시각화 - 막대그래프, 인터랙티브 맵 등의 그래프를 출력하고 이를 해석 3) 역할: 팀장, 기획, PPT 구성, 자료 해석 역할 수행 4) 결과: 성범죄가 주.. 2021. 11. 12.
R의 다양한 데이터 구조 > ### 1) 팩터의 순서(Levels) 설정 > x1 x2 # 팩터 정렬은 알파벳 순서대로 진행 (A-D-J-M) > factor(x1) [1] Dec Apr Jan Mar Levels: Apr Dec Jan Mar > sort(x1) [1] "Apr" "Dec" "Jan" "Mar" > x1 month_levels # 팩터 순서를 month_levels대로 변경 > y1 y1 [1] Dec Apr Jan Mar Levels: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec > #> [1] Dec Apr Jan Mar > #> Levels: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec > #> (12 Levels: Jan .. 2021. 6. 27.
R 데이터시각화 함수를 활용한 탐색적 자료분석 질적 자료의 표현: 질적 자료를 표현하기 위하여 이용되는 그래프에는 막대그래프(bar graph), 원그래프(pie chart) 등이 있다. 막대그래프 : 질적 자료의 각 범주의 도수나 상대도수를 막대의 높이로 나타낸 그래프를 막대그래프라고 한다. > ### 1-1) 도수분포표와 막대그래프 #### > x x table(x) x 대중교통 도보 승용차 자전거 9 11 4 6 > barplot(table(x), xlab="범주", ylab="도수", main="통학수단 막대그래프") > ### 1-2) 히스토그램 #### > x=c(21.6, 23.6, 22.4, 25.3, 20.6, 26.1, 20.6, 23.4, 25.3, 21.3, + 35.1, 24.9, 21.8, 23.3, 22.2, 19.3, 1.. 2021. 6. 10.
R plot: 이산형 분포의 근사 > # 1) 초기하분포의 이항근사 > > # 초기값 설정 : N=20, p=0.05 (K=1) > # n=5, x는 0부터 n=5까지, 반올림할 소수점 자리(eps=3) 지정 > N > # n=5, p=0.05(N=20, K=1)일 때의 초기하분포, 이항분포의 pdf를 벡터로 생성하여 비교 > # round() 함수를 사용하여 소수점 eps (3)번째 자리까지 표시 > # Excel의 round(number, num_digits) 함수와 사용방식 동일 > round(hyper.v1 round(binom.v1 > # N의 배수 지정: N을 20, 40, 60, 100, 1000, 10000까지로 만들기 위함 > N.times > # 초기하분포 행렬(hyper.m1)을 sapply와 N.times를 이용하여.. 2021. 6. 9.
R plot: 이산형 분포의 누적분포함수 > # 2) 초기하분포의 누적분포함수 > > # 초기값으로 재설정 > N chpar > # phyper() 함수를 이용하여 초기하분포의 cdf 변수인 c.hyper 생성 > c.hyper1 # c.hyper의 plot 생성 : 누적확률분포이므로 y의 범위는 0부터 1까지로 지정 > plot(0:5, c.hyper1, type='S', col='Red', ylab='F(x)', xlab='X', lwd=3, ylim=c(0, 1), + main = c("X ~ HG(N=20; n=5, p=0.2); cdf")) > # 하얀 배경에 하얀 선을 삽입하여 세로선을 가리는 효과 적용 > points(x-1, c.hyper1, type='h', col="white", lwd=5) > # 폐구간(시작점) > poin.. 2021. 6. 8.
R plot: 이산형 분포의 확률밀도함수 > ##### Theme 1. 이산형 분포의 pdf와 cdf ##### > # 1) 초기하분포의 확률밀도함수 > > # 초기값을 N=20, K=4(p=0.2)로 설정 > # n=5, x는 0부터 n=5까지 지정 > N # 초기하분포(hyper)의 pdf(p)이므로 변수 이름을 p.hyper로 지정 > # 모수의 초기값 N=20, K=4, n=5로 p.hyper1 생성 > p.hyper1 # 모든 p.hyper의 값이 0.47을 초과하지 않으므로 y의 범위를 0부터 0.5로 고정 > # col(색상)은 "Red", "Green", "Blue", "Orange", "Skyblue", "Purple" 순으로 지정 > plot(0:5, p.hyper1, type='h', col='Red', ylab='f(x)'.. 2021. 6. 8.
워드클라우드 자체실습: wordcloud2() https://github.com/BeomSu-Lim/R_Wordcloud2_loona BeomSu-Lim/R_Wordcloud2_loona Contribute to BeomSu-Lim/R_Wordcloud2_loona development by creating an account on GitHub. github.com R 프로그램을 통해 워드클라우드 실습을 진행한 결과입니다. R 파일 1개 + 실습용 텍스트 파일 2개 + 예시결과 사진 10장으로 구성되어 있으며 실습문제 또한 2개로 나뉘어져 있습니다. 첫 번째 실습은 "이달의 소녀 - Number 1" 노래 하나를 사용한 워드클라우드이며, 두 번째 실습은 'ViViD'부터 '시간은 한 바퀴 돌아'까지 2016년 10월부터 2020년 4월까지, 수록곡 .. 2021. 6. 7.
R Distributions: 초기하분포, 초기하분포의 이항근사 > ##### 3. Hyper-Geometric Distributions : 초기하분포 ##### > N format(hg1, scientific=F, digit=3) # (3) format() 함수: 소수 형태로 표시 [1] "0.58375237" "0.33939091" "0.07021881" "0.00638353" "0.00025104" "0.00000335" > format(hg2, scientific=F, digit=3) [1] "0.58375237" "0.33939091" "0.07021881" "0.00638353" "0.00025104" "0.00000335" > cumsum(hg1) # (4) cumsum() 함수 이용 [1] 0.5837524 0.9231433 0.9933621 0.999.. 2021. 6. 7.
R Distributions: 포아송분포 > ##### 2. Poisson Distributions : 포아송분포 ##### > # poisson distribution with lambda=2, X ~ Poisson(lambda=2) > lambda x pois1 pois1 [1] 0.13533528 0.27067057 0.27067057 0.18044704 0.09022352 0.03608941 > pois2 pois2 [1] 0.13533528 0.27067057 0.27067057 0.18044704 0.09022352 0.03608941 > cumsum(pois2) # (3) cumsum 함수 이용 - 확률값 누적 [1] 0.1353353 0.4060058 0.6766764 0.8571235 0.9473470 0.9834364 > pp.. 2021. 6. 6.