본문 바로가기

Bigdata8

[R-008] R패키지 - 데이터 핸들링(dplyr) R의 장점은 수많은 패키지(Package)가 아닐까 생각한다. 패키지는 함수들을 모아놓은 것으로 R 패키지는 데이터를 읽어들이는데 도움을 주는 패키지, 데이터를 다루는데 도움을 주는 패키지, 데이터를 시각화하는데 도움을 주는 패키지, 데이터로 보고서를 만들어 주는 패키지 등 매우 다양하게 준비되어 있다. 몇몇 패키지들에 대해 알아보자. 패키지는 CRAN(http://cran.r-project.org)의 Packages에서 확인해 볼 수 있다. 패키지 설치하기 dplyr 패키지를 설치한다고 가정아래 패키지를 설치하고 패키지를 불러오자. install.packages('dplyr') # 패키지 설치, Rstudio에 한번 설치하면 다음에 다시 사용하기 위해 또 설치할 필요는 없다. library(dplyr).. 2023. 4. 15.
[R-007] 외부 데이터 불러오기, 저장하기 분석할 데이터를 RStudio로 일일이 만들어 사용하는 일은 별로 없을 듯하고 주로 외부 데이터를 가져와서 분석을 하는게 일반적일 것이다. 많이 사용하는 외부 데이터는 주로 .txt, .csv, .xlsx 등이 될 것이고 그외에 .xml, .json 등도 사용되고 있다. 여기에서는 .txt, .csv, .xlsx만 다뤄보자. - txt : read.table() - csv : read.csv() - xlsx : read_excel() 주의할 사항으로 데이터의 위치를 확인해야 한다. 작업디렉토리에 위치시켜야 정상적으로 동작시킬 수 있다. 작업디렉토리를 확인하는 방법은 getwd()이며 다른 곳으로 지정하려면 setwd("c:/...")를 이용하면 된다. Sample 데이터는 학교알리미 사이트에서 공개데이터.. 2023. 4. 12.
[R-006] 데이터 프레임(Data Frame) 데이터 프레임은 표 형태를 표현할 수 있도록 단순화시킨 일종의 리스트이며, 변수(필드)와 관찰치(레코드)로 구성된 2차원의 자료객체로서 자료 분석에 있어 가장 일반적인 자료 구조를 가지고 있다고 할 수 있다. 각 변수들은 서로 다른 자료형을 가질 수 있으나, 동일한 관찰치의 개수를 가져야 한다는 제약이 따른다. 일상에서 마주하는 표 자료들은 데이터프레임으로 표현하는 것이 가장 편리하다. Excel Data를 사용하는 방법을 잠시 알아보자. - 아래 파일을 다운로드 하여 작업 폴더에 위치시킨다. - install.packages("readxl") - library(readxl) - x = read_excel("exam.xlsx") - View(x) 예를 들어, 4개의 관찰치를 가진 3개의 변수를 고려해 보.. 2023. 4. 4.
[R-005] 벡터(Vector) 2 앞에서는 벡터가 무엇인지 알아봤다면 여기에서는 벡터를 조작하는 방법에 대해 알아보려고 한다. 잠시 쉬어가기 : https://kilhwan.github.io/rprogramming/ch-visualization.html 1. c()함수를 이용하여 벡터 생성하기 이미 알고 있는 것 처럼 괄호안의 자료를 나열함으로써 벡터를 생성할 수 있고 두 벡터를 이어붙이거나 해당 값의 이름을 붙일 수도 있다. 각각에 대해 알아보고 실습해 보자. 실습 벡터 생성하기 > x x [1] 1 ,3, 5, 7, 9 > s s [1] "lee" "kim" "im" 실습 두 백터 이어 붙이기 > c(x, c(11, 13)) # 위 실습을 하지 않고 하면 에러가 발생된다. 벡터는 같은 유형의 값을 가져야 한다는 것을 기억하자. [1].. 2023. 3. 29.