본문 바로가기

언어22

[R-009] 패키지 - 데이터 시각화 데이터 시각화는 말 그대로 데이터를 시각적으로 표현하는 것을 말한다. 즉, 그래프, 차트, 지도 등을 사용하여 데이터를 시각적으로 분석하고 이해하기 쉽게 만드는 것을 말한다. 시각화는 데이터 분석과 의사 결정에 중요한 역할을 하는데 그래프, 차트, 지도 등을 보면 경향, 패턴, 관계 등을 파악할 수 있어 이를 바탕으로 적절한 의사 결정을 할 수 있게 된다. 시각화 패키지로는 ggplot2, lattice, plotly, ggvis, shiny 등의 패키지가 있는데 여기에서는 ggplot2에 대해 알아보도록 하겠다. 이미 배운대로 패키지를 사용하려면 아래처럼 설치와 로드(메모리에 올리는)작업이 필요하다. install.packages("ggplot2") library(ggplot2) 과연 시각화를 통해 의.. 2023. 4. 16.
[R-008] R패키지 - 데이터 핸들링(dplyr) R의 장점은 수많은 패키지(Package)가 아닐까 생각한다. 패키지는 함수들을 모아놓은 것으로 R 패키지는 데이터를 읽어들이는데 도움을 주는 패키지, 데이터를 다루는데 도움을 주는 패키지, 데이터를 시각화하는데 도움을 주는 패키지, 데이터로 보고서를 만들어 주는 패키지 등 매우 다양하게 준비되어 있다. 몇몇 패키지들에 대해 알아보자. 패키지는 CRAN(http://cran.r-project.org)의 Packages에서 확인해 볼 수 있다. 패키지 설치하기 dplyr 패키지를 설치한다고 가정아래 패키지를 설치하고 패키지를 불러오자. install.packages('dplyr') # 패키지 설치, Rstudio에 한번 설치하면 다음에 다시 사용하기 위해 또 설치할 필요는 없다. library(dplyr).. 2023. 4. 15.
[R-007] 외부 데이터 불러오기, 저장하기 분석할 데이터를 RStudio로 일일이 만들어 사용하는 일은 별로 없을 듯하고 주로 외부 데이터를 가져와서 분석을 하는게 일반적일 것이다. 많이 사용하는 외부 데이터는 주로 .txt, .csv, .xlsx 등이 될 것이고 그외에 .xml, .json 등도 사용되고 있다. 여기에서는 .txt, .csv, .xlsx만 다뤄보자. - txt : read.table() - csv : read.csv() - xlsx : read_excel() 주의할 사항으로 데이터의 위치를 확인해야 한다. 작업디렉토리에 위치시켜야 정상적으로 동작시킬 수 있다. 작업디렉토리를 확인하는 방법은 getwd()이며 다른 곳으로 지정하려면 setwd("c:/...")를 이용하면 된다. Sample 데이터는 학교알리미 사이트에서 공개데이터.. 2023. 4. 12.
[R-006] 데이터 프레임(Data Frame) 데이터 프레임은 표 형태를 표현할 수 있도록 단순화시킨 일종의 리스트이며, 변수(필드)와 관찰치(레코드)로 구성된 2차원의 자료객체로서 자료 분석에 있어 가장 일반적인 자료 구조를 가지고 있다고 할 수 있다. 각 변수들은 서로 다른 자료형을 가질 수 있으나, 동일한 관찰치의 개수를 가져야 한다는 제약이 따른다. 일상에서 마주하는 표 자료들은 데이터프레임으로 표현하는 것이 가장 편리하다. Excel Data를 사용하는 방법을 잠시 알아보자. - 아래 파일을 다운로드 하여 작업 폴더에 위치시킨다. - install.packages("readxl") - library(readxl) - x = read_excel("exam.xlsx") - View(x) 예를 들어, 4개의 관찰치를 가진 3개의 변수를 고려해 보.. 2023. 4. 4.