dplyr advanced - Databases
Databases dplyr은 data.frame과 같은 메모리 내의 데이터 뿐만 아니라 데이터베이스에 있는 자료를 가지고 작업을 할 수 있도록 도와주는 기능을 제공한다. 일반적인 작은 데이터라면 데이터베이스를 통해 R로 자료로 가져오는 과정이 오히려 번거롭겠지만, 데이터베이스에 저장된 데이터를 가져오거나, 엄청나게 많은 양의 데이터(메모리가 감당못할)를...
Databases dplyr은 data.frame과 같은 메모리 내의 데이터 뿐만 아니라 데이터베이스에 있는 자료를 가지고 작업을 할 수 있도록 도와주는 기능을 제공한다. 일반적인 작은 데이터라면 데이터베이스를 통해 R로 자료로 가져오는 과정이 오히려 번거롭겠지만, 데이터베이스에 저장된 데이터를 가져오거나, 엄청나게 많은 양의 데이터(메모리가 감당못할)를...
Tidy data 많은 패키지들, 특히 ggplot2는 특정한 형태로 정리된 데이터를 요구한다. 처음에 익숙하지 않을 때는 함수가 요구하는 데이터의 형태를 맞추기도 버거웠지만 차츰 익숙해지면서 깔끔하게 정리된 데이터의 중요성을 깨닫게 된다. 깔끔한 데이터를 만드는 과정 중에서 wide format과 long format 사이의 변환은...
data_frame dplyr은 data.frame을 더 편리하게 사용할 수 있도록 변형된 형태의 data.frame을 제공한다 초창기부터 제공했던 tbl_df 을 이용하면 화면에 맞게 행과 열의 수를 제한해서 볼 수 있고 dplyr과 관련된 추가적인 정보(group_by 정보, column의 type, source정보 등)를 제공한다 이후에 추가된 data_frame은 tbl_df와...
Non-standard Evaluation dplyr은 기본적으로 non-standard evaluation (NSE)을 사용하여 연산을 처리한다 사실 이 글을 쓰는 지금도 NSE가 정확히 어떤 것인지는 잘 모르겠다… 모든 값을 계산하지 않고 필요할 때만 계산하는? 것이라고 알아들었기는 하지만 정확한 동작 방식은 정말 모르겠다.. 내부적으로 어떻게 다른지는 알...
json이나 파이썬의 딕셔너리처럼 자유로운 형태의 데이터를 사용하게 되면 list를 많이 사용하게 된다. 평소에는 주로 data.frame을 사용하다보니 상대적으로 list에는 익숙하지가 않았다. 이번에 인스타그램에서 데이터를 가져오면서 리스트에 대해 한 번쯤 정리를 해야겠다는 필요성을 느꼈다. 그래서 api를 통해 데이터를 가져올 때 많이 사용할...