Basic R Series 1 - Mở dataset (Bộ số liệu) từ SPSS, EXCEL, STATA
Basic R Series 1 - Mở dataset (Bộ số liệu) từ SPSS, EXCEL, STATA
Khuongcb
Khi phân tích số liệu chúng ta luôn phải mở một bộ số liệu vào trước. Các bộ số liệu này có thể trước đó đã được nhập hay xử lý trên các phần mềm khác như EPIDATA, EXEL, STATA, SPSS,…
Lưu ý: Cần lấy địa chỉ của file data đó để sử dụng.Ví dụ C:/Users/caobakhuong/Downloads/shapiro.sav
1. Mở bộ số liệu từ SPSS (thường có đuôi là .sav
)
Ở đây, chúng ta tiến hành mở bộ số liệu và đặt tên cho nó là data1
Qua package haven
sẽ cho phép R mở một bộ số liệu từ nhiều nguồn khác nhau để xử lý.Đối với dữ liệu từ SPSS cũng vậy.
#Hãy cài package này bằng lệnh sau nếu chưa cài đặt
#install.packages('haven')
#Và load package này để sử dụng
library(haven)
#Load cái package để mở file từ SPSS
data1 <- read_sav("C:/Users/caobakhuong/Downloads/shapiro.sav")
Kết quả:
data1
## # A tibble: 1,976 × 5
## MI OC SMOKE AGEGROUP AGEMID
## <dbl+lbl> <dbl+lbl> <dbl+lbl> <dbl> <dbl+lbl>
## 1 0 [No] 0 [No] 0 [None] 1 27 [25-29]
## 2 0 [No] 0 [No] 0 [None] 5 47 [45-49]
## 3 0 [No] 0 [No] 0 [None] 3 37 [35-39]
## 4 0 [No] 0 [No] 0 [None] 2 32 [30-34]
## 5 0 [No] 1 [Yes] 0 [None] 4 42 [40-44]
## 6 0 [No] 0 [No] 0 [None] 3 37 [35-39]
## 7 0 [No] 0 [No] 0 [None] 1 27 [25-29]
## 8 0 [No] 0 [No] 0 [None] 2 32 [30-34]
## 9 1 [Yes] 0 [No] 0 [None] 5 47 [45-49]
## 10 0 [No] 0 [No] 0 [None] 2 32 [30-34]
## # … with 1,966 more rows
2. Mở bộ số liệu từ EXCEL
Ở đây, chúng ta tiến hành mở bộ số liệu và đặt tên cho nó là cd4
(liên quan đến HIV/AIDS)
#Ta cũng cần load cái package để sử dụng, nếu chưa có thì nhớ install.packages('readxl')
library(readxl)
cd4 <- read_excel("D:/basic stat training data/cd4.xlsx")
và xem kết quả:
cd4
## # A tibble: 2,376 × 8
## time cd4 age packs drugs sex cesd id
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 -0.742 548 6.57 0 0 5 8 10002
## 2 -0.246 893 6.57 0 1 5 2 10002
## 3 0.244 657 6.57 0 1 5 -1 10002
## 4 -2.73 464 6.95 0 1 5 4 10005
## 5 -2.25 845 6.95 0 1 5 -4 10005
## 6 -0.222 752 6.95 0 1 5 -5 10005
## 7 0.222 459 6.95 0 1 5 2 10005
## 8 0.775 181 6.95 0 1 5 -3 10005
## 9 1.26 434 6.95 0 1 5 -7 10005
## 10 -1.24 846 2.64 0 1 5 18 10029
## # … with 2,366 more rows
3. Mở bộ số liệu từ STATA
Ở đây, chúng ta tiến hành mở bộ số liệu và đặt tên cho nó là cat
#Ta cũng cần load cái package để sử dụng, nếu chưa có thì nhớ install.packages('haven')
library(haven)
cat <- read_dta("D:/basic stat training data/cat.dta")
Kết quả:
cat
## # A tibble: 18 × 3
## id catnumbe numberto
## <dbl> <dbl> <dbl>
## 1 101 20 2
## 2 102 19 0
## 3 103 21 2
## 4 104 6 0
## 5 105 4 3
## 6 106 8 0
## 7 107 18 1
## 8 108 22 1
## 9 109 13 2
## 10 110 12 1
## 11 111 15 1
## 12 112 12 1
## 13 113 9 0
## 14 114 20 2
## 15 213 39 6
## 16 215 41 0
## 17 216 20 1
## 18 217 16 0
DONE!
Nhận xét
Đăng nhận xét