본문 바로가기

R 데이터

모두를 위한 R 데이터 분석 입문 연습문제 6장

1. R에서 제공하는 cars 데이터셋을 이용하여 speed와 dist 에 대한 산점도를 작성하고, 두 변수 간의 상관 관계를 설명하시오(x축 : speed, y축 : dist)

speed 가 증가할수록 dist 도 증가한다.

 

2. R에서 제공하는 pressure 데이터셋을 이용해 temperature 와 pressure 에 대한 산점도를 작성하고, 두 변수 간의 상관 관계를 설명하시오(x축 : temperature, y축 : pressure)

temperature 가 증가할수록 pressure 가 증가한다. 특정 지점에서 급진적으로 증가한다.

 

3. R에서 제공하는 state.x77 데이터셋에서 Population, Income, Illiteracy, Area 변수 간 산점도를 작성하고, 상관 관계를 관찰하시오.

전체적으로 선형을 띄는 산점도가 없다. 상관 관계가 별로 없다.

 

4. R에서 제공하는 iris 데이터셋에서 Species 정보에 따른 Sepal.Length 와 Sepal.Width 의 분포에 대해 산점도를 통해 알아보시오.

꽃마다 정도는 다르지만 전체적으로 Sepal.Length가 증가하면 Sepal.Width 도 증가한다.

 

5. 다음은 직장인 10명의 수입과 교육받은 기간을 조사한 자료이다. 산점도와 상관계수를 구하고, 수입과 교육기간 사이에 어떤 상관 관계가 있는지 설명하시오.

교육기간이 증가할 수록 수입이 증가한다. 상관계수가 0.8236323 이므로 상관관계가 높다고 본다.

 

6. 다음은 대학생 10명의 성적과 주당 TV 시청시간을 조사한 자료이다. 산점도와 상관계수를 구하고, 성적과 TV 시청시간 사이에 어떤 상관 관계가 있는지 설명하시오.

상관계수는 -0.6283671 으로 -0.5보다 높으므로 상관계수가 높다고 볼 수 있다.

Tv시청시간이 증가할수록 점수가 낮아진다.

 

7. R에서 제공하는 mtcars 데이터셋에서 mpg와 다른 변수들 간의 상관계수를 구하시오. 어느 변수가 mpg와 가장 상관성이 높은지 산점도와 함께 설명하시오.

상관계수의 절대 값이 가장높은 wt가 mpg 와 가장 상관성이 높다.

 

8. 다음은 2015년부터 2026년도까지의 예상 인구수 추계자료이다. 연도를 x축으로 하여 선그래프를 작성하시오.

 

9. 다음은 2014년 4분기부터 2017년 3분기까지 남녀 경제활동참가율을 나타낸 통계자료이다. 연도를 x축으로 하고 남녀를 각각 다른 선과 색으로 표시하는 그래프를 작성하시오.(2014년 4분기는 20144, 2015년 1분기는 20151과 같은 형식으로 입력)

 

10. R에서 제공하는 trees 데이터셋에 대해 다은 문제를 해결하기 위한 R 코드를 작성하시오.

 

11. R에서 제공하는 Orange 데이터셋에서 나무의 age 와 circumference 에 대해 산점도를 그룹 번호별로 점의 색을 달리하여 작성하시오.

 

12. mlbench 패키지에서 제공하는 Glass 데이터셋에 대해 다음의 문제를 해결하가 위한 R 코드를 작성하시오.

 

스크립트

결과

나머지 생략

 

14. R에서 제공하는 LakeHuron 데이터셋은 호수의 연도별 평균 수위 정보가 저장되어 있다. 다음과 같이 연도(years)와 수위(hlevel) 벡터를 생성한 후 연도를 x 축으로 하여 선그래프를 작성하시오.

 

스크립트

결과

 

15. R에서 제공하는 AirPassengers 데이터셋은 1949년~1960년 사이의 항공승객수를 월별로 나타낸 것이다. AirPassengers 데이터셋에서 1949, 1955, 1960년의 월별 승객수를 선그래프로 작성하는데, 3개년도의 선의 색을 다르게 하시오.

 

스크립트

결과

16생략