본문 바로가기

R7

R / 판별분석 판별분석은 기존의 자료를 이용하여 관찰개체들을 몇 개의 집단으로 분류하고자 하는 경우에 사용된다. 이 분석은 등간척도나 비율척도로 이루어진 독립변수를 이용하여 여러 개의 집단으로 분류하는 방법이다. 판별분석의 절차 변수의 선정 표본의 선정 판별식의 수 결정 상관관계 및 기술통계량의 계산 판별함수의 도출 판별함수의 타당성 검정 검증된 판별함수의 해석 판별함수를 이용한 예측 -판별분석 예제- x1변수만을 제외하고 대체로 정규분포를 보이고 있다. 따라서 분석자는 선형판별분석을 실시하면 된다. 선형판별분석은 정준판별분석 또는 판별분석이라고 부른다. 2차 판별함수를 얻기 위해서는 lda()함수대신 qda()함수를 사용해야 한다. 2차 판별 함수는 분산-공분산의 동일성을 가정하지 않는다. -데이터 판별함수의 적재치.. 2020. 8. 6.
R / 로지스틱 회귀분석 회귀분석은 앞전에 설명한 바와 같이 변수 간의 종속 구조, 즉 독립변수와 종속변수의 관계를 규명하는 기법이다. 회귀분석은 독립변수와 종속변수가 주로 연속적으로 측정된 경우에 사용된다. 종속변수가 질적인 경우에는 회귀분석을 사용하는 데에 무리가 따르므로, 판별분석이나 로지스틱 회귀분석의 사용을 권장한다. 판별분석은 종속변수를 주어진 것으로 보고 집단 간의 차이를 가장 크게 하는 독립변수들의 선형결합을 추출하여 집단분류에 사용한다. 로지스틱 회귀분석은 종속변수가 질적인 경우에 사용되는 분석방법이다. -로지스틱 회귀분석 예제- 위의 분석을 기반으로 유의한 독립변수만 활용하여 회귀분석을 이행해보겠다. 이번엔 두 모형을 비교해보자. 비표준화 회귀계수를 알아보자. 로지스틱 회귀계수 지수를 알아보자. 2020. 8. 6.
R / 회귀분석 회귀분석은 독립변수가 종속변수에 미치는 영향력 크기를 조사하여 독립변수의 일정한 값에 대응하는 종속변수 값을 예측하는 기법이다. 회귀분석은 세가지 주요목적을 가진다. 기술적인 목적을 갖는다. 예를 들어 변수들, 광고액과 매출액 사이의 관계를 기술하고 설명할 수 있다. 통제목적을 갖는다. 예를 들어 비용과 생산량 사이의 관계 혹은 결근율과 생산량 사이의 관계를 조사하여 생산 및 운영관리의 효율적인 통제에 회귀분석을 이용할 수 있다. 예측의 목적을 갖는다. 기업에서 생산량을 추정함으로써 비용을 예측할 수 있으며 광고액을 앎으로써 매출액을 예상할 수 있다. 회귀분석의 순서는 다음과 같다. 산포도 -> 분석 : 추정 회귀식 -> 예측, 통제, 기술 -분산분석과 회귀분석의 차이- 회귀분석은 독립변수의 수준과 평균.. 2020. 8. 6.
R / 상관분석 두 변수 사이의 연관성을 설명하는 방법으로는 산포도에 의한 방법, 공분산, 상관계수 등이 있다. 산포도 산점도라고도 불리며, 분석자는 변수 간의 전반적인 관계를 파악할 수 있다. 공분산 두 확률변수가 어느 정도 결합되어 있는가를 측정한다. 상관계수 두 확률변수 X, Y가 있어 두 변수 간의 일차적인 관계가 얼마나 강한가를 지수로 측정하고 싶을 때 두 변수의 일차관계의 방향과 정도를 나타내는 측정치. 피어슨 상관계수라고도 한다. 피어슨 상관계수는 등간척도와 비율척도로 구성된 양적변수 간의 관련성을 나타낸다. 또한 다른 변수들의 관계를 통제하고 두 변수 간의 순수한 관계를 상관관계로 파악하는 부분상관계수가 있다. 상관계수의 종류는 크게 단순상관계수, 다중상관계수, 부분상관계수가 있다. 이와 같이 다양한 상관.. 2020. 8. 6.
R / 분산분석(ANOVA) 분산분석은 2개 이상의 여러 모집단을 한꺼번에 비교하는 경우 사용된다. 예를 들어 스마트폰 시장에서 경쟁하는 회사가 4개라고하자. 이들회사의 고객만족정도를 조사하기 위하여 각 회사별 고객만족도를 비교 연구하고자할때 사용되는 것이다. 위 예시의 경우에서 회사는 독립변수가 되며, 고객만족정도는 종속변수가 된다. 독립변수를 요인이라고 부르기도한다. 이 기법은 두개이상의 모집단 평균차이를 한꺼번에 검정할 수 있게 해준다. 분산분석의 절차 두 요인에 상호작용이 있는지 조사한다. 만일 상호작용이 없으면, 두 요인을 따로 분석하여 하나씩 조사한다. 만일 상호작용이 중요하지 않으면 2단계로 간다. 만일 상호 작호작용이 중요하면 그 자료를 의미 있게 변환하여 그 상호작용을 중요하지 않게 만들 수 있는가를 결정한다. 만일.. 2020. 8. 6.
R / 표본검정 및 교차분석 -중심 위치- 중심위치는 관찰된 자료들이 어디에 집중되어 있는가를 나타낸다. 정상적인 빈도곡선의 경우, 대체로 가운데에 집중되어 있다. 중심위치를 나타내는 측정치는 산술평균, 최빈값, 중앙값 등이 있다. 이 세 가지를 합하여 대표값이라고 부른다. 산술평균 중심위치를 알려주는 데에 가장 많이 사용되는 측정치이다. 중앙값 가운데 등수에 위치한 관찰지이다. 최빈값 가장 많이 관측되는 수, 즉 주어진 값 중에서 가장 자주 나오는 값이다. mean() : 평균 구하는 함수 mode() : 최빈값 구하는 함수 median() : 중앙값 구하는 함수 variance() : 분산 구하는 함수 sd() : 표준편차 구하는 함수 sd()/mean() : 변동계수 구하는 함수 비대칭도(왜도)나 첨도를 구하려면 psych 라.. 2020. 8. 5.
R 공부 1편 자료를 벡터로 입력하기 위해서 사용하는 함수 : c() 평균 구하는 함수 : mean() 표준편차 구하는 함수 : sd() 상관관계 구하는 함수 : cor() 두 데이터의 관련성을 그림으로 나타내기 위한 함수 : plot() cor()과 plot()은 비교하려는 두대상의 데이터 수가 맞지않으면 오류발생 #Input data age Knowledge -> Wisdom -> Nirvana 정보와 지식의 차이는 지식은 살아있는 정보 즉, 삶에 적용되는 정보를 말한다. 기존 데이터와 빅데이터의 차이는 3V로 설명가능 빅데이터는 용량(Volume), 속도(Velocity), 다양성(Variety) 이 있는 자료를 말한다. 빅데이터 분석과정 : 빅데이터 수집관리 -> 데이터 분석 -> 의사결정 단계 데이터마이닝 대.. 2020. 8. 4.