Icon

14주차_​실습과제_​정답

[예제 2.1] (2.2 데이터 점검) 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Gig' 시트 데이터를 읽음 (Excel Reader 노드 이용) 2. 4개의 필드를 탐색하라. Hourly Wage, Industry, Job 필드의 결측치는 몇 개인가? (Data Explorer 노드 이용) 3. 자동차(Automotive) 산업에서 일하는 직원의 수는 몇 명인가? (Row Filter 노드 이용) 4. 시간당 30달러보다 많이 받는 직원의 수는 몇 명인가? 5. 최저와 최고 급여를 받는 직원의 시간당 임금은 얼마인가? 6. 자동차와 기술(Tech) 산업에서 근무한 최저와 최고 급여를 받는 회계사(Accountant)의 시간당 임금은 얼마인가? [예제 2.2] (2.3 데이터 준비) 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Restuarant_Review' 시트 데이터를 읽음 (Excel Reader 노드 이용) 2. 각 필드를 탐색하라. Ambience, Cleanliness, Service, Food 필드의 결측치는 몇 개인가? (Data Explorer 노드 이용) 3. 제거(omission) 전략으로 결측치를 처리하라. 4. 평균 대체(imputation) 전략으로 결측치를 처리하라. [예제 2.3] (2.3 데이터 준비) 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Customers' 시트 데이터(유기농 식품 슈퍼스토어의 고객 데이터)를 읽음 2. 대학교육을 받은 밀레이얼 고객을 식별하라. ('College' 필드: 'Yes', 'BirthDate' 필드: '1/1/1982' 이후부터 '12/31/1999' 이내) 3. 여성 및 남성 대학교육을 받을 밀레니얼 고객 부분집합을 생성하라. 4. 3번 결과에서 'Sex', 'HouseholdSize', 'Income', 'Spending2018', 'NumOfOrders', 'Channel' 필드만 선택하라. [분석 결과 해석] 여성과 남성 고객 간의 차이는 캐서린에게 그녀가 디자인하려고 하는 마케팅 캠페인에 대한 몇 가지 아이디어를 주었다. 예를 들어, 이 자료에 따르면 압도적으로 많은 남성 고객이 소셜 미디어 광고를 통해 들어온 반면, 여성 괙은 웹 광고나 추천에 의해 유인되는 경향이 있다. 그녀는 남성 고객을 대상으로하는 콘텐츠로 새로운 제품군에 대한 일련의 소셜 미디어 광고를 디자인하고 운영할 계획이다. 여성 고객을 위해 캐서린은 웹 배너 광고와 회사의 추천프로그램에 마케팅 활동을 집중하고자 한다. 더욱이 남성 고객들이 여성 고객들보다 더 빈번하지만 더 소량의 주문을 하는 것처럼 보이기 때문에 캐서린은 마케팅 팀과 협력하여 남성 고객들을 대상으로 하는 교차판매와 상향판매 전략을 개발할 계획이다. 이 회사의 남성 대학교육을 받은 밀레니얼 세대 고객은 고소득층인 경향이 있다는 사실을 감안할 때 캐서린은 옳은 메시지와 제품 제안을 통해 마케팅 팀이 이들 고객의 총 지출을 증가하기 위한 전략을 개발할 수 있을 것이라고 확신한다. [예제 2.4] (2.4 수치형 데이터 변환) 고객을 더 잘 이해하기 위해 캐서린 힐은 고부가가치 고객을 식별하는 데 사용되는 인기 마케팅 기법인 RFM 분석을 수행하고자 한다. RFM은 최근성(recency), 빈도(frequency)와 금액(monetary)을 의미한다. RFM 등급은 DaysSinceLast(최근성), NumOfOrders(빈도),Spending2018(금액) 변수에서 생성할 수 있다. 캐서린은 80/20 비즈니스 법칙(즉, 비즈니스의 80%가 최고 고객의 20%에서 비롯됨)에 따라 3개의 RFM 변수 각각에 대해 고객을 동일한 크기의5개 그룹으로 나누고 각 그룹에 20%의 고객을 포함하려고 한다. 각 그룹에는 1부터 5까지의 점수가 할당되며, 5가 가장 높다. RFM 등급이 555인고객은 회사의 가장 가치 있는 고객으로 간주된다. 캐서린은 RFM 구간화 외에도 소득변수를 5개의 동일한 간격으로 구간화 하고자 한다. 마지막으로, 그녀는 2018년에 지출한 금액에 따라 고객에게 다양한 서비스와 보상을 제공하는 계층화 멤버십을 시작하고자 한다. 그녀는 250달러 미만을 지출한 고객에게 Bronze 멤버십, 250달러 이상 1,000달러 미만을 지출한 고객에게는 Silver 멤버십, 그리고 1,000달러 이상을 지출한 고객에게 Gold 멤버십을 부여하고 싶다. 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Customers' 시트 데이터(유기농 식품 슈퍼스토어의 고객 데이터)를 읽는다. 2. DaysSinceLastReverse 칼럼(DaysSinceLastReverse는 DaysSinceLast에 -1을 곱해서 생성함)을 생성한다. (마지막 구매 후 일수가 적을수록 최근성 점수가 크기 때문에 데이터 순서를 역으로 하기 위해 -1을 곱해서 새로운 변수를 생성함) (Math Formula 노드 이용) 3. DaysSinceLastReverse(최근성), NumOfOrders(빈도), Spending2018(금액)에 대해 5개의 동일한 크기의 구간을 생성한다. (Auto-Binner 노드 이용) 4. 새롭게 생성된 3개 칼럼의 이름(DaysSinceLastReverse [Binned], NumOfOrders [Binned], Spending2018 [Binned])을 각각 Recency, Frequency, Monetary로 변환한다. (Column Rename 노드 이용) 5. 칼럼 순서를 Recency, Frequency, Monetary 순으로 변경한다. (Column Resorter 노드 이용) 6. Recency, Frequency, Monetary 칼럼의 값에서 숫자 부분만을 가져와서 저장한다. (String Manipulation 노드 이용) 7. Recency, Frequency, Monetary 칼럼을 결합하여 RFM 칼럼을 생성한다. (String Manipulation 노드 이용) 8. Income에 대해 5개의 동일한 크기의 구간을 생성한다. (Auto-Binner 노드 이용) 9. Income [Binned] 칼럼명을 Binned Income으로 변경한다. 10. Binned Income의 값에서 숫자 부분만을 가져와서 저장한다. 11. Membership Tier 필드를 생성한다. (Rule Engine 노드 이용) [예제 2.5] (2.4 수치형 데이터 변환) 고객에 대한 면밀한 검토를 마친 캐서린 힐은 고객의 2017년과 2018년 지출 간의 차이와 차이비율이 연간지출 값보다 고객의 지출패턴을 이해하는 데더 유용할 수 있다고 생각한다. 따라서 캐서린은 지출에서의 연도별 차이와 차이비율을 보여주는 2개의 새로운 변수를 생성하려고 한다. 그녀는 또한 소득변수가 매우 치우쳐 있어 대부분의 고객의 소득은 40,000달러에서 100,000달러 사이이며 고소득자는 극소수에 불과하다는 사실을 발견했다. 그녀는 소득변수를 자연로그로 변환하여 데이터의 비대칭을 줄이도록 조언받았다. 또한 캐서린은 고객의 연령대별 구매행태 차이를 조사하기 위해 고객의 생년월일을 2019년 1월 1일 기준의 연령으로 변환하고자 한다. 마지막으로, 그녀는 고객의 출생월을 보여주는 새로운 변수를 생성하여 고객이 출생한 달에 계절상품을 마케팅할 수 있도록 하려고 한다. 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Customers' 시트 데이터(유기농 식품 슈퍼스토어의 고객 데이터)를 읽는다. 2. SpendingDiff(=Spending2018 - Spending2017) 칼럼을 생성한다. (Math Formula 노드 이용) 3. PctSpendingDiff(= (Spending2018 - Spending2017)/Spending2017 * 100) 칼럼을 생성한다.(소수 둘째 자리까지 표시) 4. Income 칼럼을 자연로그 변환한 IncomeLn 칼럼을 생성한다. 5. 모든 행에 대해 "2019-01-01" 값을 가지는 BaseDate 칼럼을 생성한다. (Rule Engine 노드 이용) 6. BaseDate 칼럼을 Date&Time 타입으로 형 변환한다. (String to Date&Time 노드 이용) 7. Age 칼럼을 생성한다. (Date&Time Difference 노드 이용) 8. 고객의 출생월을 보여주는 BirthMonth 칼럼을 생성한다. [예제 2.6] (2.5 범주형 데이터 변환) 캐서린은 Customers 데이터셋에서 몇 가지의 통찰력을 얻은 후 인종을 분석하고자 한다. 그러나 현재의 형태에서는 데이터셋에 인종 변수의 범주의수가 많아 의미 있는 분석을 수행할 능력이 제한된다. 게다가 일부 범주에는 관측치가 거의 없다. 따라서 후속 분석에 대한 데이터를 준비하기 위해 일련의 데이터 변환을 수행해야 한다. 빈도가 가장 낮은 두 범주를 나타내는 기타(Other)라는 새로운 범주를 생성하라. 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Customers' 시트 데이터(유기농 식품 슈퍼스토어의 고객 데이터)를 읽는다. 2. Race 칼럼의 카테고리 중에서 빈도가 낮은 범주 2개(American Indian, Pacific Islander)를 식별한다. (Statistics 노드 이용) 3. Race의 값이 American Indian과 Pacific Islander이면 Other를 할당하는 NewRace 변수를 생성한다. (Rule Engine 노드 이용) [예제 2.7] (2.5 범주형 데이터 변환) 새로운 아시아 지역풍의 식사세트를 위해, 캐서린은 고객의 미래행동을 예측하기 위해 고객이 가입한 채널을 이해하는 것이 중요하다고 생각한다. 예측모형에 Channel 변수를 포함시키키 위해 캐서린은 Channel 범주를 더미변수로 변환해야 한다. 웹 배너 광고가 유기농 식품 슈퍼스토어에서 사용되는가장 일반적인 마케팅 도구이기 때문에, 그녀는 Web 채널을 기준 범주로 사용하여 다른 채널의 효과를 Web 채널과 관련하여 평가할 계획이다.Chaneel 변수에 대한 관련 더미변수를 생셩하라. 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Customers' 시트 데이터(유기농 식품 슈퍼스토어의 고객 데이터)를 읽는다. 2. Channel 칼럼의 카테고리를 식별한다. (Statistics 노드 이용) 3. Channel 칼럼의 범주에 해당하는 더미변수를 생성한다. (3개의 Rule Engine 노드 이용) [예제 2.8] (2.5 범주형 데이터 변환) 새로운 아시아풍의 식사세트를 위해, 캐서린은 고객만족에 주의를 기울이고자 한다. 고객만족도 등급이 서열데이터를 나트내므로, 예측모형에서 변수를더 쉽게 사용할 수 있도록 1 (Very Dissatisfied)에서 5 (Very Satisfied)까지의 범주점수로 변환하려고 한다. Satisfaction 변수에 대한 범주점수 변수(Satisfaction_Score)를 생성하라. 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Customers' 시트 데이터(유기농 식품 슈퍼스토어의 고객 데이터)를 읽는다. 2. Satisfaction 칼럼의 카테고리를 식별한다. (Statistics 노드 이용) 3. Satisfaction 칼럼의 범주점수를 나타내는 Satisfaction_Score 변수를 생성한다. (Rule Engine 노드 이용) (Very Dissatisfied: 1, Somewhat Dissatisfied: 2, Neutral: 3, Somewhat Satisfied: 4, Very Satisfied: 5) 1. Readch02_data.xlsx('Gig' Sheet) 2. 각 필드 탐색1. Readch02_data.xlsx('Restaurant_Reviews' Sheet) 3. 제거 전략2. 각 필드 탐색3. 평균 대체 전략1. Readch02_data.xlsx('Customers' Sheet) 2-1. 대학교육을 받은 고객 식별2-2. BirthDate기준 적용3. 성별에 따른 구분4-1. 남성 밀레니얼 세대4-2. 여성 밀레니얼 세대1. Readch02_data.xlsx('Customers' Sheet) 3. 3개의 칼럼별 Bin 생성 2. DaysSinceLastReverse칼럼 생성4. 3개 칼럼의 이름 변경5. 3개 칼럼의 순서 변경6-1. Recency칼럼 값의 숫자 부분 가져오기6-2. Frequency칼럼 값의 숫자 부분 가져오기6-3.Monetary칼럼 값의 숫자 부분 가져오기7. RFM칼럼 생성8. Income 칼럼에 대해 5개의 Bin 생성 9. 칼럼명 변경10.Binned Income칼럼 값의 숫자 부분 가져오기11. Membership Tier칼럼 생성1. Readch02_data.xlsx('Customers' Sheet) 2. SpendingDiff칼렴 생성3. PctSpendingDiff칼렴 생성4. IncomeLn칼럼 생성7. Age 칼럼 생성5. BaseDate칼럼 생성6. BaseDate칼럼 형 변환8-1. BirthDate칼럼에서 출생월 추출8-2. Month (number) 칼럼명을 BirthMonth로 변경 1. Readch02_data.xlsx('Customers' Sheet) 2. Race 칼럼만 선택하여 범주의 빈도를 확인함3. NewRace 변수 생성1. Readch02_data.xlsx('Customers' Sheet) 2. Channel 칼럼만 선택하여 범주를 확인한다. 3-1. TV 채널에 대한 더미변수(Channel_TV)생성3-2. SM 채널에 대한 더미변수(Channel_SM)생성3-3. Referral 채널에 대한 더미변수(Channel_Referral)생성1. Readch02_data.xlsx('Customers' Sheet) 2. Satisfaction 칼럼만 선택하여 범주를 확인한다. 3. Satisfaction_Score변수 생성 Excel Reader Data Explorer Excel Reader Missing Value Data Explorer Missing Value Excel Reader Row Filter Date&Time-basedRow Filter Row Splitter Column Filter Column Filter Excel Reader Auto-Binner Math Formula Column Rename Column Resorter String Manipulation String Manipulation String Manipulation String Manipulation Auto-Binner Column Rename String Manipulation Rule Engine Excel Reader Math Formula Math Formula Math Formula Date&TimeDifference Rule Engine String to Date&Time Extract Date&TimeFields Column Rename Excel Reader Statistics Rule Engine Excel Reader Statistics Rule Engine Rule Engine Rule Engine Excel Reader Statistics Rule Engine [예제 2.1] (2.2 데이터 점검) 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Gig' 시트 데이터를 읽음 (Excel Reader 노드 이용) 2. 4개의 필드를 탐색하라. Hourly Wage, Industry, Job 필드의 결측치는 몇 개인가? (Data Explorer 노드 이용) 3. 자동차(Automotive) 산업에서 일하는 직원의 수는 몇 명인가? (Row Filter 노드 이용) 4. 시간당 30달러보다 많이 받는 직원의 수는 몇 명인가? 5. 최저와 최고 급여를 받는 직원의 시간당 임금은 얼마인가? 6. 자동차와 기술(Tech) 산업에서 근무한 최저와 최고 급여를 받는 회계사(Accountant)의 시간당 임금은 얼마인가? [예제 2.2] (2.3 데이터 준비) 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Restuarant_Review' 시트 데이터를 읽음 (Excel Reader 노드 이용) 2. 각 필드를 탐색하라. Ambience, Cleanliness, Service, Food 필드의 결측치는 몇 개인가? (Data Explorer 노드 이용) 3. 제거(omission) 전략으로 결측치를 처리하라. 4. 평균 대체(imputation) 전략으로 결측치를 처리하라. [예제 2.3] (2.3 데이터 준비) 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Customers' 시트 데이터(유기농 식품 슈퍼스토어의 고객 데이터)를 읽음 2. 대학교육을 받은 밀레이얼 고객을 식별하라. ('College' 필드: 'Yes', 'BirthDate' 필드: '1/1/1982' 이후부터 '12/31/1999' 이내) 3. 여성 및 남성 대학교육을 받을 밀레니얼 고객 부분집합을 생성하라. 4. 3번 결과에서 'Sex', 'HouseholdSize', 'Income', 'Spending2018', 'NumOfOrders', 'Channel' 필드만 선택하라. [분석 결과 해석] 여성과 남성 고객 간의 차이는 캐서린에게 그녀가 디자인하려고 하는 마케팅 캠페인에 대한 몇 가지 아이디어를 주었다. 예를 들어, 이 자료에 따르면 압도적으로 많은 남성 고객이 소셜 미디어 광고를 통해 들어온 반면, 여성 괙은 웹 광고나 추천에 의해 유인되는 경향이 있다. 그녀는 남성 고객을 대상으로하는 콘텐츠로 새로운 제품군에 대한 일련의 소셜 미디어 광고를 디자인하고 운영할 계획이다. 여성 고객을 위해 캐서린은 웹 배너 광고와 회사의 추천프로그램에 마케팅 활동을 집중하고자 한다. 더욱이 남성 고객들이 여성 고객들보다 더 빈번하지만 더 소량의 주문을 하는 것처럼 보이기 때문에 캐서린은 마케팅 팀과 협력하여 남성 고객들을 대상으로 하는 교차판매와 상향판매 전략을 개발할 계획이다. 이 회사의 남성 대학교육을 받은 밀레니얼 세대 고객은 고소득층인 경향이 있다는 사실을 감안할 때 캐서린은 옳은 메시지와 제품 제안을 통해 마케팅 팀이 이들 고객의 총 지출을 증가하기 위한 전략을 개발할 수 있을 것이라고 확신한다. [예제 2.4] (2.4 수치형 데이터 변환) 고객을 더 잘 이해하기 위해 캐서린 힐은 고부가가치 고객을 식별하는 데 사용되는 인기 마케팅 기법인 RFM 분석을 수행하고자 한다. RFM은 최근성(recency), 빈도(frequency)와 금액(monetary)을 의미한다. RFM 등급은 DaysSinceLast(최근성), NumOfOrders(빈도),Spending2018(금액) 변수에서 생성할 수 있다. 캐서린은 80/20 비즈니스 법칙(즉, 비즈니스의 80%가 최고 고객의 20%에서 비롯됨)에 따라 3개의 RFM 변수 각각에 대해 고객을 동일한 크기의5개 그룹으로 나누고 각 그룹에 20%의 고객을 포함하려고 한다. 각 그룹에는 1부터 5까지의 점수가 할당되며, 5가 가장 높다. RFM 등급이 555인고객은 회사의 가장 가치 있는 고객으로 간주된다. 캐서린은 RFM 구간화 외에도 소득변수를 5개의 동일한 간격으로 구간화 하고자 한다. 마지막으로, 그녀는 2018년에 지출한 금액에 따라 고객에게 다양한 서비스와 보상을 제공하는 계층화 멤버십을 시작하고자 한다. 그녀는 250달러 미만을 지출한 고객에게 Bronze 멤버십, 250달러 이상 1,000달러 미만을 지출한 고객에게는 Silver 멤버십, 그리고 1,000달러 이상을 지출한 고객에게 Gold 멤버십을 부여하고 싶다. 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Customers' 시트 데이터(유기농 식품 슈퍼스토어의 고객 데이터)를 읽는다. 2. DaysSinceLastReverse 칼럼(DaysSinceLastReverse는 DaysSinceLast에 -1을 곱해서 생성함)을 생성한다. (마지막 구매 후 일수가 적을수록 최근성 점수가 크기 때문에 데이터 순서를 역으로 하기 위해 -1을 곱해서 새로운 변수를 생성함) (Math Formula 노드 이용) 3. DaysSinceLastReverse(최근성), NumOfOrders(빈도), Spending2018(금액)에 대해 5개의 동일한 크기의 구간을 생성한다. (Auto-Binner 노드 이용) 4. 새롭게 생성된 3개 칼럼의 이름(DaysSinceLastReverse [Binned], NumOfOrders [Binned], Spending2018 [Binned])을 각각 Recency, Frequency, Monetary로 변환한다. (Column Rename 노드 이용) 5. 칼럼 순서를 Recency, Frequency, Monetary 순으로 변경한다. (Column Resorter 노드 이용) 6. Recency, Frequency, Monetary 칼럼의 값에서 숫자 부분만을 가져와서 저장한다. (String Manipulation 노드 이용) 7. Recency, Frequency, Monetary 칼럼을 결합하여 RFM 칼럼을 생성한다. (String Manipulation 노드 이용) 8. Income에 대해 5개의 동일한 크기의 구간을 생성한다. (Auto-Binner 노드 이용) 9. Income [Binned] 칼럼명을 Binned Income으로 변경한다. 10. Binned Income의 값에서 숫자 부분만을 가져와서 저장한다. 11. Membership Tier 필드를 생성한다. (Rule Engine 노드 이용) [예제 2.5] (2.4 수치형 데이터 변환) 고객에 대한 면밀한 검토를 마친 캐서린 힐은 고객의 2017년과 2018년 지출 간의 차이와 차이비율이 연간지출 값보다 고객의 지출패턴을 이해하는 데더 유용할 수 있다고 생각한다. 따라서 캐서린은 지출에서의 연도별 차이와 차이비율을 보여주는 2개의 새로운 변수를 생성하려고 한다. 그녀는 또한 소득변수가 매우 치우쳐 있어 대부분의 고객의 소득은 40,000달러에서 100,000달러 사이이며 고소득자는 극소수에 불과하다는 사실을 발견했다. 그녀는 소득변수를 자연로그로 변환하여 데이터의 비대칭을 줄이도록 조언받았다. 또한 캐서린은 고객의 연령대별 구매행태 차이를 조사하기 위해 고객의 생년월일을 2019년 1월 1일 기준의 연령으로 변환하고자 한다. 마지막으로, 그녀는 고객의 출생월을 보여주는 새로운 변수를 생성하여 고객이 출생한 달에 계절상품을 마케팅할 수 있도록 하려고 한다. 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Customers' 시트 데이터(유기농 식품 슈퍼스토어의 고객 데이터)를 읽는다. 2. SpendingDiff(=Spending2018 - Spending2017) 칼럼을 생성한다. (Math Formula 노드 이용) 3. PctSpendingDiff(= (Spending2018 - Spending2017)/Spending2017 * 100) 칼럼을 생성한다.(소수 둘째 자리까지 표시) 4. Income 칼럼을 자연로그 변환한 IncomeLn 칼럼을 생성한다. 5. 모든 행에 대해 "2019-01-01" 값을 가지는 BaseDate 칼럼을 생성한다. (Rule Engine 노드 이용) 6. BaseDate 칼럼을 Date&Time 타입으로 형 변환한다. (String to Date&Time 노드 이용) 7. Age 칼럼을 생성한다. (Date&Time Difference 노드 이용) 8. 고객의 출생월을 보여주는 BirthMonth 칼럼을 생성한다. [예제 2.6] (2.5 범주형 데이터 변환) 캐서린은 Customers 데이터셋에서 몇 가지의 통찰력을 얻은 후 인종을 분석하고자 한다. 그러나 현재의 형태에서는 데이터셋에 인종 변수의 범주의수가 많아 의미 있는 분석을 수행할 능력이 제한된다. 게다가 일부 범주에는 관측치가 거의 없다. 따라서 후속 분석에 대한 데이터를 준비하기 위해 일련의 데이터 변환을 수행해야 한다. 빈도가 가장 낮은 두 범주를 나타내는 기타(Other)라는 새로운 범주를 생성하라. 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Customers' 시트 데이터(유기농 식품 슈퍼스토어의 고객 데이터)를 읽는다. 2. Race 칼럼의 카테고리 중에서 빈도가 낮은 범주 2개(American Indian, Pacific Islander)를 식별한다. (Statistics 노드 이용) 3. Race의 값이 American Indian과 Pacific Islander이면 Other를 할당하는 NewRace 변수를 생성한다. (Rule Engine 노드 이용) [예제 2.7] (2.5 범주형 데이터 변환) 새로운 아시아 지역풍의 식사세트를 위해, 캐서린은 고객의 미래행동을 예측하기 위해 고객이 가입한 채널을 이해하는 것이 중요하다고 생각한다. 예측모형에 Channel 변수를 포함시키키 위해 캐서린은 Channel 범주를 더미변수로 변환해야 한다. 웹 배너 광고가 유기농 식품 슈퍼스토어에서 사용되는가장 일반적인 마케팅 도구이기 때문에, 그녀는 Web 채널을 기준 범주로 사용하여 다른 채널의 효과를 Web 채널과 관련하여 평가할 계획이다.Chaneel 변수에 대한 관련 더미변수를 생셩하라. 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Customers' 시트 데이터(유기농 식품 슈퍼스토어의 고객 데이터)를 읽는다. 2. Channel 칼럼의 카테고리를 식별한다. (Statistics 노드 이용) 3. Channel 칼럼의 범주에 해당하는 더미변수를 생성한다. (3개의 Rule Engine 노드 이용) [예제 2.8] (2.5 범주형 데이터 변환) 새로운 아시아풍의 식사세트를 위해, 캐서린은 고객만족에 주의를 기울이고자 한다. 고객만족도 등급이 서열데이터를 나트내므로, 예측모형에서 변수를더 쉽게 사용할 수 있도록 1 (Very Dissatisfied)에서 5 (Very Satisfied)까지의 범주점수로 변환하려고 한다. Satisfaction 변수에 대한 범주점수 변수(Satisfaction_Score)를 생성하라. 1. data 폴더에 저장된 ch02_data.xlsx 파일의 'Customers' 시트 데이터(유기농 식품 슈퍼스토어의 고객 데이터)를 읽는다. 2. Satisfaction 칼럼의 카테고리를 식별한다. (Statistics 노드 이용) 3. Satisfaction 칼럼의 범주점수를 나타내는 Satisfaction_Score 변수를 생성한다. (Rule Engine 노드 이용) (Very Dissatisfied: 1, Somewhat Dissatisfied: 2, Neutral: 3, Somewhat Satisfied: 4, Very Satisfied: 5) 1. Readch02_data.xlsx('Gig' Sheet) 2. 각 필드 탐색1. Readch02_data.xlsx('Restaurant_Reviews' Sheet) 3. 제거 전략2. 각 필드 탐색3. 평균 대체 전략1. Readch02_data.xlsx('Customers' Sheet) 2-1. 대학교육을 받은 고객 식별2-2. BirthDate기준 적용3. 성별에 따른 구분4-1. 남성 밀레니얼 세대4-2. 여성 밀레니얼 세대1. Readch02_data.xlsx('Customers' Sheet) 3. 3개의 칼럼별 Bin 생성 2. DaysSinceLastReverse칼럼 생성4. 3개 칼럼의 이름 변경5. 3개 칼럼의 순서 변경6-1. Recency칼럼 값의 숫자 부분 가져오기6-2. Frequency칼럼 값의 숫자 부분 가져오기6-3.Monetary칼럼 값의 숫자 부분 가져오기7. RFM칼럼 생성8. Income 칼럼에 대해 5개의 Bin 생성 9. 칼럼명 변경10.Binned Income칼럼 값의 숫자 부분 가져오기11. Membership Tier칼럼 생성1. Readch02_data.xlsx('Customers' Sheet) 2. SpendingDiff칼렴 생성3. PctSpendingDiff칼렴 생성4. IncomeLn칼럼 생성7. Age 칼럼 생성5. BaseDate칼럼 생성6. BaseDate칼럼 형 변환8-1. BirthDate칼럼에서 출생월 추출8-2. Month (number) 칼럼명을 BirthMonth로 변경 1. Readch02_data.xlsx('Customers' Sheet) 2. Race 칼럼만 선택하여 범주의 빈도를 확인함3. NewRace 변수 생성1. Readch02_data.xlsx('Customers' Sheet) 2. Channel 칼럼만 선택하여 범주를 확인한다. 3-1. TV 채널에 대한 더미변수(Channel_TV)생성3-2. SM 채널에 대한 더미변수(Channel_SM)생성3-3. Referral 채널에 대한 더미변수(Channel_Referral)생성1. Readch02_data.xlsx('Customers' Sheet) 2. Satisfaction 칼럼만 선택하여 범주를 확인한다. 3. Satisfaction_Score변수 생성 Excel Reader Data Explorer Excel Reader Missing Value Data Explorer Missing Value Excel Reader Row Filter Date&Time-basedRow Filter Row Splitter Column Filter Column Filter Excel Reader Auto-Binner Math Formula Column Rename Column Resorter String Manipulation String Manipulation String Manipulation String Manipulation Auto-Binner Column Rename String Manipulation Rule Engine Excel Reader Math Formula Math Formula Math Formula Date&TimeDifference Rule Engine String to Date&Time Extract Date&TimeFields Column Rename Excel Reader Statistics Rule Engine Excel Reader Statistics Rule Engine Rule Engine Rule Engine Excel Reader Statistics Rule Engine

Nodes

Extensions

Links