Icon

JKISeasor2-13_​tomljh_​ver1

Chinese Description 中文描述

挑战13:它们真的相关吗水平: 中等描述: 你是一名在房地产公司工作的数据科学家,听到一个传言,即“每套住宅的平均房间数”(RM)可能与“人均犯罪率”(CRIM)有关,具体取决于城市/城镇。然后,您决定调查波士顿(您生活和工作的城市)是否属于这种情况。为此,您决定试验机器学习回归模型和您最近一直在研究的主题:XAI。RM和CRIM在波士顿是如何关联的?提示:请考虑使用 SHAP Loop计算每个独立特征的 SHAP 值。提示2:考虑使用依赖关系图dependence plot来验证 RM 和 CRIM 是如何直观地连接的。SHAP:https://github.com/slundberg/shapSHAP文档:https://shap.readthedocs.io/en/latest/?badge=latest 数据说明:https://www.kaggle.com/datasets/vikrishnan/boston-house-prices波士顿住房数据集是机器学习和统计学中广泛使用的数据集,特别是在回归分析领域。它于1978年由Harrison,D.和Rubinfeld,D.L.首次推出,作为马萨诸塞州波士顿地区住房价值研究的一部分。该数据集包含有关被认为影响房价的各种因素的信息。该研究的目的是分析这些因素与波士顿不同郊区自住房屋中位数之间的关系。数据集由 506 个观测值和 14 个属性组成。CRIM:按城镇划分的人均犯罪率ZN:划分为25000平方英尺以上地块的住宅用地比例INDUS:每个城镇的非零售商业用地比例CHAS:查尔斯河虚拟变量(如果地块边界为河流,则为1;否则为0)NOX:一氧化氮浓度(百万分之一)RM:每个住宅的平均房间数量AGE1940年以前建造的自住单位的比例DIS:到波士顿五个就业中心的加权距离RAD:辐射状高速公路的可达性指数TAX:每1万美元的全额房产税税率PTRATIO:按城镇划分的师生比例B:1000的师生比例(Bk-0.63)^2,其中Bk是按城镇划分的黑人个人比例LSTAT:人口地位降低的百分比MEDV:自住房屋的中值,单位为1000美元(目标变量) simple method: SHAP based method Node 1 SHAP : Look at the viewof this componentusing SHAP Summarizer Sampling weightSampled 100 rowshousing.csvusing k-means to summarize the data to n prototypes rowPort 0 : train set 70%Port 1: test set 30%Reset Row IDAdd prefix 'shap'Filter out nominal columnsCSV Reader Dependence Plot SHAP Loop End SHAP Loop Start Row Sampling CSV Reader Gradient Boosted TreesLearner (Regression) SHAP Summarizer Gradient Boosted TreesPredictor (Regression) Partitioning RowID Column Rename(Regex) Column Filter Joiner VisualizationComponent 挑战13:它们真的相关吗水平: 中等描述: 你是一名在房地产公司工作的数据科学家,听到一个传言,即“每套住宅的平均房间数”(RM)可能与“人均犯罪率”(CRIM)有关,具体取决于城市/城镇。然后,您决定调查波士顿(您生活和工作的城市)是否属于这种情况。为此,您决定试验机器学习回归模型和您最近一直在研究的主题:XAI。RM和CRIM在波士顿是如何关联的?提示:请考虑使用 SHAP Loop计算每个独立特征的 SHAP 值。提示2:考虑使用依赖关系图dependence plot来验证 RM 和 CRIM 是如何直观地连接的。SHAP:https://github.com/slundberg/shapSHAP文档:https://shap.readthedocs.io/en/latest/?badge=latest 数据说明:https://www.kaggle.com/datasets/vikrishnan/boston-house-prices波士顿住房数据集是机器学习和统计学中广泛使用的数据集,特别是在回归分析领域。它于1978年由Harrison,D.和Rubinfeld,D.L.首次推出,作为马萨诸塞州波士顿地区住房价值研究的一部分。该数据集包含有关被认为影响房价的各种因素的信息。该研究的目的是分析这些因素与波士顿不同郊区自住房屋中位数之间的关系。数据集由 506 个观测值和 14 个属性组成。CRIM:按城镇划分的人均犯罪率ZN:划分为25000平方英尺以上地块的住宅用地比例INDUS:每个城镇的非零售商业用地比例CHAS:查尔斯河虚拟变量(如果地块边界为河流,则为1;否则为0)NOX:一氧化氮浓度(百万分之一)RM:每个住宅的平均房间数量AGE1940年以前建造的自住单位的比例DIS:到波士顿五个就业中心的加权距离RAD:辐射状高速公路的可达性指数TAX:每1万美元的全额房产税税率PTRATIO:按城镇划分的师生比例B:1000的师生比例(Bk-0.63)^2,其中Bk是按城镇划分的黑人个人比例LSTAT:人口地位降低的百分比MEDV:自住房屋的中值,单位为1000美元(目标变量) simple method: SHAP based method Node 1SHAP : Look at the viewof this componentusing SHAP Summarizer Sampling weightSampled 100 rowshousing.csvusing k-means to summarize the data to n prototypes rowPort 0 : train set 70%Port 1: test set 30%Reset Row IDAdd prefix 'shap'Filter out nominal columnsCSV Reader Dependence Plot SHAP Loop End SHAP Loop Start Row Sampling CSV Reader Gradient Boosted TreesLearner (Regression) SHAP Summarizer Gradient Boosted TreesPredictor (Regression) Partitioning RowID Column Rename(Regex) Column Filter Joiner VisualizationComponent

Nodes

Extensions

Links