Icon

JKI2_​013_​Untitled(XAI_​with_​SHAP)

JKI2_013_Untitled_Trial4XAI_with_SHAP

Just KNIME It! Season2
の第13回課題に回答しました。

https://www.knime.com/just-knime-it


Just KNIME It! Season2課題13: (公式には記載なし) SHAPを使ったXAIレベル: 中程度説明: あなたは不動産会社に勤めるデータサイエンティストで、都市や町によっては「1戸あたりの平均部屋数」(RM)が「1人あたりの犯罪率」(CRIM)に関係しているかもしれないという噂を耳にした。そこであなたは、自分が住み、働いているボストンについて、これが当てはまるかどうかを調査することを決めました。この目的のために、あなたは機械学習回帰モデルと最近勉強しているトピック (XAI) で実験することにしました: https://www.knime.com/blog/download-explainable-xai-solutions-hubボストンでは、RMとCRIMはどのように関連しているのでしょうか?ヒント: SHAPループを使って各独立特徴のSHAP値を計算することを検討してください。https://hub.knime.com/knime/spaces/XAI%20Space/latest/Regression/Custom%20Models/02_SHAP_and_Shapley_Values~E1ofZ6-AEoM_J1xYヒント2: dependence plotを使って、RMとCRIMがどのようにつながっているかを視覚的に検証してください。https://hub.knime.com/morris_kurz/spaces/Public/latest/Dependence%20Plot~mMx1llj39or_a-4Gデータセット:https://hub.knime.com/alinebessa/spaces/Just%20KNIME%20It!%20Season%202%20-%20Datasets/latest/Challenge%2013%20-%20Dataset~TzyR9I3SS0I64amF/ 補足:「Shapを用いた機械学習モデルの解釈説明」https://qiita.com/shin_mura/items/cde01198552eda9146b7よりShap値は予測した値に対して、「それぞれの特徴変数がその予想にどのような影響を与えたか」を算出するものです。これにより、ある特徴変数の値の増減が与える影響を可視化することができます。dependence_plot:インタラクション機能によって色付けされた、SHAP依存関係プロットを作成します。 横軸に特徴値を縦軸に同じ特徴のShap値をプロットします。Shap値が特徴変数にどう影響するかを表します。その他参考情報:「SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する」https://dropout009.hatenablog.com/entry/2019/11/20/091450 コンポーネントのディスクリプションのDeepL翻訳に一部加筆「このコンポーネントは、SHAP Loop Start の一番下の入力ポートの前に使用できる。この手法は、k-meansを使用して検証データセットを要約し、SHAPで特徴量の組み合わせ(coalitions)を作成するときに使用するサンプリング表を作成する。」学習対象となるデータセットが不均衡なので、分布に基づいたランダムサンプリングを行う代わりに,説明対象となる学習データに対してk-meansクラスタリングを行っている using k-means to summarize the data to n prototypes rowPort 0 : train setPort 1: test setSHAP : Look at the viewof this componentCRIM人口 1 人当たりの犯罪発生数にはRMと負の相関がありそうusing SHAP Summarizer Sampling weight100程度に絞込(今回は102件全て)Prefix "SHAP"SHAP valuesfeature wiseデータ統合RowIDをリセットhousing.csvexecute up-streambefore configuration参考:予測モデルの性能確認SHAP : Look at the viewof this component比較対象: LSTAT給与の低い職業に従事する人口の割合 (%)は相関ありそうlog10(CRIM)値を%表示にもどすSHAP : Look at the viewof this componentCRIM人口 1 人当たりの犯罪発生数を%表示に変えて可視化(結論には変わりなし)log($CRIM$)人口 1 人当たりの犯罪発生数(CRIM)%データなのでlogに変換してみたSHAP Summarizer Partitioning Dependence Plot SHAP Loop End SHAP Loop Start Row Sampling Column Rename(Regex) Column Filter Joiner RowID Workflow Executor CSV Reader AutoML (Regression) Numeric Scorer Dependence Plot Math Formula Dependence Plot Math Formula Just KNIME It! Season2課題13: (公式には記載なし) SHAPを使ったXAIレベル: 中程度説明: あなたは不動産会社に勤めるデータサイエンティストで、都市や町によっては「1戸あたりの平均部屋数」(RM)が「1人あたりの犯罪率」(CRIM)に関係しているかもしれないという噂を耳にした。そこであなたは、自分が住み、働いているボストンについて、これが当てはまるかどうかを調査することを決めました。この目的のために、あなたは機械学習回帰モデルと最近勉強しているトピック (XAI) で実験することにしました: https://www.knime.com/blog/download-explainable-xai-solutions-hubボストンでは、RMとCRIMはどのように関連しているのでしょうか?ヒント: SHAPループを使って各独立特徴のSHAP値を計算することを検討してください。https://hub.knime.com/knime/spaces/XAI%20Space/latest/Regression/Custom%20Models/02_SHAP_and_Shapley_Values~E1ofZ6-AEoM_J1xYヒント2: dependence plotを使って、RMとCRIMがどのようにつながっているかを視覚的に検証してください。https://hub.knime.com/morris_kurz/spaces/Public/latest/Dependence%20Plot~mMx1llj39or_a-4Gデータセット:https://hub.knime.com/alinebessa/spaces/Just%20KNIME%20It!%20Season%202%20-%20Datasets/latest/Challenge%2013%20-%20Dataset~TzyR9I3SS0I64amF/ 補足:「Shapを用いた機械学習モデルの解釈説明」https://qiita.com/shin_mura/items/cde01198552eda9146b7よりShap値は予測した値に対して、「それぞれの特徴変数がその予想にどのような影響を与えたか」を算出するものです。これにより、ある特徴変数の値の増減が与える影響を可視化することができます。dependence_plot:インタラクション機能によって色付けされた、SHAP依存関係プロットを作成します。 横軸に特徴値を縦軸に同じ特徴のShap値をプロットします。Shap値が特徴変数にどう影響するかを表します。その他参考情報:「SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する」https://dropout009.hatenablog.com/entry/2019/11/20/091450 コンポーネントのディスクリプションのDeepL翻訳に一部加筆「このコンポーネントは、SHAP Loop Start の一番下の入力ポートの前に使用できる。この手法は、k-meansを使用して検証データセットを要約し、SHAPで特徴量の組み合わせ(coalitions)を作成するときに使用するサンプリング表を作成する。」学習対象となるデータセットが不均衡なので、分布に基づいたランダムサンプリングを行う代わりに,説明対象となる学習データに対してk-meansクラスタリングを行っている using k-means to summarize the data to n prototypes rowPort 0 : train setPort 1: test setSHAP : Look at the viewof this componentCRIM人口 1 人当たりの犯罪発生数にはRMと負の相関がありそうusing SHAP Summarizer Sampling weight100程度に絞込(今回は102件全て)Prefix "SHAP"SHAP valuesfeature wiseデータ統合RowIDをリセットhousing.csvexecute up-streambefore configuration参考:予測モデルの性能確認SHAP : Look at the viewof this component比較対象: LSTAT給与の低い職業に従事する人口の割合 (%)は相関ありそうlog10(CRIM)値を%表示にもどすSHAP : Look at the viewof this componentCRIM人口 1 人当たりの犯罪発生数を%表示に変えて可視化(結論には変わりなし)log($CRIM$)人口 1 人当たりの犯罪発生数(CRIM)%データなのでlogに変換してみたSHAP Summarizer Partitioning Dependence Plot SHAP Loop End SHAP Loop Start Row Sampling Column Rename(Regex) Column Filter Joiner RowID Workflow Executor CSV Reader AutoML (Regression) Numeric Scorer Dependence Plot Math Formula Dependence Plot Math Formula

Nodes

Extensions

Links