Icon

JKI2_​024_​Fraudulent_​Email_​Address_​Detection

Just KNIME It! Season2
の第24回課題に回答しました。

https://www.knime.com/just-knime-it





Just KNIME It! Season2課題23: 不正メールアドレスの検出レベル: 中程度説明: このチャレンジでは、サイバーセキュリティ・アナリストとして、実際には悪意のある電子メールであるにもかかわらず、正当な電子メールであるかのように装う電子メールを識別できるかどうかを確認します。あなたは、悪質な電子メールが主要な電子メール・ドメインを模倣することによって受信者を騙そうとしていることに気づいています。例えば、@gnail、@gmialなどが@gmailとして送信しようとしていることがわかります。そこで、全ドメインのカウントを取ることにします。カウントが最も少ないものは、詐欺である可能性が高いでしょう。また、これらのカウント数の少ないメールドメインが、主要なメールドメインを装っているかどうかもチェックする必要があります。回答は、@unique.comを詐欺メールとしてマークしてはいけません。注意:ワークフローでは変数をハードコードしないようにしてください。代わりに平均値や中央値を使ってください。ヒント: 文字列の類似性(string similarity)をチェックするのが役に立つかもしれません。データセット:https://hub.knime.com/alinebessa/spaces/Just%20KNIME%20It!%20Season%202%20-%20Datasets/latest/Challenge%2024%20-%20Dataset~MasPBDKyglGU4hsa/ メールドメインに関してのデータ処理:メールドメイン文字列抽出主要メールアドレスの選定類似度算出 悪質なメール判定とデータとりまとめ:主要メールアドレスとdistanceが近いものをなりすましメールと推定する domains.csvLevenshteindistance主要なメールドメインとの文字列としての類似度を判定しdistance算出@で切り分けてメールドメインを取得複数同じドメインがあれば主要なメールドメインと見なすドメイン重複回数が最小でないものを主要なメールドメインとする上: 審査対象のメールドメイン下: 主要なメールドメインドメイン重複回数の最小値(つまり1)変数をハードコードしないために最小値を変数へSimilaritySearchでRowIDをnearest neighborとして表示させるためにメールドメイン文字列で定義しておくdistance平均値など算出変数をハードコードしないために各種統計値を変数へdistanceだけを処理対象へdistanceが平均値以下のメールドメインは主要なメールドメインを装っていると判断【判定結果】上: 悪質な電子メールのメールドメイン下: 正常だが頻度が低いメールドメイン(いわばシングルトン)悪質な電子メールのメールドメインのみ類似するメールドメインとdistanceを表示CSV Reader Similarity Search Cell Splitter GroupBy Row Splitter Math Formula Table Rowto Variable RowID Statistics Table Rowto Variable Column Filter Row Splitter Joiner Just KNIME It! Season2課題23: 不正メールアドレスの検出レベル: 中程度説明: このチャレンジでは、サイバーセキュリティ・アナリストとして、実際には悪意のある電子メールであるにもかかわらず、正当な電子メールであるかのように装う電子メールを識別できるかどうかを確認します。あなたは、悪質な電子メールが主要な電子メール・ドメインを模倣することによって受信者を騙そうとしていることに気づいています。例えば、@gnail、@gmialなどが@gmailとして送信しようとしていることがわかります。そこで、全ドメインのカウントを取ることにします。カウントが最も少ないものは、詐欺である可能性が高いでしょう。また、これらのカウント数の少ないメールドメインが、主要なメールドメインを装っているかどうかもチェックする必要があります。回答は、@unique.comを詐欺メールとしてマークしてはいけません。注意:ワークフローでは変数をハードコードしないようにしてください。代わりに平均値や中央値を使ってください。ヒント: 文字列の類似性(string similarity)をチェックするのが役に立つかもしれません。データセット:https://hub.knime.com/alinebessa/spaces/Just%20KNIME%20It!%20Season%202%20-%20Datasets/latest/Challenge%2024%20-%20Dataset~MasPBDKyglGU4hsa/ メールドメインに関してのデータ処理:メールドメイン文字列抽出主要メールアドレスの選定類似度算出 悪質なメール判定とデータとりまとめ:主要メールアドレスとdistanceが近いものをなりすましメールと推定する domains.csvLevenshteindistance主要なメールドメインとの文字列としての類似度を判定しdistance算出@で切り分けてメールドメインを取得複数同じドメインがあれば主要なメールドメインと見なすドメイン重複回数が最小でないものを主要なメールドメインとする上: 審査対象のメールドメイン下: 主要なメールドメインドメイン重複回数の最小値(つまり1)変数をハードコードしないために最小値を変数へSimilaritySearchでRowIDをnearest neighborとして表示させるためにメールドメイン文字列で定義しておくdistance平均値など算出変数をハードコードしないために各種統計値を変数へdistanceだけを処理対象へdistanceが平均値以下のメールドメインは主要なメールドメインを装っていると判断【判定結果】上: 悪質な電子メールのメールドメイン下: 正常だが頻度が低いメールドメイン(いわばシングルトン)悪質な電子メールのメールドメインのみ類似するメールドメインとdistanceを表示CSV Reader Similarity Search Cell Splitter GroupBy Row Splitter Math Formula Table Rowto Variable RowID Statistics Table Rowto Variable Column Filter Row Splitter Joiner

Nodes

Extensions

Links