Icon

JKI_​037_​Text_​Deduplication

JKI_037_Text_Deduplication
課題37: テキスト重複除去レベル: 簡単説明: Tika パーサー を使用して、PDF からスウェーデン語のテキスト データを読み取るように求められます。次に、テキストの多くが重複していることに気付きます。これは、PDF 自体のエンコーディングの問題である可能性があります。その結果、テキストを重複排除することにしました。この課題では、できるだけ少ないノードを使用して、過剰な量の重複テキストを削除するために最善を尽くしてください。このようなほとんどの場合、テキストを完全に削除することを目指しているのではなく、重複の大部分を排除する費用対効果の高いアプローチを目指しています。ヒント: このソリューションは 5 つのノードで構成されていますが、ワークフローによっては 5 番目のノードが不要な場合があります。サンプルデータ:https://hub.knime.com/alinebessa/spaces/Just%20KNIME%20It!%20Datasets/latest/Challenge%2037%20-%20Dataset~bKpxa8A_HBK9-Okb/ WF内のdataフォルダに格納したPDFファイルの読み込み重複する文章の間にある4つ連続した改行(\n)で分ける必要なのは第1列のみなので他は削除 Tika Parser Cell Splitter Column Filter 課題37: テキスト重複除去レベル: 簡単説明: Tika パーサー を使用して、PDF からスウェーデン語のテキスト データを読み取るように求められます。次に、テキストの多くが重複していることに気付きます。これは、PDF 自体のエンコーディングの問題である可能性があります。その結果、テキストを重複排除することにしました。この課題では、できるだけ少ないノードを使用して、過剰な量の重複テキストを削除するために最善を尽くしてください。このようなほとんどの場合、テキストを完全に削除することを目指しているのではなく、重複の大部分を排除する費用対効果の高いアプローチを目指しています。ヒント: このソリューションは 5 つのノードで構成されていますが、ワークフローによっては 5 番目のノードが不要な場合があります。サンプルデータ:https://hub.knime.com/alinebessa/spaces/Just%20KNIME%20It!%20Datasets/latest/Challenge%2037%20-%20Dataset~bKpxa8A_HBK9-Okb/ WF内のdataフォルダに格納したPDFファイルの読み込み重複する文章の間にある4つ連続した改行(\n)で分ける必要なのは第1列のみなので他は削除 Tika Parser Cell Splitter Column Filter

Nodes

Extensions

Links