Icon

JKI_​015_​Extracting_​a_​Table_​from_​a_​PDF

JKI_015_Extracting_a_Table_from_a_PDF
課題15:PDFからテーブルを抽出するレベル:難しい説明:テーブル付きのテキストベースのPDFドキュメントがある場合、さらに分析するためにテーブルをKNIMEデータテーブルに部分的に抽出できますか?この課題では、このPDFドキュメントからテーブルを抽出し、 KNIME内で部分的に再構築を試みます。対応するKNIMEテーブルには、Day、Max、Min、Norm、Depart、Heat、およびCoolの列が含まれている必要があります。 注1: 最終的な出力は、関連するすべてのデータを含む単一の行ではなく、テーブルである必要があります。 注2: Tikaパーサーノードは、PDFパーサーノードよりもこのタスクに適しています。このタスクは、コンポーネント、正規表現、またはコードスニペットノードなしで完了しました。実際、私たちのソリューションには合計10個のノードがありますが、列にラベルを付けるには少し手作業が必要でした。PDFファイルへのリンク:https://www.mountwashington.org/uploads/forms/2021/10.pdf 10.pdf相対パスでdataフォルダを指定しフォルダ内の全てのPDFファイルを読み込ませる設定"" (半角スペース)で文字列を分割改行で文字列を分割縦に並べ替えDayの列は1-31の整数値が入っているのでそれ以外の行は除外必要な列のみに絞込Day、Max、Min、Norm、Depart、Heat、およびCoolに相当する列のみへ手作業で設定数値データのみへ変換カラム名手作業で定義を設定RowIDはDayと一致させる Tika Parser Cell Splitter Cell Splitter Transpose Row Splitter Column Filter String To Number Column Rename RowID 課題15:PDFからテーブルを抽出するレベル:難しい説明:テーブル付きのテキストベースのPDFドキュメントがある場合、さらに分析するためにテーブルをKNIMEデータテーブルに部分的に抽出できますか?この課題では、このPDFドキュメントからテーブルを抽出し、 KNIME内で部分的に再構築を試みます。対応するKNIMEテーブルには、Day、Max、Min、Norm、Depart、Heat、およびCoolの列が含まれている必要があります。 注1: 最終的な出力は、関連するすべてのデータを含む単一の行ではなく、テーブルである必要があります。 注2: Tikaパーサーノードは、PDFパーサーノードよりもこのタスクに適しています。このタスクは、コンポーネント、正規表現、またはコードスニペットノードなしで完了しました。実際、私たちのソリューションには合計10個のノードがありますが、列にラベルを付けるには少し手作業が必要でした。PDFファイルへのリンク:https://www.mountwashington.org/uploads/forms/2021/10.pdf 10.pdf相対パスでdataフォルダを指定しフォルダ内の全てのPDFファイルを読み込ませる設定"" (半角スペース)で文字列を分割改行で文字列を分割縦に並べ替えDayの列は1-31の整数値が入っているのでそれ以外の行は除外必要な列のみに絞込Day、Max、Min、Norm、Depart、Heat、およびCoolに相当する列のみへ手作業で設定数値データのみへ変換カラム名手作業で定義を設定RowIDはDayと一致させる Tika Parser Cell Splitter Cell Splitter Transpose Row Splitter Column Filter String To Number Column Rename RowID

Nodes

Extensions

Links