データ(Excel)

PDFをExcelに変換するならPower Query一択!手順を詳しく解説します

毎回PDFを開いてExcelに貼り付けるのが面倒…

リサーチしたい会社の財務情報などって、ほとんどがPDFでまとめられていますよね?

データ分析のためにPDF内のデータを抜き出したいけど、コピペだと書式が崩れてしまうので、結局手入力しないといけない
さらに、新しい情報が公開されれば、手作業による入力を繰り返さないといけないのもストレスのかかる作業です。

Power Queryを使ったPDFデータの取込みを習得すると、毎回手作業でデータをコピー&ペーストする手間が省けます。

本記事では、パワークエリを使って 複数のExcelファイルを効率よく結合する方法を分かりやすく解説します。
データ分析の作業をスムーズにしたい方は、ぜひ最後までチェックしてみてください!

Power QueryでPDFを取り込むメリット

PDFは、請求書業務レポートなど、皆さんの仕事でよく使われるファイル形式です。

自社で作成したPDFで元となるExcelファイルを所有している場合は、データ分析の準備もスムーズです。
一方、他社のホームページなどから取得したPDFファイルは、元データが手元にないのでExcelへの転記作業が避けられません

文字認識されているPDFはコピペでもExcelに取り込み可能ですが、不要な改行や区切りの修正が大変です。

そこで便利なのがPower Queryの活用です。

Power Queryを活用すれば、少なくとも手作業での転記作業から解放されます。
ただし、場合によっては書式が崩れることもありますが、大半はPowerQueryの標準機能だけで整形可能です。

Power QueryでPDFを読み込む手順

では、Power Queryを使ったPDFファイルからのデータ取込みの手順を紹介していきましょう。
まずは、「データ」タブ→「ファイルから」→「PDFから」の順に選択します。

PDFを取り込むメニュー

ダイアログが開くので、取り込みたいPDFファイルを選択して「インポート」をクリックします。

PDFファイルを選択

ナビゲーターダイアログが開き、PDFファイル内のTable一覧が表示されます。
PowerQueryでTable化されるのは表属性リスト属性の2種類です。

PDFファイル内のTable一覧

Table001には会社概要がまとめられています。

取込後のリスト

原本のPDFファイルを確認してみると、リスト属性で表記されていました。

PDF上のリスト

Table003は原価計算に関係するデータが格納されています。

取込後のテーブル

原本のPDFファイルには、損益計算書の一覧表として表記されていました。

PDF上のテーブル

ここでは、Table003のTableを選択後に「読み込み」をクリックします。

テーブルを選択

Power Queryエディターに切り替わり、Table003のデータが表記されています。

パワークエリ上のテーブル

クエリのステップはとてもシンプルです。

クエリのステップ

詳細エディタも、直接手作業で編集できそうな内容です。

詳細エディタ

Power Queryエディタを閉じると、ワークシートにデータが出力されました。

ワークシートに出力

クエリと接続」を確認すると、Table003のクエリが作成されていることが確認できます。

クエリと接続

以上が、Power QueryでPDFデータを読み込む一連の手順です。

Power QueryでPDFデータを整形するときによく使う機能

PDFファイルのデータをPower Queryに取り込んだものの、そのままでは使えないこともあります。

具体的には「改行が入っている」「2つの項目が1つのセルに結合されてしまう」「余計な空白が紛れ込む」といった症状です。

そのようなPDFデータの書式崩れを解決するPowerQueryメニューは、主に以下の4つ。

  • 値の置換
  • 書式メニューのトリミング・クリーン
  • テキストの抽出
  • 列のマージ

いずれの機能も「変換」タブから実行可能です。

値の置換」は任意の列グループにあります。

書式崩れを整形できるメニュー1

残りは「テキストの列」グループに配置されています。

書式崩れを整形できるメニュー2

詳しい整列テクニックは別の記事で解説していく予定です。

では、書式崩れを起こしたPDFファイルをどのように整形できるか実例を挙げて紹介します。

例えば、青果物の市況をまとめたPDFファイルを取り込んだとします。

元になるPDFファイル

パワークエリエディタで取り込んだ結果、都道府県名が分割されてしまいました。

書式くずれを起こした状態

PowerQueryの標準機能を活用した結果、PDFデータの書式くずれを整形できました

書式くずれの修正後

PowerQueryのメニューをうまく駆使することで、手作業にに比べ効率よく転記処理を進められるでしょう。

【参考】複数のPDFファイルを一つにまとめる

パワークエリで複数のPDFファイルを取り込むことも可能です。

Excelブックなど、他のファイル形式と同じですが、「データ」タブ→「ファイルから」→「フォルダーから」の順に選びます。

複数PDFの取込メニュー

PDFファイルが格納されているフォルダを選択し、「開く」をクリックします。

フォルダを選択

Source.Name列を確認すると、2020年度と2021年度の2つのPDFファイルが取り込まれていることが分かります。

複数のPDFファイルを表示

パワークエリエディタを閉じると、ワークシートにデータが出力されます。

ワークシートに出力

新たに2022年度のファイルを追加してみましょう。

新しいPDFファイル

対象テーブルを選択肢、右クリックメニュー「更新」を実行します。

更新処理

2022年度のデータが追加されました。

追加されたデータ

ここで注意すべきことは、全てのPDFファイルのレイアウトを統一させた状態かを前もって確認しておくことです。
個々のレイアウトが違うと、正しくデータを取り込めずエラーになってしまいます。
もしレイアウトの違いによるエラーが発生したなら、まとめてではなく個別に取り込んだデータを後で合わせるようにしましょう。

まとめ

今回は、パワークエリでPDFファイルを取り込む手順について解説しました。

小さい表であれば手作業でのデータ移し替えもそんなに苦にはなりませんが、データが莫大になるとPowerQueryを活用することで取込にかける時間や不可を減らせます。

PDFファイルは書式崩れの問題もありますが、PowerQueryの標準データである程度の整形処理は可能です。

特に、行政や企業のデータリサーチを業務にしている人には、業務効率につながるいい方法だと思いますので、ぜひトライしてみましょう。

スポンサードリンク

スポンサードリンク

-データ(Excel)