「PDFのデータをPowerQueryでExcelに取り込んだけど、書式くずれをどうやって整形したらいいのだろうか…」そんな経験はありませんか?
Power Queryの標準機能を活用すれば、PDFファイルのデータをExcelブックに取込み、転記にかける時間を大きく減らすことができます。
しかし、実際に読み込んでみると…
- 列がバラバラに分割されてしまう
- ▲(三角)表記のマイナスが数値として扱えない
- 表の見出しが正しく認識されない
- 横に広がったデータが集計しづらい
といったことがよく起こります。
この記事では、Power Queryを使って PDFデータをキレイに整形する4つの方法をわかりやすく解説します。
具体的には、日本政府が統計データを公開しているサービス「e-Stat」からダウンロードし、実際にパワークエリで整形してみました。
e-Stat以外の、いろいろな企業や機関が公開しているpdfデータ全般で使えるテクニックです。
手作業なしでスムーズにデータを扱えるようになるので、ぜひ最後まで読んでみてください!
手順その1-分割された列を統合する
PDFからデータを読み込むと、本来1つの列にまとまっているはずの情報が 複数の列に分かれてしまうことがあります。
ここでは、取り込んだPDF「都道府県名」が分割されています。
元データとなるPDFファイルでは、表の並びに特に違和感はありません。
いろんなところでよく見かける構成の表です。
このような症状は、Power Queryの「列のマージ」機能を使うことで解決できます。
まずは分割された2つの列を選択します。
「変換」列→「列のマージ」の順にクリックします。
ダイアログが起動しますが、結合後の列名を入力します。
マージ処理が完了して列が結合された状態です。
このように列が分割された状態でデータが取り込まれても、パワークエリの標準機能で列を結合させることが可能です。
手順その2-▲表記されたマイナスの手直し
PDFデータをPower Queryで読み込むと、マイナスの値が 「▲(三角)」記号で表現されていることがあります。
これは会計や財務データに多く見られる表記で、本来は「-(マイナス)」として認識されるべき数値です。
しかし、このままではExcelの数値として扱えず、計算や集計ができません。
そこで、Power Queryの「値の置換」機能を使って、「▲」をマイナス記号に変換し、数値として扱えるように整形しましょう。
「値の置換」メニューをクリックします。
起動した設定ダイアログ内の「検索する値」と「置換後」に記号を入力します。
ここで注意するべきことは、データにスぺースが含まれていないかを忘れずに確認することです。
ここでは半角スペースが含まれていたので、「検索する値」に含めました。
置換後の数値データにスペースが含まれていた場合は、データ型を数値に変換できません。
手順その3-表の見出しを修正
Power QueryでPDFデータを読み込むと、表の見出し(列名)がずれていたり、意図しない文字が含まれていたりする ことがあります。
例えば、以下のような問題が発生しがちです。
- 1行目にデータが含まれ、正しい列見出し名になっていない
- 「Column1」「Column2」などの自動生成された名前になってしまう
いろんな方法で見出し名の修正を行うことができますが、一番おすすめなのは、列名を直接変更する方法です。
手入力での変更は面倒くさく感じてしまいますが、根気強く作業を進めていきましょう。
列名の修正を済ませたら、フィルター機能で列見出しデータを削除しましょう。
ステップ数が少なくシンプルな構造なので、維持管理もしやすいです。
パワークエリには「一行目をヘッダーとして使用」というメニューもあります。
見出しの構成がシンプルな場合は有効ですが、そうでない場合はおすすめできません。
下のように、ステップ数が多くなって維持管理できないものが仕上がってしまいます。
手順その4-集計しやすい並びに整形
さらに、取り込んだデータを有効活用したい場合は、「ピボット解除」や「列のピボット」機能を使うことをおすすめします。
ピボット解除を行うと、横長に広がった項目名が縦長にまとめられます。
さらに、取り込んだデータを有効活用したい場合は、「ピボット解除」や「列のピボット」機能を使うことをおすすめします。
データ集計するときは、縦長にまとめられた表を使うのが定番です。
さらに、ここでは列の分割メニューも使っています。
設定ダイアログで「_(アンダーバー)」の前後で分割するよう設定しました。
結果列が分割されて見やすい表に仕上がりました。
また、状況によっては「列のピボット」を重ねて見やすいデータに仕上げるのも有効です。
ここではピボット解除に分割した列名「小分類」をピボット処理しました。
大分類はピボット解除されたままで、集計しやすい状態を維持しています。
ここで、都道府県の並びがバラバラになってしまったので、インデックス順に並び替えました。
インデックス列の追加は、「列の追加」タブに設置されています。
インデックス列は、ピボット解除前に追加するのがおすすめです。
まとめ
今回は、パワークエリを使ってPDFデータを取り込み、整形する際によく使うメニューを4つ紹介しました。
公共や企業から公開された統計データには、まだ活用されていない貴重な情報が眠っています。
AIツールが普及した今でも、必要なデータを的確に抽出し、思い通りに加工するスキルは重要です。
なぜなら、AIツールはあなたや上司の意図を完全に読み取ることはできませんし、未整理のデータをそのまま入力しても、適切な結果を得るのは難しいからです。
そこで活きるのがパワークエリです。
AIツールが正しく認識できる形式にデータを整えるだけでなく、AIを使う前に手作業で素早くデータを整理・分析するのにも役立ちます。
データ活用の精度を上げ、AIを最大限に活用するためにも、パワークエリのスキルは今後ますます価値を持つでしょう。