ニュース

モスバーガーの栄養成分表PDFをCSVにしたい。(その後はDB化して、Djangoで色々いじりたい) Javaをインストール。 コマンドプロンプトでtabulaをインストール。 プログラムを実行すると… UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8c in position 1: invalid start byte ...
tabula.read_pdfでPDFから表を抜き出すのに苦労したので思い出しながらまとめます。 tabula.read_pdfとは PythonのモジュールでPDFファイルから表を抽出する事ができます。他にもPDFからを読み取るモジュールはありますがtabulaは表の抽出に特化しているらしいです ...