binzume.net / 日記

2013-08-17 日記

この日記はフィクションです．登場する人名・団体名・地名・職業などはぜんぶ架空のものです．なので実際のものとは何も関係がありません．それから，写真のように見える画像はＣＧもしくは念写によるものです．

binzume.net

2013-08-17 (土)

PDFの勉強のため内部のテキストを抜き出すプログラム書いたりする．

PDF内のテキストは複雑なので，あまり扱いたくなかったのだけど，そろそろ，自炊本リーダ(仮)でテキスト表示したい．既存のPDFライブラリ使えば良いのだけど．

AdobeのPDFの仕様書と，実際のPDFを見比べながらいろいろ．

*PDF内のテキスト

PDF内のテキストデータは

(Hello)

とか

<037003b103ab03b103ab0c880358>

のような感じに入っています．(ほとんどの場合)英数字はそのまま入ってますが，日本語は謎の16進数が並んでいます．

Font

PageオブジェクトのResources下に，FontというDictionaryがある．そのなかにF1,F2,F3…という名前でフォント情報が列挙されている．

PDFの文字列は，エンコーディングの情報もFontに入っています．なのでFontをどうにかしないと，文字列を取得することすらできません．UTF-8とかなら良いのだけど，大抵はフォントのCIDが書かれています．

Font/Encoding

日本語のPDFでよく見るのは下の2つ．

Identity-H CID (縦書は-V)
90ms-RKSJ-H ShiftJIS (縦書は-V)

Font/DescendantFonts/CIDSystemInfo

Registry, Ordering, Supplementが入っている．

例えば，

Registry: Adobe
Ordering: Japan1
Supplement: 2

Orderingごとに，どのCIDがどの文字に対応するかのマッピングはAdobeが公開している．

ToUnicode

EncodingがIdentityのとき，CIDとUnicodeのマッピングが書かれている．中身はたまに見かけるCMapファイルそのままっぽい．あまり見かけない．

検索

07< 2013-08 >09

*アーカイブ

Sun	Mon	Tue	Wed	Thu	Fri	Sat
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Sun	Mon	Tue	Wed	Thu	Fri	Sat
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

binzume.net

2013-08-17 (土)

*PDF内のテキスト

Font

Font/Encoding

Font/DescendantFonts/CIDSystemInfo

ToUnicode

検索

07< 2013-08 >09

*アーカイブ

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000

1999

Sun	Mon	Tue	Wed	Thu	Fri	Sat
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31