Chapter 11
Document Information and Metadata

cpdf -info [-raw | -utf8] in.pdf

cpdf -page-info in.pdf

cpdf -pages in.pdf

cpdf -set-title <title of document>
     [-also-set-xmp] [-just-set-xmp] [-raw] in.pdf -o out.pdf
(Also -set-author etc. See Section 11.2.)

cpdf -set-page-layout <layout> in.pdf -o out.pdf

cpdf -set-page-mode <mode> in.pdf -o out.pdf

cpdf -hide-toolbar <true | false> in.pdf -o out.pdf
     -hide-menubar
     -hide-window-ui
     -fit-window
     -center-window
     -display-doc-title

cpdf -open-at-page <page number> in.pdf -o out.pdf
cpdf -open-at-page-fit <page number> in.pdf -o out.pdf

cpdf -set-metadata <metadata-file> in.pdf -o out.pdfcpdf -remove-metadata in.pdf -o out.pdf
cpdf -print-metadata in.pdf
cpdf -create-metadata in.pdf -o out.pdf
cpdf -set-metadata-date <date> in.pdf -o out.pdf

cpdf -add-page-labels in.pdf -o out.pdf
     [-label-style <style>] [-label-prefix <string>]
     [-label-startval <integer>] [-labels-progress]

cpdf -remove-page-labels in.pdf -o out.pdf
cpdf -print-page-labels in.pdf

11.1 Reading Document Information

The -info operation prints entries from the document information dictionary, and from any XMP metadata to standard output.

$cpdf -info pdf_reference.pdf  
Encryption: 40bit  
Linearized: true  
Permissions: No edit  
Version: 1.6  
Pages: 1310  
Title: PDF Reference, version 1.7  
Author: Adobe Systems Incorporated  
Subject: Adobe Portable Document Format (PDF)  
Keywords:  
Creator: FrameMaker 7.2  
Producer: Acrobat Distiller 7.0.5 (Windows)  
Created: D:20061017081020Z  
Modified: D:20061118211043-02’30’  
XMP pdf:Producer: Adobe PDF library 7.77  
XMP xmp:CreateDate: 2006-12-21T18:19:09+01:00  
XMP xmp:CreatorTool: Adobe Illustrator CS2  
XMP xmp:MetadataDate: 2006-12-21T18:19:09Z  
XMP xmp:ModifyDate: 2006-12-21T18:19:09Z  
XMP dc:title: AI6

The details of the format for creation and modification dates can be found in Appendix A.

By default, cpdf strips to ASCII, discarding character codes in excess of 127. In order to preserve the original unicode, add the -utf8 option. To disable all postprocessing of the string, add -raw. See Section 1.17 for more information.

The -page-info operation prints the page label, media box and other boxes page-by-page to standard output, for all pages in the current range.

$cpdf -page-info 14psfonts.pdf  
Page 1:  
Label: i  
MediaBox: 0.000000 0.000000 600.000000 450.000000  
CropBox: 200.000000 200.000000 500.000000 500.000000  
BleedBox:  
TrimBox:  
ArtBox:  
Rotation: 0

Note that the format for boxes is minimum x, minimum y, maximum x, maximum y.

The -pages operation prints the number of pages in the file.

cpdf -pages Archos.pdf  
8

11.2 Setting Document Information

The document information dictionary in a PDF file specifies various pieces of information about a PDF. These can be consulted in a PDF viewer (for instance, Acrobat).

Here is a summary of the commands for setting entries in the document information dictionary:

Information        Examplecomm and-lin efragment
Title              cpdf -set-title

(The details of the format for creation and modification dates can be found in Appendix A. Using the date "now" uses the time and date at which the command is executed. Note also that -producer and -creator may be used to set the producer and/or the creator when writing any file, separate from the operations described in this chapter.)

For example, to set the title, the full command line would be

cpdf -set-title "A Night in London" in.pdf -o out.pdf

The text string is considered to be in UTF8 format, unless the -raw option is added—in which case, it is unprocessed, save for the replacement of any octal escape sequence such as \017, which is replaced by a character of its value (here, 15).

To set also any field in the XMP metadata, add -also-set-xmp. The field must exist already. To set only the field (not the document information dictionary), add -just-set-xmp instead.

11.3 XMP Metadata

PDF files can contain a piece of arbitrary metadata, often in XMP format. This is typically stored in an uncompressed stream, so that other applications can read it without having to decode the whole PDF. To set the metadata:

cpdf -set-metadata data.xml in.pdf -o out.pdf

To remove any metadata:

cpdf -remove-metadata in.pdf -o out.pdf

To print the current metadata to standard output:

cpdf -print-metadata in.pdf

To create XMP metadata from scratch, using any information in the Document Information Dictionary (old-style metadata):

cpdf -create-metadata in.pdf -o out.pdf

To set the XMP metadata date field, use:

cpdf -set-metadata-date <date> in.pdf -o out.pdf

The date format is defined in Appendix A.2. Using the date "now" uses the time and date at which the command is executed.

11.4 Upon Opening a Document

11.4.1 Page Layout

The -set-page-layout operation specifies the page layout to be used when a document is opened in, for instance, Acrobat. The possible (case-sensitive) values are:

SinglePage      D isplay onepageatatim e
OneColumn       D isplay thep agesinonecolumn

TwoColumnLeft   D isplay the pages in tw o colum ns, odd num bered pa&#x

TwoColumnRight  D isplay the pagesintwo columns,evennum beredp
                (PDF 1.5and above)Displaythepagestwoatatime,odd
TwoPageLeft     num bered pageson the left

TwoPageRight    (PDF 1.5andabove)Displaythepagestw oatatime,e
                num bered pageson the left

For instance:

cpdf -set-page-layout TwoColumnRight in.pdf -o out.pdf

NB: If the file has a valid /OpenAction setting, which tells the PDF reader to open at a certain page or position on a page, this will override the page layout option. To prevent this, use the -remove-dict-entry functionality from Section 17.9:

cpdf -remove-dict-entry /OpenAction in.pdf -o out.pdf

11.4.2 Page Mode

The page mode in a PDF file defines how a viewer should display the document when first opened. The possible (case-sensitive) values are:

UseNone         N either docum entoutlinenor thum bnailim ages visible

UseOutlines     D ocum entoutline (bookmarks)visible
UseThumbs       Thum bnailimagesvisible
                Full-screenm ode(no menubar,windowcontrols,orany-
FullScreen      thing butthe docum entvisible)

UseOC           (PDF 1.5andabove)Optionalcontentgrouppanelvisible
UseAttachments  (PDF 1.5and above)Attachm entspanelvisible

For instance:

cpdf -set-page-mode FullScreen in.pdf -o out.pdf

11.4.3 Display Options

-hide-toolbar
                    H ide the viewer’stoolbar
-hide-menubar       D ocumentoutline (bookmarks)visible
-hide-window-ui     H ide the viewer’sscrollbars

-fit-window         R esizethe docum ent’swindowstofitsize offirstpag&#
-center-window      P ositionthedocumentwindow in thecenterofth�
                    D isplay the docum enttitleinsteadofthefilenameinthe
-display-doc-title  titlebar

For instance:

cpdf -hide-toolbar true in.pdf -o out.pdf

The page a PDF file opens at can be set using -open-at-page:

cpdf -open-at-page 15 in.pdf -o out.pdf

To have that page scaled to fit the window in the viewer, use -open-at-page-fit instead:

cpdf -open-at-page-fit end in.pdf -o out.pdf

(Here, we used end to open at the last page. Any page specification describing a single page is ok here.)

11.5 Page Labels

It is possible to add page labels to a document. These are not the printed on the page, but may be displayed alongside thumbnails or in print dialogue boxes by PDF readers. We use -add-page-labels to do this, by default with decimal arabic numbers (1,2,3…). We can add -label-style to choose what type of labels to add from these kinds:

    DecimalArabic  1,2,3,4,5...
   LowercaseRoman  i,ii,iii,iv,v...
   UppercaseRoman  I,II,III,IV,V...
 LUopwpeerrccaasseeLLeetttteerrss  aA,b,,Bc,,C..�.,z,aa,bb...
NoLabelPrefixOnly  N onum ber,butaprefixwillbe used ifdefined.

We can use -label-prefix to add a textual prefix to each label. Consider a file with twenty pages and no current page labels (a PDF reader will assume 1,2,3…if there are none). We will add the following page labels:

i, ii, iii, iv, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, A-0, A-1, A-2, A-3, A-4, A-5

Here are the commands, in order:

cpdf -add-page-labels in.pdf 1-4 -label-style LowercaseRoman
     -o out.pdf

cpdf -add-page-labels out.pdf 5-14 -o out.pdf

cpdf -add-page-labels out.pdf 15-20 -label-prefix "A-"
     -label-startval 0 -o out.pdf

By default the labels begin at page number 1 for each range. To override this, we can use -label-startval (we used 0 in the final command), where we want the numbers to begin at zero rather than one. The option -labels-progress can be added to make sure the start value progresses between sub-ranges when the page range specified is disjoint, e.g 1-9, 30-40 or odd.

Page labels may be removed altogether by using -remove-page-labels command. To print the page labels from an existing file, use -print-page-labels. For example:

$ cpdf -print-page-labels cpdfmanual.pdf  
labelstyle: LowercaseRoman  
labelprefix: None  
startpage: 1  
startvalue: 1  
labelstyle: DecimalArabic  
labelprefix: None  
startpage: 9  
startvalue: 1

Python Interface

 
# CHAPTER 11. Document Information and Metadata 
 
def isLinearized(filename): 
    """Finds out if a document is linearized as quickly 
    as possible without loading it.""" 
 
def getVersion(pdf): 
    """Return the minor version number of a document.""" 
 
def getMajorVersion(pdf): 
    """Return the minor version number of a document.""" 
 
def getTitle(pdf): 
    """Return the title of a document.""" 
 
def getAuthor(pdf): 
    """Return the subject of a document.""" 
 
def getSubject(pdf): 
    """Return the subject of a document.""" 
 
def getKeywords(pdf): 
    """Return the keywords of a document.""" 
 
def getCreator(pdf): 
    """Return the creator of a document.""" 
 
def getProducer(pdf): 
    """Return the producer of a document.""" 
 
def getCreationDate(pdf): 
    """Return the creation date of a document.""" 
 
def getModificationDate(pdf): 
    """Return the modification date of a document.""" 
 
def getTitleXMP(pdf): 
    """Return the XMP title of a document.""" 
 
def getAuthorXMP(pdf): 
    """Return the XMP author of a document.""" 
 
def getSubjectXMP(pdf): 
    """Return the XMP subject of a document.""" 
 
def getKeywordsXMP(pdf): 
    """Return the XMP keywords of a document.""" 
 
def getCreatorXMP(pdf): 
    """Returs the XMP creator of a document.""" 
 
def getProducerXMP(pdf): 
    """Return the XMP producer of a document.""" 
 
def getCreationDateXMP(pdf): 
    """Return the XMP creation date of a document.""" 
 
def getModificationDateXMP(pdf): 
    """Return the XMP modification date of a document.""" 
 
def setTitle(pdf, s): 
    """Set the title of a document.""" 
 
def setAuthor(pdf, s): 
    """Set the author of a document.""" 
 
def setSubject(pdf, s): 
    """Set the subject of a document.""" 
 
def setKeywords(pdf, s): 
    """Set the keywords of a document.""" 
 
def setCreator(pdf, s): 
    """Set the creator of a document.""" 
 
def setProducer(pdf, s): 
    """Set the producer of a document.""" 
 
def setCreationDate(pdf, s): 
    """Set the creation date of a document.""" 
 
def setModificationDate(pdf, s): 
    """Set the modifcation date of a document.""" 
 
def setTitleXMP(pdf, s): 
    """Set the XMP title of a document.""" 
 
def setAuthorXMP(pdf, s): 
    """Set the XMP author of a document.""" 
 
def setSubjectXMP(pdf, s): 
    """Set the XMP subject of a document.""" 
 
def setKeywordsXMP(pdf, s): 
    """Set the XMP keywords of a document.""" 
 
def setCreatorXMP(pdf, s): 
    """Set the XMP creator of a document.""" 
 
def setProducerXMP(pdf, s): 
    """Set the XMP producer of a document.""" 
 
def setCreationDateXMP(pdf, s): 
    """Set the XMP creation date of a document.""" 
 
def setModificationDateXMP(pdf, s): 
    """Set the XMP modification date of a document.""" 
 
def getDateComponents(string): 
    """Return the components (year, month, day, hour, minute, second, 
    hour_offset, minute_offset) from a PDF date string. 
 
    Month 1-31, day 1-31, hours (0-23), minutes (0-59), seconds 
    (0-59), hour_offset is the offset from UT in hours (-23 to 23); 
    minute_offset is the offset from UT in minutes (-59 to 59).""" 
 
def dateStringOfComponents(cs): 
    """Build a PDF date string a (year, month, day, hour, minute, second, 
    hour_offset, minute_offset) tuple. 
 
    Dates: Month 1-31, day 1-31, hours (0-23), minutes (0-59), seconds 
    (0-59), hour_offset is the offset from UT in hours (-23 to 23); 
    minute_offset is the offset from UT in minutes (-59 to 59).""" 
 
def getPageRotation(pdf, pagenumber): 
    """Get the viewing rotation for a given page.""" 
 
def hasBox(pdf, pagenumber, boxname): 
    """Returns True, if the page has the given box. E.g "/CropBox" """ 
 
def getMediaBox(pdf, pagenumber): 
    """Get a mediabox box given the document, page range, min x, max x, 
    min y, max y in points. Only suceeds if such a box exists, as checked by 
    hasBox""" 
 
def getCropBox(pdf, pagenumber): 
    """Get a crop box given the document, page range, min x, max x, 
    min y, max y in points. Only suceeds if such a box exists, as checked by 
    hasBox""" 
 
def getTrimBox(pdf, pagenumber): 
    """Get a trim box given the document, page range, min x, max x, 
    min y, max y in points. Only suceeds if such a box exists, as checked by 
    hasBox""" 
 
def getArtBox(pdf, pagenumber): 
    """Get an art box given the document, page range, min x, max x, 
    min y, max y in points. Only suceeds if such a box exists, as checked by 
    hasBox""" 
 
def getBleedBox(pdf, pagenumber): 
    """Get a bleed box given the document, page range, min x, max x, 
    min y, max y in points. Only suceeds if such a box exists, as checked by 
    hasBox""" 
 
def setMediaBox(pdf, r, minx, maxx, miny, maxy): 
    """Set the media box given the document, page range, min x, max x, 
    min y, max y in points.""" 
 
def setCropBox(pdf, r, minx, maxx, miny, maxy): 
    """Set the crop box given the document, page range, min x, max x, 
    min y, max y in points.""" 
 
def setTrimBox(pdf, r, minx, maxx, miny, maxy): 
    """Set the trim box given the document, page range, min x, max x, 
    min y, max y in points.""" 
 
def setArtBox(pdf, r, minx, maxx, miny, maxy): 
    """Set the art box given the document, page range, min x, max x, 
    min y, max y in points.""" 
 
def setBleedBox(pdf, r, minx, maxx, miny, maxy): 
    """Set the bleed box given the document, page range, min x, max x, 
    min y, max y in points.""" 
 
def markTrapped(pdf): 
    """Mark a document as trapped.""" 
 
def markUntrapped(pdf): 
    """Mark a document as untrapped.""" 
 
def markTrappedXMP(pdf): 
    """Mark a document as trapped in XMP metadata.""" 
 
def markUntrappedXMP(pdf): 
    """Mark a document as untrapped in XMP metadata.""" 
 
def setPageLayout(pdf, layout): 
    """Set the page layout for a document.""" 
 
def setPageMode(pdf, mode): 
    """Set the page mode for a document.""" 
 
def hideToolbar(pdf, flag): 
    """Sets the hide toolbar flag.""" 
 
def hideMenubar(pdf, flag): 
    """Set the hide menu bar flag.""" 
 
def hideWindowUi(pdf, flag): 
    """Set the hide window UI flag.""" 
 
def fitWindow(pdf, flag): 
    """Set the fit window flag.""" 
 
def centerWindow(pdf, flag): 
    """Set the center window flag.""" 
 
def displayDocTitle(pdf, flag): 
    """Set the display document title flag.""" 
 
def openAtPage(pdf, fitflag, pagenumber): 
    """Set the PDF to open, possibly with zoom-to-fit, at the given page 
    number. """ 
 
def setMetadataFromFile(pdf, filename): 
    """Set the XMP metadata of a document, given a file name.""" 
 
def setMetadataFromByteArray(pdf, data): 
    """Set the XMP metadata from an array of bytes.""" 
 
def getMetadata(pdf): 
    """Return the XMP metadata as a byte array of type bytes""" 
 
def removeMetadata(pdf): 
    """Remove the XMP metadata from a document""" 
 
def createMetadata(pdf): 
    """Builds fresh XMP metadata as good as possible from existing 
    metadata in the document.""" 
 
def setMetadataDate(pdf, date): 
    """Set the metadata date for a PDF. The date is given in PDF date format -- 
    cpdf will convert it to XMP format. The date now means now.""" 
 
def getPageLabels(pdf): 
    """Get page labels as a list of tuples (style, prefix, offset, startvalue) 
 
    For example, a document might have five pages of introduction with roman 
    numerals, followed by the rest of the pages in decimal arabic, numbered 
    from one. First label: 
 
     labelstyle = LowercaseRoman 
     labelprefix = "" 
     startpage = 1 
     startvalue = 1 
 
    Second label: 
 
     labelstyle = DecimalArabic 
     labelprefix = "" 
     startpage = 6 
     startvalue = 1 """ 
 
def addPageLabels(pdf, label, progress): 
    """Add one group of page labels from a tuple (style, prefix, offset, range). 
 
    The prefix is prefix text for each label. The range is the page range the 
    labels apply to. Offset can be used to shift the numbering up or down.""" 
 
def removePageLabels(pdf): 
    """Removes all page labels from the document.""" 
 
def getPageLabelStringForPage(pdf, pagenumber): 
    """Calculate the full label string for a given page, and return it."""