Back to site
Since 2004, our University project has become the Internet's most widespread web hosting directory. Here we like to talk a lot about web servers, web development, networking and security services. It is, after all, our expertise. To make things better we've launched this science section with the free access to educational resources and important scientific material translated to different languages.

My PDF Hammer

Date versus informaţii

Ca parte a unei iniţiative a Guvernului Deschideţi Guvernul SUA a creat orientări şi obiective pentru a face mai multe dintre informaţiile deţinute de agenţiile guvernamentale mai accesibile pentru public. A se vedea, de exemplu, presedintele Obama decembrie 2009 directivă.

Desigur, am avocat utilizarea judicioasă a PDF pentru difuzarea acestor informaţii guvernamentale. Ei bine, în majoritatea situaţiilor.

Voi folosi termenii de date şi informaţii pentru a distinge cel puţin două modalităţi de agenţiile guvernamentale li se cere să furnizeze informaţii la dispoziţia publicului în format electronic. Datele sunt doar numerele prime, nume, locuri, etc lucruri s-ar putea trage dintr-o bază de date. Dar date pot fi modelate în informaţii prin furnizarea de interpretări, concluzii, subliniind inconsecvenţele şi apoi impachetarea-l într-o formă atractivă. Şi apoi, nu este cea mai extremă opinia McLuhan că mediul este mesajul! 

Când merg la un site Web guvern vreau, de obicei, informaţii care nu sunt date. Atunci când un analist merge la un site de guvern ea ar putea dori doar datele brute, astfel încât aceasta poate fi interpretată, în formă şi analizate, şi sa transformat într-un document specific ca nu informaţiilor furnizate de site-ul guvernului.

Ciocane

Există spune că, dacă aveţi un ciocan, apoi totul arata ca un cui. Ştiu sigur meu nepot 3 ani crede aşa că atunci când el are un ciocan în mână lui reală. Şi eu trebuie să mărturisesc că, din punctul meu de vedere, aproape toate nevoile sunt cel mai bine abordate cu ajutorul PDF. PDF este ciocanul meu metaforic. am o anumită justificare pentru această poziţie ca lider de proiect pentru ISO 32000 standardul PDF.

Pentru real, în cele mai multe cazuri, agenţii guvernamentale pot, şi nu, utilizează PDF pentru distribuire eficiente de informare. Informaţii în format PDF pot fi descărcate, citit în forma sa electronică, salvat de trimitere mai târziu, la comun şi tipărite. Aproape toată lumea are un cititor de PDF gratuit. Documentele PDF pot fi, de asemenea, infuzat cu, ceea ce ne place la Adobe pentru a apela, "bogat document" caracteristici. Reprezentarea finală a informaţiilor pot fi foarte importante. După cum sa menţionat mai devreme, mediul este mesajul, sau se poate face cu siguranţă o contribuţie importantă.

Cu toate acestea, pentru persoana care vrea date brute, PDF nu este alegerea potrivita. A se vedea, eu sunt dispus să se abţină de la lovindu-totul in vedere cu ciocanul meu PDF! Dar datele primare nu este de mare folos dacă nu aţi metadate (date despre date) descrie, cum pentru a accesa elementele data, intervalele şi semnificaţii pentru elementele de date individuale, în cazul în care datele provin de la, cât de vechi este de date, cum autentic, şi atât de multe alte proprietăţi importante. Deci, voi argumenta mai târziu că, de fapt, PDF poate juca un rol foarte important în distribuirea de date brute, oferind un mijloc de inteligent să însoţească aceste date cu metadate semnificative şi precise. (Am folosit termenul de metadate  aici, într-un mod foarte general, ca date despre date, şi poate un pic diferit decât vă sunt utilizate pentru a.)

XML

Iniţiativa Guvernul a aparut oameni care au ciocane XML. Cred că unele entuziasti XML, dar cu siguranţă nu toate, du-te peste bord. Cred că doare cauza lor. După cum am blogged mai devreme ( XML pentru • • • ), XML este una dintre tehnologiile cele mai înţeleasă greşit, dar util, avem în set de instrumente de astăzi. Avem nevoie să renunţe la ciocane noastre şi ia în considerare faptele.

Utilizarea XML pentru datele brute este nucleul de o idee bună. Dar aici sunt probleme majore care apar pentru că nu mergem mai departe într-o discuţie mai completă:

  1. Cei care nu sunt familiarizaţi cu XML, trebuie să înţeleagă că nu este un limbaj XML markup unică pentru o singură utilizare, dar aceasta este o metodă pentru definirea şi utilizarea limbaje specializate markup. Acesta este motivul pentru care am de spus XML pentru carti de vizita, XML pentru facturi, XML de clasificare a comisiilor de acţiune politică  şi aşa mai departe. Exista mii de astfel de limbaje XML şi nu vor fi mii mai mult pentru a acoperi toate aceste seturi de date în cazul în care guvernul XML este necesar. Vă rugăm să consultaţi-mi pe blog-anterior pentru mai multe pe acest subiect.
  2. Seturi de date mari prime pot fi prohibitiv de mare atunci când exprimate într-un limbaj de marcare XML. Inutil de mare, dintr-o viziune teoretică informaţii. De exemplu, aici este un fişier de date XML care poate fi găsit pewww.data.gov la această pagină Web. Reţineţi că, atunci când descărcaţi acest fişier, acesta este un fisier ZIP a cărei mărime este 11903362 bytes. Când îl dezarhivati, deşi, veţi obţine un fişier XML 220655917 octet. În acest caz, personalul EPA ştiu că fişierele XML pot fi foarte mari şi le-au ambalat într-o ZIP pentru a descărca pentru a reduce din timpul de emisie cu un multiplu de peste 18 ani. Cu alte cuvinte, dacă este nevoie de un minut pentru a descărca versiunea ZIP'ed, va dura peste 18 de minute pentru a descărca o versiune XML brut. Dupa dezarhivare, fişierul XML este identic cu cel original. Deci, orice advocacy pentru XML, ar trebui să fie întotdeauna însoţită de o discuţie Dimensiunea şi considerentele de a folosi ceva de genul ZIP. Pentru a face altfel ar fi iresponsabil.
  3. Fişiere XML nevoie de metadate suplimentare, în scopul de a face uz de date care se găseşte în interiorul ei.Dacă vi se administrează de trei cifre (007, 56, 00010), nu s-ar putea ghici că ele reprezintă o zi de nastere, care este mai frecvent furnizat ca 7/10/1956 în SUA. Dar, chiar dacă aceasta este prevăzută în această formă, ea nu este reprezentativă pentru modul în care este adesea exprimată în alte ţări ca 10-07-56. Excepţia cazului în care informaţiile suplimentare oferite există o ambiguitate între 7 şi 10, la care este luna şi pe care a doua zi. Şi aceasta este un exemplu banal. Avem nevoie de informaţii suplimentare, de exemplu, metadate, pentru a putea interpreta datele cu precizie şi face utilizarea corespunzătoare a acestuia. Regulile de bază sintactice utilizate pentru un limbaj de marcare poate şi ar trebui să fie furnizate de către oferind o schemă XML (. xsd fişier), dar chiar că nu merge suficient de departe. Avem, de asemenea, nevoia de a explica semantica, care necesită, de obicei, un document tehnic.
  4. Există şi alte formate de date brute, care ar putea fi mai potrivite pentru nevoile particulare, cum ar fi foi de calcul standard de fişiere (CSV -. valorile caractere separate ) sau Microsoft şi Open Office formate de foi de calcul (xlsx şi ods, respectiv,..). Aceasta din urmă poate include, de asemenea, formulele şi normele necesare pentru a calcula date dependente şi de sinteză. În plus, s-ar putea fi foarte dosarele de cerere specifice, nu în format XML, adecvate pentru nevoile specifice. De exemplu, shapefile (. SHP) pentru deţinerea de informaţii spaţiale în funcţiewww.data.gov  pagina Web de referinţă anterioare.

Notă: Nu poate fi un argument care face comprimarea / decomprima fişiere este atât de consumatoare de timp ca timpul pierdut nu se face în timpul de emisie redus. Cu procesor de iluminat de astăzi rapid de ori de compresie şi de decompresie sunt relativ minore, dar ori de transport poate fi o problemă dacă nu aveţi conexiunile cele mai noi şi Internet. Deci, aproape întotdeauna, alegerea de a utilizat comprimat de date este un drept pentru datele exprimate într-un limbaj de marcare XML.

PDF în loc de ZIP

Într-un blog anterior ( PDF File Attachments ), am descris caracteristicile fişier ataşat la standardul PDF ( ISO 32000 ). Pentru a rezuma, orice număr de ataşări fişier poate fi integrat în orice fişier PDF. Acestea pot fi extrase pentru a fi utilizate de către oricine care primeşte fişierul PDF. În plus, aceste ataşamente fişier poate fi comprimat utilizând metoda de compresie mai obişnuit care este utilizat în ZIP fisiere: dezumfle / flate. În scopul de distribuire datelor guvernamentale, acest lucru este aproape ideal. Fişier PDF poate transporta xml sau a altor fişiere de date brute ca ataşări comprimate şi că documentul de bază PDF, în sine, poate furniza toate informaţiile suplimentare semantică care ar fi necesare în scopul de a face uz de date -. Metadate. În cazul în care datele brute este în formă XML, apoi un comprimat fişier XML Schema (. Xsd) pot fi, de asemenea, anexat la documentul PDF. Deci, atunci când se utilizează PDF, de punctul de mai sus sunt abordate: Filesize, metadatele necesare pentru a defini limbajul de markup XML utilizate, precum şi alte formate decât XML.

Am creat un eşantion plic PDF incepand de la acest set de date guvernamentale. S-ar putea să-l uite peste.Reţineţi că atât setul de date XML şi fişiere schemă asociate sunt echipamentele la PDF, care vă ajută să definească XML limbaj de marcare utilizat pentru acest fişier. Mi-am luat din introducerea generală de pe pagina web a Guvernului şi a făcut o scurtă descriere pentru fiecare dintre elementele XML găsit în fişierul. Asiguraţi-vă că utilizaţi un cititor de PDF care poate afişa ataşamentul şi adnotări care pot extrage fişierele ataşate. Adobe Reader poate face asta.

Un alt beneficiu important pe care pur şi simplu atunci când utilizarea plicurilor PDF, este că tehnologia semnăturii digitale disponibile pentru fişierele PDF, de asemenea, poate acoperi echipament automat, deoarece acestea sunt o parte oficial din fişierul PDF. Agenţiile guvernamentale pot trimite fisiere PDF care conţine un certificat digital fişierele de date şi clienţii lor pot autentifica că PDF-ul, şi toate ataşamentele, a venit de la această agenţie şi nu au fost alterate în scop malefic. A se vedea blog-ul meu anterior cu privire la documente autentificate PDF.

Alte modalităţi de a utiliza atasamentele de tip PDF pentru furnizarea de informaţii guvernamentale

Deci, am descris modul în care putem folosi PDF pentru a oferi un pachet complet pentru descărcarea de date primare. Dar putem spori, de asemenea, bogat formatate fişiere PDF informaţii cu fişiere de date brute care au fost folosite pentru a crea PDF-uri. De exemplu, dacă un document conţine, diagrame structură radială, diagrame bară sau informaţii de tabel, datele brute care a fost utilizat pentru a crea aceste informaţii formatate pot fi ataşate la fişierul PDF. O adnotare pot fi plasate pe diagramă sau un tabel, care permite ataşarea corespunzătoare care urmează să fie extras. Acesta este acoperit un pic mai mult în meu blog-ul precedent.

O utilizare terţe pentru atasamentele de tip PDF este de a crea fişiere hibrid. Acestea sunt fişiere PDF care se ataseaza documentul original sursă editabil (de exemplu, sau ODF. Docx. Fişier), care a fost utilizat pentru a crea PDF-ul. Într-un sens, aceasta face PDF editabile, ceva pentru care oamenii o pun. Citând din OpenOffice org site-ul web:. "Un hibrid PDF / ODF fişier este un fişier PDF care conţine o sursă încorporat ODF 
fişier PDF Hybrid / ODF fişierele vor fi deschise în OpenOffice.org ca ODF. 
fişier, fără modificări de aspect fără Utilizatori. această extensie pot deschide 
PDF-o parte a fişierului hibrid cu vizualizator PDF lor. " Adobe Acrobat lui Instrumente Microsoft Office, de asemenea, posibilitatea să creaţi fişiere PDF cu fişier Office care le-a creat ca ataşament.

Deci ciocan departe, vă entuziaşti PDF.

Jim King ( jking@adobe.com )

Useful Info
Published (Last edited): 20-11-2011 , source: http://blogs.adobe.com/insidepdf/2010/11/my-pdf-hammer.html