+ Reply to Thread
Results 1 to 3 of 3

Thread: PDF to plain text, HTML, XML converter

  1. #1

    PDF to plain text, HTML, XML converter

    Čau, práve pracujem na jednom projekte a potreboval by som vhodný converter PDF dokumentov do nejakého textového formátu. Ide mi len o to, vytiahnuť z PDF abstrakt a kľúčové slová, ktoré väčšinou bývajú na prvých stránkach.

    Na googli je toho plno, ale nemám možnosť volať z PHP externé aplikácie tak by to malo byť priamo v PHP, prípadne nejaký online konverter. Google ponúkal kedysi v prílohách mailov odkaz "Zobraziť ako HTML", ale to už nahradil svojim Google Docs, kde text nejde vytiahnuť.

    Zatiaľ najlepšie výsledky dáva ZohoViewer. Ten ale rozhádže diakritiku. Skúšal som toho plno a tento je najlepší čo sa týka rýchlosti a kvality. Ak by ste mali ale nejaké riešenie priamo v podobe PHP skriptu tak rád vyskúšam. Vopred dík
    Všetci chcú vaše dobro. Nedajte si ho vziať!!

  2. #2

    Re: PDF to plain text, HTML, XML converter

    Neviem, ci to pomoze, lebo celkom nechapem ten problem " nemám možnosť volať z PHP externé aplikácie " ale skus nieco s tohto

    http://www.moreofit.com/similar-to/v...e_Zoho_Viewer/
    Všetko o hrách a novinkách s herného sveta nájdete na http://the-guild.cz/.

  3. #3

    Re: PDF to plain text, HTML, XML converter

    Server beží na FreeBSD a nebol by problém urobiť toto:
    Code:
    system("pdftotext $filename");
    Potom si už len prečítať výsledok. Ale PHP beží v safe_mode a teda nemôžem zavolať žiadny program. Inak by to nebol problém, nástrojov je na nete plno. Už som nejakým tým reverzným inžinierstvom dostal dáta aj z Google Docs, ale vypadne z toho nie moc pekné XML Inak, dík moc. Popozerám to, aj keď už to mám v podstate spravené cez Zoho
    Všetci chcú vaše dobro. Nedajte si ho vziať!!

+ Reply to Thread

Posting Permissions

  • You may not post new threads
  • You may not post replies
  • You may not post attachments
  • You may not edit your posts