Preg match all na pdf a doc subory zo zdrojoveho kodu

Programovacie jazyky, rady, poradňa...
xivo
Light Professional
Light Professional
Používateľov profilový obrázok
Príspevky: 752
Registrovaný: 27 jún 2005, 22:49
Bydlisko: Slovensko
Kontaktovať používateľa:

Preg match all na pdf a doc subory zo zdrojoveho kodu

Príspevok od používateľa xivo »

Cavte
Vedel by mi niekto poradit ako vytvorit pattern na preg_match_all pre nacitanie href atributov v html dokumente na pdf a doc fajly ? ... google akosi nepomohol
Dikes
chrono
VIP
VIP
Používateľov profilový obrázok
Príspevky: 7127
Registrovaný: 25 dec 2006, 15:17

Príspevok od používateľa chrono »

Nechápem, čo presne chceš, ale ak chceš niečo hľadať v .pdf a .doc súboroch musíš počítať s tým, že to nie sú textové súbory a navyše tam môže byť použitá kompresia (pri tom .pdf). Takže použitie tej php funkcie neprichádza do úvahy (možno po tom, ako by si ten súbor spracoval nejakým programom, ktorý by ti z tých súborov vybral text, ale je otázne, či je na webhostingu niečo také možné a či by to fungovalo).
audiotrack
VIP
VIP
Používateľov profilový obrázok
Príspevky: 25958
Registrovaný: 09 sep 2005, 18:39
Kontaktovať používateľa:

Príspevok od používateľa audiotrack »

v html súbore má odkazy na pdf a doc súbory, a z toho htmlka chce všetky href atribúty, čiže názvy všetkých doc a pdf súborov na ktoré odkazuje.
xivo
Light Professional
Light Professional
Používateľov profilový obrázok
Príspevky: 752
Registrovaný: 27 jún 2005, 22:49
Bydlisko: Slovensko
Kontaktovať používateľa:

Príspevok od používateľa xivo »

chrono napísal:Nechápem, čo presne chceš, ale ak chceš niečo hľadať v .pdf a .doc súboroch musíš počítať s tým, že to nie sú textové súbory a navyše tam môže byť použitá kompresia (pri tom .pdf). Takže použitie tej php funkcie neprichádza do úvahy (možno po tom, ako by si ten súbor spracoval nejakým programom, ktorý by ti z tých súborov vybral text, ale je otázne, či je na webhostingu niečo také možné a či by to fungovalo).
No asi som to ozaj moc krkolomne napisal :)
Takze mam v bufferi nacitany obsah html stranky a potrebujem z obsahu vybrat/ vyparsovat vsetky odkazy na doc a pdf dokumenty

cize vsetky <a href="????"> otazniky, ktore koncia na .doc alebo .pdf

odkaz vobec nemusi zacinat http, alebo www moze tam by aj relativna cesta.
Proste regularne vyrazy vobec neovladam.
Dufam ze som to uz napisal zrozumitelnjsie. Dikes
//presne tak ako audiotrack pisal
audiotrack
VIP
VIP
Používateľov profilový obrázok
Príspevky: 25958
Registrovaný: 09 sep 2005, 18:39
Kontaktovať používateľa:

Príspevok od používateľa audiotrack »

Kód: Vybrať všetko

$data = '
nejake testovacie linky:
<a href="nieco.doc">sadfasdf</a><br />
<a href="nieco.pdf">asdf</a><br />
<a href="nieco.exe">asdf</a><br />
<a href="www.nieco.doc">fhgd</a><br />
<a href="www.nieco.pdf">sadfdfhgdfhasdf</a><br />
<a href="http://www.nieco.doc">asdf</a><br />
<a href="http://nieco.pdf">fgjfg</a><br />
';

var_dump($data);
preg_match_all('/href="((.*)[doc|pdf])"/iU',$data,$linky);
var_dump($linky[1]);
xivo
Light Professional
Light Professional
Používateľov profilový obrázok
Príspevky: 752
Registrovaný: 27 jún 2005, 22:49
Bydlisko: Slovensko
Kontaktovať používateľa:

Príspevok od používateľa xivo »

audiotrack napísal:...
Funguje to zatial dobre, dikes audiotrack ...
Napísať odpoveď