Preg match all na pdf a doc subory zo zdrojoveho kodu

xivo

Cavte
Vedel by mi niekto poradit ako vytvorit pattern na preg_match_all pre nacitanie href atributov v html dokumente na pdf a doc fajly ? ... google akosi nepomohol
Dikes

Nechápem, čo presne chceš, ale ak chceš niečo hľadať v .pdf a .doc súboroch musíš počítať s tým, že to nie sú textové súbory a navyše tam môže byť použitá kompresia (pri tom .pdf). Takže použitie tej php funkcie neprichádza do úvahy (možno po tom, ako by si ten súbor spracoval nejakým programom, ktorý by ti z tých súborov vybral text, ale je otázne, či je na webhostingu niečo také možné a či by to fungovalo).

v html súbore má odkazy na pdf a doc súbory, a z toho htmlka chce všetky href atribúty, čiže názvy všetkých doc a pdf súborov na ktoré odkazuje.

xivo

chrono napísal:Nechápem, čo presne chceš, ale ak chceš niečo hľadať v .pdf a .doc súboroch musíš počítať s tým, že to nie sú textové súbory a navyše tam môže byť použitá kompresia (pri tom .pdf). Takže použitie tej php funkcie neprichádza do úvahy (možno po tom, ako by si ten súbor spracoval nejakým programom, ktorý by ti z tých súborov vybral text, ale je otázne, či je na webhostingu niečo také možné a či by to fungovalo).

No asi som to ozaj moc krkolomne napisal

Takze mam v bufferi nacitany obsah html stranky a potrebujem z obsahu vybrat/ vyparsovat vsetky odkazy na doc a pdf dokumenty

cize vsetky <a href="????"> otazniky, ktore koncia na .doc alebo .pdf

odkaz vobec nemusi zacinat http, alebo www moze tam by aj relativna cesta.
Proste regularne vyrazy vobec neovladam.
Dufam ze som to uz napisal zrozumitelnjsie. Dikes
//presne tak ako audiotrack pisal

Kód: Vybrať všetko

$data = '
nejake testovacie linky:
<a href="nieco.doc">sadfasdf</a><br />
<a href="nieco.pdf">asdf</a><br />
<a href="nieco.exe">asdf</a><br />
<a href="www.nieco.doc">fhgd</a><br />
<a href="www.nieco.pdf">sadfdfhgdfhasdf</a><br />
<a href="http://www.nieco.doc">asdf</a><br />
<a href="http://nieco.pdf">fgjfg</a><br />
';

var_dump($data);
preg_match_all('/href="((.*)[doc|pdf])"/iU',$data,$linky);
var_dump($linky[1]);

xivo

audiotrack napísal:...

Funguje to zatial dobre, dikes audiotrack ...