Zdravim,
pracujem na projekte, kde je ulohou parsovat (scrapovat) rozne stranky s roznymi kodovaniami (UTF-8, WINDOWS-1250, ISO-8859-2). Moj problem sa tyka prave tychto kodovani. Databaza je tvorena v kodovani UTF-8 avsak mam problem s prevodom kodovania ziskanych dat do tohto kodovania, resp. problem s detekciou.
Ako riesit tento problem? Viem, ze to nie je jednoduche, ale urcite existuje nejake "ako tak funkcne" riesenie alebo postup. Viem, ze ked chcem konvernut kodovanie napr. cez kniznicu iconv, tak musim poznat z akeho do akeho kodovania idem. Co vsak ked to neviem presne urcit? Preto by to chcelo "detekciu" na zaklade ziskaneho textu (retazca).
Mozno vsak na to len idem zle, kedze nemam velmi skusenosti co sa kodovani tyka.
Vopred dakujem za akekolvek rady.
PHP: Konverzia roznych kodovani do UTF-8. Ako na to?
a co tak to zistit z
neviem nerobil som to...
Kód: Vybrať všetko
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1250">
To ma samozrejme napadlo, ale jednak tomu nemozem doverovat a po druhe vela stranok tento tag ani nedefinuje.beluský napísal:a co tak to zistit z
neviem nerobil som to...Kód: Vybrať všetko
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1250">
-
audiotrack
VIP
- Príspevky: 25958
- Registrovaný: 09 sep 2005, 18:39
- Kontaktovať používateľa:
on chce asi javu (asi urcite)audiotrack napísal:mb_detect_encoding()
------------------
jaj tak nic
-
audiotrack
VIP
- Príspevky: 25958
- Registrovaný: 09 sep 2005, 18:39
- Kontaktovať používateľa: