Как можно определить кодировку текста на пхп

Bicdibus · 20 Апр 2020

Я путем парсинга получаю текст с рандомных страниц сайтов, чарсет в хтмл очень часто не соответствует реальности. В задумке была перекодировка текста в утф-8, но перепробовав много разных вариантов(встроенных в пхп и сторонних бтблиотек) не получаеться даже нормально задетектить утф-8. Мне надо хотя бы определять что текст является утф. Лучшего что удалось достичь это около 70% точность определения, что слишком мало, приемлемо 90-95%.

krdma · 21 Апр 2020

responce headers?

Bicdibus · 21 Апр 2020

чуток не то мне нужно готовый текст определить

Q_BASIC · 21 Апр 2020

Bicdibus написал(а):
чуток не то мне нужно готовый текст определить

Если при получении страницы - этот класс определяет Для просмотра ссылки Войди или Зарегистрируйся - request::get_charset()

Если готовый текст - Для просмотра ссылки Войди или Зарегистрируйся

steelfeet · 21 Апр 2020

составьте список наиболее часто встречающихся слов, диграмм и определяйте по ним

Как можно определить кодировку текста на пхп

Bicdibus

Участник

krdma

Гуру форума

Bicdibus

Участник

Q_BASIC

Хранитель порядка

steelfeet

Создатель