1

Тема: Не вдається копіювати текст з PDF в буфер обміну.

В мене є електронна книга у форматі Pdf

При копіюванні тексту отримую ось це:

Прихований текст

ˇ??‡??Ł? ?‡? Æ??æ???? ” ‡ ??ŒŁØ ??Ø: 1 ??Ø?? º??Œ? ?Æ??? ??ºŁ????? 挺??-
Œ?? ?Œ????, ??æ?????? ?????ª?? 15 ı?ŁºŁ? ‡ ????? ? ????? ?? ?‡?.
—????? „ 11
˚?‡?ŒŁ Œ?º????ºŁ ? 10,0 ª.
????? ª‡???Œ? ??‡¿??ª? ? 5,0 ª.
˚??Ł?? ??غ??æ?Œ? ? 10,0 ª.
˚??‡?? ‡?ÆŁ?? ???????ª? ? 5,0 ª.

Скоріше за все у мене не встановлені шрифти які використані у цьому Pdf-і

Підкажіть програму, якою можна замінити властивості шрифтів у Pdf-і

2 Востаннє редагувалося Droid 77 (14.08.2020 01:44:31)

Re: Не вдається копіювати текст з PDF в буфер обміну.

Якщо використовуєте PDF-XChange Viewer, зробіть наступне:

  • Виділіть текст за допомогою інструмента виділення тексту

  • Натисніть праву кнопку миші

  • В меню оберіть «Властивості тексту»

  • Виберіть «Форматування», в лівому вікні

  • Біля обраного тексту є плюсик, в правому вікні

  • Натискаєте на той плюсик, і отримуєте всю інформацію відносно типу шрифта

Подякували: leofun011

3

Re: Не вдається копіювати текст з PDF в буфер обміну.

Копіювати текст з *.pdf в буфер обміну можна тільки у випадках, коли автор серед параметрів зберігання вказав, що дає дозвіл на копіювання в буфер, і не застосував перемішування / фрагментацію.

4

Re: Не вдається копіювати текст з PDF в буфер обміну.

Romanvolja написав:

В мене є електронна книга у форматі Pdf

При копіюванні тексту отримую ось це:

Прихований текст

ˇ??‡??Ł? ?‡? Æ??æ???? ” ‡ ??ŒŁØ ??Ø: 1 ??Ø?? º??Œ? ?Æ??? ??ºŁ????? 挺??-
Œ?? ?Œ????, ??æ?????? ?????ª?? 15 ı?ŁºŁ? ‡ ????? ? ????? ?? ?‡?.
—????? „ 11
˚?‡?ŒŁ Œ?º????ºŁ ? 10,0 ª.
????? ª‡???Œ? ??‡¿??ª? ? 5,0 ª.
˚??Ł?? ??غ??æ?Œ? ? 10,0 ª.
˚??‡?? ‡?ÆŁ?? ???????ª? ? 5,0 ª.

Скоріше за все у мене не встановлені шрифти які використані у цьому Pdf-і

Підкажіть програму, якою можна замінити властивості шрифтів у Pdf-і

Коли зіткнувся був зі схожою проблемою, вирішив її в лоб: конвертував pdf у зображення сторінок і прогнав їх через розпізнавач тексту (в моєму випадку, це був tesseract-OCR, але підійде й будь-який інший з підтримкою української мови). Недоліком такого підходу стало те, що куцохвосте Щ (властиве Times New Roman та іншим сучасним шрифтам) при розпізнаванні перетворилось на Ш — це шокання довелося виправляти власноруч, що я так і не зміг зробити в повній мірі.

5 Востаннє редагувалося Romanvolja (14.08.2020 08:40:06)

Re: Не вдається копіювати текст з PDF в буфер обміну.

Я не сподівався що так швидко відгукнетесь. Дякую.

Droid 77 написав:

Якщо використовуєте PDF-XChange Viewer, зробіть наступне:

  • Виділіть текст за допомогою інструмента виділення тексту

  • Натисніть праву кнопку миші

  • В меню оберіть «Властивості тексту»

  • Виберіть «Форматування», в лівому вікні

  • Біля обраного тексту є плюсик, в правому вікні

  • Натискаєте на той плюсик, і отримуєте всю інформацію відносно типу шрифта

Даною програмою користуюся. Тут можна переглянути параметри шрифту але змінити їх неможливо

leofun01 написав:

Копіювати текст з *.pdf в буфер обміну можна тільки у випадках, коли автор серед параметрів зберігання вказав, що дає дозвіл на копіювання в буфер, і не застосував перемішування / фрагментацію.

Переглянув властивості документу все нормально

Прихований текст

Метод шифрування: Без захисту(Немає)
Права доступу до документа — всі дозволені

P.Y. написав:

Коли зіткнувся був зі схожою проблемою, вирішив її в лоб: конвертував pdf у зображення сторінок і прогнав їх через розпізнавач тексту (в моєму випадку, це був tesseract-OCR, але підійде й будь-який інший з підтримкою української мови). Недоліком такого підходу стало те, що куцохвосте Щ (властиве Times New Roman та іншим сучасним шрифтам) при розпізнаванні перетворилось на Ш — це шокання довелося виправляти власноруч, що я так і не зміг зробити в повній мірі.

За tesseract-OCR не чув. Для розпізнання тексту користуюсь ABBYY FineReader. Маю ще PDF-XChange Viewer Pro де можна розпізнавати текст в самому Pdf-і, та її не використовую тому що немає можливості зробити перевірку тексту як у FineReader-і.
Також думав по новому розпізнати текст: - Та стримує те, що Pdf видавничий(макет по якому створювалася паперова книга), а мені не конче хочеться змінювати всі форматування оригіналу

6

Re: Не вдається копіювати текст з PDF в буфер обміну.

Справа не в шрифтах, автор заборонив копiювати текст.

7 Востаннє редагувалося Romanvolja (14.08.2020 11:16:05)

Re: Не вдається копіювати текст з PDF в буфер обміну.

putinovich написав:

Справа не в шрифтах, автор заборонив копiювати текст.

Дозволи всі є, скріншот додаю:

https://replace.org.ua/misc.php?action=pun_attachment&item=2067

Post's attachments

Дозволи Pdf документу.JPG 83.19 kb, 3 downloads since 2020-08-14 

Подякували: leofun011

8

Re: Не вдається копіювати текст з PDF в буфер обміну.

Це не про ці дозволи, це про спосіб запису файлу. Якби ці дозволи були виставлені, то ви б мали ввести пароль для якоїсь дії. А тут - беріть розпізнавач.

9

Re: Не вдається копіювати текст з PDF в буфер обміну.

koala написав:

А тут - беріть розпізнавач.

Ви маєте на увазі, що потрібно розпізнати текст по новому?? — чи щось інше

10

Re: Не вдається копіювати текст з PDF в буфер обміну.

Саме так.

11

Re: Не вдається копіювати текст з PDF в буфер обміну.

Romanvolja, документ дозволяє виділити частину тексту та скопіювати в буфер?

12

Re: Не вдається копіювати текст з PDF в буфер обміну.

Я той Pdf сконвертував у Djvu, з якого витягнув текстовий шар(у текстовий документ)
Переглянувши цей текстовий шар виявив послідовність, почав міняти шифровані частини тексту на нормальні.
Закину виправлений текстовий шар у Djvu, скопіював виходить нормально.
Почав писати додаток для виправлення тексту на Delphi, та застряг тому прошу вашої допомоги.
Нище  даю посилання на цю тему
Обговорення та код є тут