Тема: Простий випадок з Regex. Другий тиждень пітонію.
Пані та пацанове, ситуація наступна. Я намагаюсь написати дуже простий скрейпер, який скануватиме текстовий файл за принципом:
bool(re.search ("науковий термін| синонім", STRING\nc, "i"))
RE "i" - щоб ігнорувати великі літери. Статті англійською, тому відмінки і т.д. не мають значення.
\nc - щоб шукати через весь документ
bool - Щоби у випадку True була інумерація в колонку датафрейму (Я просто рахую кількість термінів у тексті.
STRING - Це моя проблема, у всіх навчальних відео які я бачив, це один з параметрів, але мені він по суті не потрібен, що з ним робити?
Ось що ми маємо зараз, я через табулу конвертував з pdf у текст документ який хочу сканувати (виділений текст)
Як почати це робити? Написати bool(re.search ("науковий термін| синонім", STRING\nc, "i")) як функцію і застосувати її до об'єкта? І до якого file1 чи df. Це мій другий тиждень програмування, тому я не знаю багатьох очевидних речей. Буду вдячний за поради.
file1='nihms290696.pdf'
df=tabula.read_pdf("Data/nihms290696.pdf", pages='all')