признавайтесь хто майстер лексерів та регулярок

1 Тема від 221VOLT 09.01.2018 03:18:13

221VOLT
♥ pattern matching
Поза форумом

Звідки: Львів
Дата реєстрації: 26.09.2015
Повідомлень: 2 720

Репутація

: 1876

Тема: признавайтесь хто майстер лексерів та регулярок

признавайтесь хто майстер регулярок та працював з лексерами?

уже декілька днів пробую написати лексера для побудови ast щоб перетворювати bbcodes -> html

користуюсь leex, erlang
зажовується частина тегів, точніше - смайлики

на скільки я розумію - проблема в жадності регулярок

▼Прихований текст

код і "кривий результат" --
https://gist.github.com/221V/ddc9ba7175 … 7b095a6c15

підкажіть будь-ласка де я туплю і як цей код виправити?
регулярки ніколи не були моєю сильною стороною)

дякую

Подякували: 0xDADA11C71

221VOLT вебсайт

2 Відповідь від 221VOLT 09.01.2018 06:35:55 Востаннє редагувалося 221VOLT (09.01.2018 18:52:31)

221VOLT
♥ pattern matching
Поза форумом

Звідки: Львів
Дата реєстрації: 26.09.2015
Повідомлень: 2 720

Репутація

: 1876

Re: признавайтесь хто майстер лексерів та регулярок

мені відповіли таке

Robert Virding
Creator of Erlang
When multiple rules match leex is defined to return the longest matching pattern. If there is more than one pattern with the same length it will return the first one. This is the same as in lex, on which leex is based.

і ще таке

In your definitions you have
%L = [A-za-zА-Яа-я0-9.]
which is a very loose regex. When leex processes your text it looks for the longest match as Robert indicated. It turns out that this regex will match the entire string you submitted since the rule
%{L}+ : {token, {any_text, TokenLen, TokenChars}}.
will match the entire string. As the longest match it will return that. You can test it in iex with:
iex(1)> r = ~r/[A-za-zА-Яа-я0-9.]+/
~r/[A-za-zА-Яа-я0-9.]+/
iex(2)> Regex.match? r, "test:ninja::Otest:alien:"
true
Test against your regex's you'll see that
[^\[]+
also matches the entire string.
If I can make a suggestion - separate tokenising (leex) from parsing (yecc), You are trying to do too much I think, which makes it more complicated.

A simple (but incomplete) tokeniser which can process your test string follows. T

Definitions.

Tag        = [a-z]
OpenTag    = \[
CloseTag   = \]
Emoticon   = :

Rules.

:\)      : {token, {smile, 1}}.
8-\)     : {token, {smile, 4}}.
:&#39;\( : {token, {smile, 5}}.
:ermm:   : {token, {smile, 6}}.
:D       : {token, {smile, 7}}.
&lt;3    : {token, {smile, 8}}.
:\(      : {token, {smile, 9}}.
:O       : {token, {smile, 10}}.
:P       : {token, {smile, 11}}.
;\)      : {token, {smile, 12}}.

{OpenTag} : {token, {open_tag, TokenLine, TokenChars}}.
{Tag}+ : {token, {tag, TokenLine, TokenChars}}.
{CloseTag} : {token, {close_tag, TokenLine, TokenChars}}.
{Emoticon}{Tag}+{Emoticon} : {token, {emoticon, TokenLine, TokenChars}}.

Erlang code.

Robert Virding
Creator of Erlang
Note one thing: the regular expressions in leex and Regex are not the same. Regex supports the full perl regexs, it implemented internal in :re module which uses the PCRE library, while leex only allows a more limited set. A major benefit of the leex regexs, which are the same as in lex, is that they never need to backtrack which the perl ones do. With PCRE you can easily define a simple regex which will take a long long time to match, for example check here The :re module gets around this by putting a limit on how long the match is allowed to take before giving up.

------

допоможіть роздуплитися? *SCRATCH*

221VOLT вебсайт

3 Відповідь від Altair8800 09.01.2018 14:02:20 Востаннє редагувалося Altair8800 (09.01.2018 14:02:45)

Altair8800
Користувач
Поза форумом

Дата реєстрації: 26.12.2017
Повідомлень: 53

Репутація

: 35

Re: признавайтесь хто майстер лексерів та регулярок

221VOLT написав:

уже декілька днів пробую написати лексера для побудови ast щоб перетворювати bbcodes -> html

Не знаю що таке лексери і з ерглантом не знайомий, але раз ви намагаєтесь замінити [] на <>, то на джаваскрипті це буде так:

str.replace(/\[/g/, '<');

Що у вас:

[^\[]+?

^ - може позначати початок рядка або всі крім наступного символу ( [^a] - будь-який символ, крім "а"). У вашій регулярці це другий випадок, тому виносьте ^ за квадратні дужки, якщо він позначає початок рядку.
Ще спробуйте помістити регулярку в круглі дужки (), бо зазвичай шукає тільки те, що в дужках.

4 Відповідь від Altair8800 09.01.2018 14:04:33

Altair8800
Користувач
Поза форумом

Дата реєстрації: 26.12.2017
Повідомлень: 53

Репутація

: 35

Re: признавайтесь хто майстер лексерів та регулярок

Якщо не впевнені в регулярках, перевіряйте себе на онлайн-сервісах, таких як цей https://regexr.com/

5 Відповідь від Torbins 09.01.2018 14:48:19

Torbins
Replace Team
Поза форумом

Дата реєстрації: 07.05.2012
Повідомлень: 3 066

Репутація

: 2267

Re: признавайтесь хто майстер лексерів та регулярок

Altair8800 написав:

str.replace(/\[/g/, '<');

І привіт експлойти в коментах. І добре, якщо усе завершиться безневинним дефейсом.
Якщо уже робити bb-коди, то робити стійкий до кулхацкерів парсинг.

Подякували: 0xDADA11C7, cheappi386, /KIT\, 221VOLT, leofun015

6 Відповідь від 221VOLT 09.01.2018 18:26:47 Востаннє редагувалося 221VOLT (09.01.2018 18:30:11)

221VOLT
♥ pattern matching
Поза форумом

Звідки: Львів
Дата реєстрації: 26.09.2015
Повідомлень: 2 720

Репутація

: 1876

Re: признавайтесь хто майстер лексерів та регулярок

Altair8800 написав:

221VOLT написав:
уже декілька днів пробую написати лексера для побудови ast щоб перетворювати bbcodes -> html
Не знаю що таке лексери і з ерглантом не знайомий, але раз ви намагаєтесь замінити [] на <>, то на джаваскрипті це буде так:
str.replace(/\[/g/, '<');
Що у вас:
[^\[]+?
^ - може позначати початок рядка або всі крім наступного символу ( [^a] - будь-який символ, крім "а"). У вашій регулярці це другий випадок, тому виносьте ^ за квадратні дужки, якщо він позначає початок рядку.
Ще спробуйте помістити регулярку в круглі дужки (), бо зазвичай шукає тільки те, що в дужках.

лексер будує ast - абстрактне синтаксичне дерево

ні, я не намагаюсь замінити [] на <>
я намагаюсь побудувати ast,
і що і як потім робитиму з отриманим списком - то уже окреме питання

[^\[]+?

все, окрім символу відкриваючої квадратної дужки

і ні, ця частина добре працює,
ви помиляєтесь

-----

Altair8800 написав:

Якщо не впевнені в регулярках, перевіряйте себе на онлайн-сервісах, таких як цей https://regexr.com/

приїхали) я на таких сервісах живу, коли хоть якусь регулярку пишу))

-----

моє останнє прохання було - допоможіть поради правильно на українську перекласти

221VOLT вебсайт

7 Відповідь від 221VOLT 08.01.2020 07:46:06

221VOLT
♥ pattern matching
Поза форумом

Звідки: Львів
Дата реєстрації: 26.09.2015
Повідомлень: 2 720

Репутація

: 1876

Re: признавайтесь хто майстер лексерів та регулярок

загалом трохи з іншої опери,
та також про лексери, тому просто залишу тут:

https://github.com/DoctorWkt/acwj

http://www.stephendiehl.com/llvm/

http://releases.llvm.org/9.0.0/docs/tut … Impl1.html

http://releases.llvm.org/9.0.0/docs/tut … mpl01.html

Подякували: leofun011

221VOLT вебсайт

8 Відповідь від 0xDADA11C7 08.01.2020 13:29:00

0xDADA11C7
Gott mit uns
Поза форумом

Звідки: Дніпрожидівськ
Дата реєстрації: 14.02.2014
Повідомлень: 5 707

Репутація

: 5776

Re: признавайтесь хто майстер лексерів та регулярок

%L = [A-za-zА-Яа-я0-9.]

Як воно поводить себе з кирилицею та що воно важає кирилицею я не знаю, але гадаю що в латиниці помилка - треба A-Z

Подякували: 221VOLT, leofun012

9 Відповідь від plusxx 08.01.2020 17:09:24

plusxx
Amator
Поза форумом

Дата реєстрації: 23.04.2019
Повідомлень: 1 054

Репутація

: 681

Re: признавайтесь хто майстер лексерів та регулярок

221VOLT написав:

признавайтесь хто майстер регулярок та працював з лексерами?
уже декілька днів пробую написати лексера для побудови ast щоб перетворювати bbcodes -> html
користуюсь leex, erlang
зажовується частина тегів, точніше - смайлики
на скільки я розумію - проблема в жадності регулярок
▼Прихований текст
зміна
[^\[]+
на
[^\[]+?
нічого не принесла
код і "кривий результат" --
https://gist.github.com/221V/ddc9ba7175 … 7b095a6c15
підкажіть будь-ласка де я туплю і як цей код виправити?
регулярки ніколи не були моєю сильною стороною)
дякую

А що ви хочете саме зробити напишіть конкретно може можна то за допомогою пітончика зробити?

Подякували: 221VOLT1

10 Відповідь від koala 08.01.2020 18:18:25 Востаннє редагувалося koala (08.01.2020 18:40:07)

koala
Лінива тваринка
Поза форумом

Дата реєстрації: 01.05.2013
Повідомлень: 15 303

Репутація

: 13044

Re: признавайтесь хто майстер лексерів та регулярок

pluszz написав:

221VOLT написав:
пробую написати лексера для побудови ast щоб перетворювати bbcodes -> html
користуюсь leex, erlang
А що ви хочете саме зробити напишіть конкретно

А що тут неконкретного? Ви якихось слів не розумієте? То погугліть.

pluszz написав:

може можна то за допомогою пітончика зробити?

Очевидно, що можна, але в умові названа інша мова. Ви колись бачили вираз "повнота за Тюрінгом"?

Подякували: 221VOLT1

koala вебсайт

11 Відповідь від 221VOLT 08.01.2020 18:30:11 Востаннє редагувалося 221VOLT (08.01.2020 18:38:50)

221VOLT
♥ pattern matching
Поза форумом

Звідки: Львів
Дата реєстрації: 26.09.2015
Повідомлень: 2 720

Репутація

: 1876

Re: признавайтесь хто майстер лексерів та регулярок

0xDADA11C7 написав:

%L = [A-za-zА-Яа-я0-9.]
Як воно поводить себе з кирилицею та що воно важає кирилицею я не знаю, але гадаю що в латиниці помилка - треба A-Z

1 -- все після знаку % в ерлангу -- коментар
2 -- ця описка-очепятка не обов'язково є помилкою --
я точно не пригадую, чи діапазон A-z є A-Z + a-z, чи навпаки -- a-z + A-Z = a-Z

здається, перше все ж таки вірно,
відповідно, у такому записі просто є зайвим інструкція-конструкція a-z після A-z

upd. думаю, згідно діапазону таблиць ansi/utf8, в залежності від вказаного кодування:
(коди символів)

$ erl
Erlang/OTP 22 [erts-10.4] [source] [64-bit] [smp:4:4] [ds:4:4:10] [async-threads:1] [hipe]

Eshell V10.4  (abort with ^G)
1> $a.
97
2> $A.
65
3> $z.
122
4> $Z.
90
5> $а.
1072
6> $А.
1040
7> $я.
1103
8> $Я.
1071
9> io:format("~w~n",[<<"аАяЯ"/utf8>>]).
<<208,176,208,144,209,143,208,175>>

pluszz написав:

А що ви хочете саме зробити напишіть конкретно може можна то за допомогою пітончика зробити?

звичайно, дякую вам за увагу)
але ви не звернули увагу на дату створення цієї теми)

3 -- я давно уже забив на лексери в рішенні тої задачі,
і давно переписав на паттернг матчинг

(і пайтон мені не потрібен для такої задачі, коли у мене є ерланг)

дивіться:
версія з лексерами, січень 2018
https://github.com/221V/bbcodes_to_html_1

версія на паттерн матчингу, серпень 2018
https://github.com/221V/bbcodes_to_html_2

зараз у нас січень 2020

посилання я сюди запостив вчора не тому,
що тема лексера в контексті першої задачі для мене є актуальною,
а тому, що по посиланнях -- написання лексера-парсера з нуля, при написанні власної мови програмування
погодьтесь, семантично ця тема підходить для того, щоб тут поділитись такими посиланнями

upd.

▼Прихований текст

Подякували: plusxx1

221VOLT вебсайт

12 Відповідь від koala 08.01.2020 18:40:34 Востаннє редагувалося koala (08.01.2020 18:42:16)

koala
Лінива тваринка
Поза форумом

Дата реєстрації: 01.05.2013
Повідомлень: 15 303

Репутація

: 13044

Re: признавайтесь хто майстер лексерів та регулярок

Між A та z також є символи на кшталт [_].

▼Прихований текст

Подякували: 221VOLT1

koala вебсайт

13 Відповідь від plusxx 08.01.2020 18:42:30 Востаннє редагувалося plusxx (08.01.2020 18:43:06)

plusxx
Amator
Поза форумом

Дата реєстрації: 23.04.2019
Повідомлень: 1 054

Репутація

: 681

Re: признавайтесь хто майстер лексерів та регулярок

koala написав:

pluszz написав:
221VOLT написав:
пробую написати лексера для побудови ast щоб перетворювати bbcodes -> html
користуюсь leex, erlang
А що ви хочете саме зробити напишіть конкретно
А що тут неконкретного? Ви якихось слів не розумієте? То погугліть.
221VOLT написав:
може можна то за допомогою пітончика зробити?
Очевидно, що можна, але в умові названа інша мова. Ви колись бачили вираз "повнота за Тюрінгом"?

Ні мені все зрозуміло. Просто на мою думку можавзяти зробити словничок на пiтонi{ bbcodes:html } .

Подякували: 221VOLT1

14 Відповідь від 221VOLT 08.01.2020 19:10:04

221VOLT
♥ pattern matching
Поза форумом

Звідки: Львів
Дата реєстрації: 26.09.2015
Повідомлень: 2 720

Репутація

: 1876

Re: признавайтесь хто майстер лексерів та регулярок

pluszz написав:

Ні мені все зрозуміло. Просто на мою думку можавзяти зробити словничок на пiтонi{ bbcodes:html } .

та все ок)
просто у мене сайт на ерланг,
+ написати велосипед з нуля мені в радість,
а тягнути іншу мову заради дрібниці -- це таке собі.. тут мені не підходить))

221VOLT вебсайт

15 Відповідь від plusxx 08.01.2020 20:21:07

plusxx
Amator
Поза форумом

Дата реєстрації: 23.04.2019
Повідомлень: 1 054

Репутація

: 681

Re: признавайтесь хто майстер лексерів та регулярок

221VOLT написав:

pluszz написав:
Ні мені все зрозуміло. Просто на мою думку можавзяти зробити словничок на пiтонi{ bbcodes:html } .
та все ок)
просто у мене сайт на ерланг,
+ написати велосипед з нуля мені в радість,
а тягнути іншу мову заради дрібниці -- це таке собі.. тут мені не підходить))

Ні просто я подумав що то для одноразової перегонки даних з якоїсь дошки оголошень в html.

Подякували: 221VOLT1

16 Відповідь від 221VOLT 14.03.2020 20:51:08

221VOLT
♥ pattern matching
Поза форумом

Звідки: Львів
Дата реєстрації: 26.09.2015
Повідомлень: 2 720

Репутація

: 1876

Re: признавайтесь хто майстер лексерів та регулярок

знайшов дещо цікаве, де в тому числі є про erlang leex yeec
https://groupoid.github.io/languages/Cubical.htm

справжнім математикам форуму може бути цікавим цей матеріал

Подякували: leofun011

221VOLT вебсайт

Ласкаво просимо!

Повідомлення: 16

1 Тема від 221VOLT 09.01.2018 03:18:13

Тема: признавайтесь хто майстер лексерів та регулярок

2 Відповідь від 221VOLT 09.01.2018 06:35:55 Востаннє редагувалося 221VOLT (09.01.2018 18:52:31)

Re: признавайтесь хто майстер лексерів та регулярок

3 Відповідь від Altair8800 09.01.2018 14:02:20 Востаннє редагувалося Altair8800 (09.01.2018 14:02:45)

Re: признавайтесь хто майстер лексерів та регулярок

4 Відповідь від Altair8800 09.01.2018 14:04:33

Re: признавайтесь хто майстер лексерів та регулярок

5 Відповідь від Torbins 09.01.2018 14:48:19

Re: признавайтесь хто майстер лексерів та регулярок

6 Відповідь від 221VOLT 09.01.2018 18:26:47 Востаннє редагувалося 221VOLT (09.01.2018 18:30:11)

Re: признавайтесь хто майстер лексерів та регулярок

7 Відповідь від 221VOLT 08.01.2020 07:46:06

Re: признавайтесь хто майстер лексерів та регулярок

8 Відповідь від 0xDADA11C7 08.01.2020 13:29:00

Re: признавайтесь хто майстер лексерів та регулярок

9 Відповідь від plusxx 08.01.2020 17:09:24

Re: признавайтесь хто майстер лексерів та регулярок

10 Відповідь від koala 08.01.2020 18:18:25 Востаннє редагувалося koala (08.01.2020 18:40:07)

Re: признавайтесь хто майстер лексерів та регулярок

11 Відповідь від 221VOLT 08.01.2020 18:30:11 Востаннє редагувалося 221VOLT (08.01.2020 18:38:50)

Re: признавайтесь хто майстер лексерів та регулярок

12 Відповідь від koala 08.01.2020 18:40:34 Востаннє редагувалося koala (08.01.2020 18:42:16)

Re: признавайтесь хто майстер лексерів та регулярок

13 Відповідь від plusxx 08.01.2020 18:42:30 Востаннє редагувалося plusxx (08.01.2020 18:43:06)

Re: признавайтесь хто майстер лексерів та регулярок

14 Відповідь від 221VOLT 08.01.2020 19:10:04

Re: признавайтесь хто майстер лексерів та регулярок

15 Відповідь від plusxx 08.01.2020 20:21:07

Re: признавайтесь хто майстер лексерів та регулярок

16 Відповідь від 221VOLT 14.03.2020 20:51:08

Re: признавайтесь хто майстер лексерів та регулярок

Повідомлення: 16

Переглядають тему: 1 гість, 0 користувачів