Противнющий NEL, (U+0085)

1 Тема від dialectstat 28.10.2015 12:35:43 Востаннє редагувалося dialectstat (28.10.2015 12:41:58)

dialectstat
Користувач
Поза форумом

Дата реєстрації: 24.03.2014
Повідомлень: 215

: 20

Тема: Противнющий NEL, (U+0085)

Як видалити в Python NEXT LINE, воно ж, NEL, воно ж U+0085, воно ж <85> ?
Пробував

.replace("\r\n", " ")
.replace("\r", " ")
.replace("\R", " ")
.replace("\u0085", " ")
.replace("\u0085u", " ")

Нічого не допомагає.

2 Відповідь від koala 28.10.2015 12:49:13 Востаннє редагувалося koala (28.10.2015 12:49:22)

koala
Лінива тваринка
Поза форумом

Дата реєстрації: 01.05.2013
Повідомлень: 15 836

Репутація

: 13495

Re: Противнющий NEL, (U+0085)

s = ' '.join(s.splitlines())

http://stackoverflow.com/questions/2201 … ode-string

koala вебсайт

3 Відповідь від P.Y. 28.10.2015 13:50:01

P.Y.
Replace Team
Поза форумом

Дата реєстрації: 19.02.2013
Повідомлень: 7 947

Репутація

: 5158

Re: Противнющий NEL, (U+0085)

>>> 'ghdfhfd\u0085bcfhfh\u0085\u0085'.replace("\u0085", " ")
'ghdfhfd bcfhfh  '

Ніби працює. Що я роблю нетак? Python 3.3

4 Відповідь від P.Y. 28.10.2015 13:59:47

P.Y.
Replace Team
Поза форумом

Дата реєстрації: 19.02.2013
Повідомлень: 7 947

Репутація

: 5158

Re: Противнющий NEL, (U+0085)

Хоча, якщо у Вас Python 2.*, проблема може бути в тому, що рядкові літерали по дефолту представляють байтові рядки, а не юнікодні. Очевидно, тоді треба попередньо декодувати прочитаний рядок байтів, а заміну робити так:

.replace(u"\u0085", " ")

Подякували: dialectstat, 0xDADA11C7, leofun013

5 Відповідь від dialectstat 28.10.2015 14:20:29

dialectstat
Користувач
Поза форумом

Дата реєстрації: 24.03.2014
Повідомлень: 215

Репутація

: 20

Re: Противнющий NEL, (U+0085)

koala написав:

s = ' '.join(s.splitlines())
http://stackoverflow.com/questions/2201 … ode-string

роблю

pr=str(A[j][i])
pr=pr.join(pr.splitlines())

Все залишається на місці, не видаляється.

6 Відповідь від dialectstat 28.10.2015 14:22:24

dialectstat
Користувач
Поза форумом

Дата реєстрації: 24.03.2014
Повідомлень: 215

Репутація

: 20

Re: Противнющий NEL, (U+0085)

P.Y. написав:

Хоча, якщо у Вас Python 2.*, проблема може бути в тому, що рядкові літерали по дефолту представляють байтові рядки, а не юнікодні. Очевидно, тоді треба попередньо декодувати прочитаний рядок байтів, а заміну робити так:
.replace(u"\u0085", " ")

В мене 2.7 Python
все в utf-8:

sys.setdefaultencoding('[b]utf-8[/b]')
db=MySQLdb.connect(host="хххх", user="хххх", passwd="хххх", db="хххх", charset='[b]utf8[/b]')
db.set_character_set('[b]utf8[/b]')

Як ще декодувати?

7 Відповідь від dialectstat 28.10.2015 14:36:30

dialectstat
Користувач
Поза форумом

Дата реєстрації: 24.03.2014
Повідомлень: 215

Репутація

: 20

Re: Противнющий NEL, (U+0085)

P.Y. написав:

Хоча, якщо у Вас Python 2.*, проблема може бути в тому, що рядкові літерали по дефолту представляють байтові рядки, а не юнікодні. Очевидно, тоді треба попередньо декодувати прочитаний рядок байтів, а заміну робити так:
.replace(u"\u0085", " ")

О, те що треба! Пішло

8 Відповідь від P.Y. 28.10.2015 14:53:32 Востаннє редагувалося P.Y. (28.10.2015 15:01:59)

P.Y.
Replace Team
Поза форумом

Дата реєстрації: 19.02.2013
Повідомлень: 7 947

Репутація

: 5158

Re: Противнющий NEL, (U+0085)

В пітоні є два типи рядків: байтові й юнікодні.
Рядки байтів можуть містити текст у різних кодуваннях, у т.ч., utf-8. Рядки юнікодних символів зберігають розкодовану послідовність символів у вигляді їхніх юнікодних кодів. Якщо система чи база даних використовує utf-8, це не означає, що рядок, повернутий функцією, буде юнікодним.

Спробуйте визначити тип даних рядка, який треба обробити:

print type(рядок)

Якщо результат цього буде <type 'str'> — це рядок байтів, якщо ж <type 'unicode'> — це юнікодний рядок^*.
З юнікодним рядком декодування робити непотрібно — просто робите заміну, як у прикладі вище.
Якщо ж це рядок байтів, треба зробити .decode(), якщо це utf-8, чи decode('кодування'), і вже в ньому робити заміну.

*) Це стосується Python 2.*. У Python 3.* юнікодній рядок — <class 'str'>, байтовий рядок — <class 'bytes'>.

Подякували: dialectstat, leofun012

9 Відповідь від dialectstat 28.10.2015 16:03:21

dialectstat
Користувач
Поза форумом

Дата реєстрації: 24.03.2014
Повідомлень: 215

Репутація

: 20

Re: Противнющий NEL, (U+0085)

P.Y. написав:

В пітоні є два типи рядків: байтові й юнікодні.
Рядки байтів можуть містити текст у різних кодуваннях, у т.ч., utf-8. Рядки юнікодних символів зберігають розкодовану послідовність символів у вигляді їхніх юнікодних кодів. Якщо система чи база даних використовує utf-8, це не означає, що рядок, повернутий функцією, буде юнікодним.
Спробуйте визначити тип даних рядка, який треба обробити:
print type(рядок)
Якщо результат цього буде <type 'str'> — це рядок байтів, якщо ж <type 'unicode'> — це юнікодний рядок^*.
З юнікодним рядком декодування робити непотрібно — просто робите заміну, як у прикладі вище.
Якщо ж це рядок байтів, треба зробити .decode(), якщо це utf-8, чи decode('кодування'), і вже в ньому робити заміну.
*) Це стосується Python 2.*. У Python 3.* юнікодній рядок — <class 'str'>, байтовий рядок — <class 'bytes'>.

Ласкаво просимо!

Повідомлення: 9

1 Тема від dialectstat 28.10.2015 12:35:43 Востаннє редагувалося dialectstat (28.10.2015 12:41:58)

Тема: Противнющий NEL, (U+0085)

2 Відповідь від koala 28.10.2015 12:49:13 Востаннє редагувалося koala (28.10.2015 12:49:22)

Re: Противнющий NEL, (U+0085)

3 Відповідь від P.Y. 28.10.2015 13:50:01

Re: Противнющий NEL, (U+0085)

4 Відповідь від P.Y. 28.10.2015 13:59:47

Re: Противнющий NEL, (U+0085)

5 Відповідь від dialectstat 28.10.2015 14:20:29

Re: Противнющий NEL, (U+0085)

6 Відповідь від dialectstat 28.10.2015 14:22:24

Re: Противнющий NEL, (U+0085)

7 Відповідь від dialectstat 28.10.2015 14:36:30

Re: Противнющий NEL, (U+0085)

8 Відповідь від P.Y. 28.10.2015 14:53:32 Востаннє редагувалося P.Y. (28.10.2015 15:01:59)

Re: Противнющий NEL, (U+0085)

9 Відповідь від dialectstat 28.10.2015 16:03:21

Re: Противнющий NEL, (U+0085)

Повідомлення: 9

Переглядають тему: 1 гість, 0 користувачів