Зчитування з файлу

1 Тема від Logans 02.01.2014 23:53:45 Востаннє редагувалося Logans (02.01.2014 23:55:50)

Logans
Користувач
Поза форумом

Звідки: Україна
Дата реєстрації: 04.11.2012
Повідомлень: 185

: 68

Тема: Зчитування з файлу

Вітаю всіх з Новим Роком

Власне назва теми це узагальнена тема питання. Питання стоїть трохи інше:
Як можна зчитувати з текстового файлу по декілька слів?

Власне потрібно зчитуванні слова формувати в шингли (послідовність слів).

Приклад шинглів:

▼Даний текст

Текст оброблюється (видаляються всі символи, та літери приводяться до нижнього регістру)

▼Текст поділений на шингли

1. Є такий варіант: використати два цикла

перший, для зчитування доки не кінець файлу

другий, для посимвольної перевірки на наявність пробілу

Але такий варінт досить не ефективний при роботі з великими текстами.

2. Є інший варіант (яким я користувався):

зчитати весь текст у одну змінну

знаходити на кожній ітерації пробіли і вирізати слова формуючи їх в шингли

Також не влаштовує, тому що програмі потрібно буде зчитувати 2 тексти, обробити тексти, розбити на шигли і потім їх перевіряти між собою, що призведе до дуже довгої роботи.

Ось код працюючої програми (з використанням 2-го варіанту):

▼Прихований текст

#include <iostream>
#include <string>
#include <locale>
#include <fstream>

using namespace std;

// Приведення до нижнього регістру
string toLow(string inputText)
{
    for (int i = 0; i < inputText.length(); i++)
        inputText[i] = tolower(inputText[i]);
    return inputText;
}

// Видалення зайвих символів
string delSymbols(string inputText)
{
    for (int i = 0; i < inputText.length(); i++)
        if ((isalpha(inputText[i]) == false) && (inputText[i] != ' '))
        {
            inputText = inputText.erase(i, 1);
            i--;
        }
    return toLow(inputText);
}

// Видалення зайвих пропусків
string delSpace(string inputText)
{
    for (int i = 0; i < inputText.length(); i++)
        if (inputText[i] == ' ')
        {
            int j;
            j = i + 1;
            while (inputText[j] == ' ')
                inputText.erase(j, 1);
        }
    return delSymbols(inputText);
}

int main()
{
    string stringText, textString;    
    
    ifstream fileUse("TextFile__.txt");

    while (!fileUse.eof())
    {
        getline(fileUse, textString);
        stringText += textString;
    }

    fileUse.close();
    

    //getline(cin, stringText);
    stringText = delSpace(stringText);
    
    // Розбиття тексту на шигли
    const int n = 250;
    string str[n], strWork_01, strWork_02;

    int wordCount = 0;
    int firstSpace, lastSpace, secondSpace;

    stringText += " ";
    strWork_01 = stringText;
    strWork_02 = stringText;
    
    for(int i = 0; i < stringText.length(); i++)
    {
        firstSpace = strWork_01.find(" ");
        if (firstSpace != -1)
        {
            strWork_01.erase(0, firstSpace + 1);
            wordCount++;
        }
        else
            break;
    }

    strWork_01 = stringText;
    
    for(int i = 0; i < wordCount - 2; i++)
    {
        firstSpace = strWork_02.find(" ");
        strWork_02.erase(0, firstSpace + 1);
        secondSpace = firstSpace + strWork_02.find(" ");
        strWork_02.erase(0, secondSpace - firstSpace + 1);
        lastSpace = secondSpace + strWork_02.find(" ");
        secondSpace += 1;
        lastSpace += 2;
        str[i] = strWork_01.substr(0, lastSpace);
        strWork_01.erase(0, firstSpace + 1);
        strWork_02 = strWork_01;
        cout << str[i] << endl;
    }
    
    cout << endl;    
    system("pause");
    return 0;
}

Ось текстовий файл з яким працює програма:

Post's attachments

TextFile__.txt 1.43 kb, 770 downloads since 2014-01-02

Подякували: Chemist-i1

2 Відповідь від User 298 03.01.2014 00:10:07

User 298
Гість

Re: Зчитування з файлу

Почитайте про istringstream (є гарні приклади, у т.ч. - на StackOverflow).

Як варіант економії нервів - зчитати через istringstream всі слова до списку/вектора/абощо, а потім обробляти згідно власного фен-шуя.

З.І: власне, якщо потрібно саме одразу і потроху - то от:

istringstream ss( myRowOrMyText);

string word1, word2, word3;
ss >> word1 >> word2 >> word3;

3 Відповідь від Logans 03.01.2014 00:33:32

Logans
Користувач
Поза форумом

Звідки: Україна
Дата реєстрації: 04.11.2012
Повідомлень: 185

Репутація

: 68

Re: Зчитування з файлу

Дякую за допомогу з першою частиною питання, але як бути з наступною? Яким чином можна зробити, щоб кожен раз зчитувало наступне слово. Зараз в мене працює так:

▼Прихований текст

4 Відповідь від koala 03.01.2014 00:35:14

koala
Лінива тваринка
Поза форумом

Дата реєстрації: 01.05.2013
Повідомлень: 15 332

Репутація

: 13080

Re: Зчитування з файлу

Якщо я правильно зрозумів, алгоритм шинглів використовується для порівняння тексту з певною бібліотекою, і цю бібліотеку зчитати в пам'ять неможливо (вона завелика за визначенням), тому треба оптимізувати роботу з нею. Як саме? Хешуванням і сортуванням. Тобто:
1. Придумуєте хеш-функцію. Скажімо, сумуєте коди всіх символів рядку, після додавання кожного коду циклічно зсуваєте суму праворуч. Або ще якось - аби результат був досить випадковим. До речі, можна скористатися ГПВЧ - ініціалізуючи його, знову ж таки, кодами символів рядку. Головне - рядок перетворюється на число.
2. Створюєте бібліотеку хешів - скажімо структурами з хешу, коду файла і позиції шингла в файлі.
3. Сортуєте цю бібліотеку (чи робите індекс, неважливо, для початківця легше сортувати). Або навіть розміщуєте в хеш-таблиці, тоді хеш зберігати не треба, але знову ж, не для початківця.
4. Зчитуєте з файла для перевірки по слову, обчислюєте хеш поточного шингла, шукаєте його бінарним пошуком (якщо сортували) чи прямо запитуєте (якщо робили хеш-таблицю) в бібліотеці. Якщо такий хеш знайдено - перевіряєте, чи це не колізія (два однакових хеші в різних шинглів) безпосередньо в файлі (у нас є позиція, не забувайте!)

Десь так...

Подякували: Logans1

koala вебсайт

5 Відповідь від koala 03.01.2014 00:48:11 Востаннє редагувалося koala (03.01.2014 01:06:53)

koala
Лінива тваринка
Поза форумом

Дата реєстрації: 01.05.2013
Повідомлень: 15 332

Репутація

: 13080

Re: Зчитування з файлу

А, то проблема просто в зчитуванні?

▼Прихований текст

list тут - оптимальний контейнер, але цілком можливо скористатися чимось іншим (навіть самописним), аби лиш можна було додавати в кінець і видаляти з початку.

Подякували: Logans1

koala вебсайт

Ласкаво просимо!

Повідомлення: 5

1 Тема від Logans 02.01.2014 23:53:45 Востаннє редагувалося Logans (02.01.2014 23:55:50)

Тема: Зчитування з файлу

2 Відповідь від User 298 03.01.2014 00:10:07

Re: Зчитування з файлу

3 Відповідь від Logans 03.01.2014 00:33:32

Re: Зчитування з файлу

4 Відповідь від koala 03.01.2014 00:35:14

Re: Зчитування з файлу

5 Відповідь від koala 03.01.2014 00:48:11 Востаннє редагувалося koala (03.01.2014 01:06:53)

Re: Зчитування з файлу

Повідомлення: 5

Переглядають тему: 1 гість, 0 користувачів