Тема: Частотний аналіз українського тексту
Пострадав трохи, давно джавою не бавився, то от таке вийшло
import java.util.Scanner;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileWriter;
public class Parser {
public static void main(String[] args){
int[] f1 = new int[35];
int[][] f2 = new int[35][35];
for (int i = 0; i < 35; i++) {
f1[i] = 0;
for (int j = 0; j < 35; j++) f2[i][j] = 0;
}
try{
char[] letters = "абвгґдеєжзиіїйклмнопрстуфхцчшщьюя’ ".toCharArray();
char[] bletters = "АБВГҐДЕЄЖЗИІЇЙКЛМНОПРСТУФХЦЧШЩЬЮЯ’ ".toCharArray();
int total = 0;
FileInputStream fstream = null;
// command line parameter
if(args.length != 1) {
System.err.println("Invalid command line, exactly one argument required");
System.exit(1);
}
try {
fstream = new FileInputStream(args[0]);
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
Scanner sc = null;
try {
int i = 0;
sc = new Scanner(fstream, "UTF-8");
while (sc.hasNextLine()) {
int prev = 34;
int curr = 34;
String line = sc.nextLine();
int len = line.length();
total += len;
char[] line_c = line.toCharArray();
//System.out.println(line);
for (int j = 0; j < len; j++) {
for (int ii = 0; ii < 35; ii++) {
if (line_c[j] == letters[ii] || line_c[j] == bletters[ii]) {
curr = ii;
break;
}
}
if (line_c[j] == "'".charAt(0) && prev < 33) curr = 33;
f1[curr]++;
f2[prev][curr]++;
//if ' is comming after space that is not apostrof
if (curr == 33 && prev > 32) curr = 34;
prev = curr;
}
i++;
//if (i>1000000) break;
}
// note that Scanner suppresses exceptions
if (sc.ioException() != null) {
throw sc.ioException();
}
} finally {
if (fstream != null) {
fstream.close();
}
if (sc != null) {
sc.close();
}
}
FileWriter myWriter = new FileWriter("results.txt");
myWriter.write("total: "+total+"\n");
for (int i = 0; i < 35; i++) {
//System.out.println(letters[i]+"-"+bletters[i]+": "+f1[i]);
myWriter.write(letters[i]+"-"+bletters[i]+": "+f1[i]+"\n");
}
for (int i = 0; i < 35; i++) {
for (int j = 0; j < 35; j++) {
//System.out.println(letters[i]+"-"+bletters[i]+": "+f1[i]);
myWriter.write(letters[i]+""+letters[j]+": "+f2[i][j]+"\n");
}
}
myWriter.close();
}catch (Exception e){//Catch exception if any
System.err.println("Error: " + e.getMessage());
}
}
}
Запускати через
java Parser Bibliya_1369054606.txt
Для цього файлу у мене вийшли такі результати
total: 3578675
а-А: 211077
б-Б: 54091
в-В: 170483
г-Г: 57867
ґ-Ґ: 1080
д-Д: 104972
е-Е: 126757
є-Є: 17491
ж-Ж: 23367
з-З: 58780
и-И: 178657
і-І: 179237
ї-Ї: 25475
й-Й: 41547
к-К: 73587
л-Л: 93010
м-М: 88977
н-Н: 161471
о-О: 286861
п-П: 73567
р-Р: 106416
с-С: 124620
т-Т: 123920
у-У: 89684
ф-Ф: 2270
х-Х: 38539
ц-Ц: 18099
ч-Ч: 28415
ш-Ш: 24069
щ-Щ: 17441
ь-Ь: 43199
ю-Ю: 22411
я-Я: 66785
'-': 2874
- : 611263
Бачу наразі такі проблеми як, нема розрізнення між апстрофом і одиночними лапками в українських текстах.