Как правильно считать файл в кодировке UTF-8?

Question

aarifkhamdi @aarifkhamdi

Java

Как правильно считать файл в кодировке UTF-8?

Есть большущий файл в кодировке UTF-8.

Хочу делать 2 вещи:
1) Читать до определённых символов (пусть, например, "а" и "б")
2) знать о какой символ я остановился ("а" или "б")

Пытаюсь ковыряться с BufferedReader, но ничего путного не выходит.
Суть того что я делаю: читаю в буфер, декодирую, потом хочу работать. Всё ломается на "декодирую", потому что UTF-8 может иметь символы разной длины. И я попадаю в ситуацию, когда считалась в буфер только часть символа (например, 1 байт из 3-х).

Как сделать? Мб подход неверный? Надеюсь на стандартное решение, которое я почему-то не вижу.

Вопрос задан более трёх лет назад
633 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Android

+3 ещё

Средний
Как получить разрешение для автостарта (чтобы при старте оно загружалось) для приложения под Андройд (Android)?
- 1 подписчик
- вчера
- 59 просмотров
0

ответов
Java

Простой
Как сделать глобальный чат Chatty?
- 1 подписчик
- 20 апр.
- 69 просмотров
0

ответов
Java

+2 ещё

Простой
Selenide + Spring Boot. Как объявить страницу через метод open(), если класс страницы является bean?
- 1 подписчик
- 19 апр.
- 41 просмотр
0

ответов
Java

+1 ещё

Простой
Почему не видит WebSecurityConfigurerAdapter при попытке импортировать его в класс SecurityConfig?
- 1 подписчик
- 19 апр.
- 59 просмотров
1

ответ
Java

Простой
Почему происходит два пустых вывода при чтении с клавиатуры?
- 1 подписчик
- 19 апр.
- 48 просмотров
1

ответ
Java

+3 ещё

Средний
Пытаюсь подключиться к postgresql 16 через docker-compose, использую spring-boot 3.2.4, что не так?
- 1 подписчик
- 17 апр.
- 197 просмотров
3

ответа
Java

+1 ещё

Простой
Как правильно внедрять зависимости в классы, зависящие от не-бинов?
- 1 подписчик
- 16 апр.
- 71 просмотр
1

ответ
Python

+1 ещё

Простой
Возможно ли соединить работающий java код и так же работающий скрипт python?
- 1 подписчик
- 15 апр.
- 226 просмотров
3

ответа
Java

+2 ещё

Простой
Как заставить Tomcat работать c utf-8 и кириллицей?
- 1 подписчик
- 14 апр.
- 65 просмотров
0

ответов
Java

+2 ещё

Простой
Как правильно вывести подблок с данными на странице?
- 1 подписчик
- 14 апр.
- 30 просмотров
1

ответ
Показать ещё Загружается…

Lead Java

Bell Integrator • Ульяновск

До 400 000 ₽

Lead Java

Bell Integrator • Хабаровск

До 400 000 ₽

Java-разработчик

ДАЛЕЕ

от 200 000 ₽

Спарсить TON PLACE: скрейпинг фото и текста с анкет по списку URL

25 апр. 2024, в 05:57

3000 руб./за проект

Правки в webApp готового и написанного телеграмм бота next, tailwind

25 апр. 2024, в 05:29

25000 руб./за проект

Фронтер - DevOps. Развернуть фронт на хостинге. Прокинуть в телегу-бот

25 апр. 2024, в 04:38

10000 руб./за проект

Попробуйте RandomAccessFile: ссылка Может поможет. По крайней мере, там можно запоминать место в файле, на котором остановился.

Answer 1 · 2018-08-07 11:06:31

В результате узнал про CodePoint и получилось вот что:

import java.io.BufferedReader;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;


public class Main {
    public static void main(String[] args) {
        Path path = Paths.get("src/test");
        assert Files.exists(path) : "Файл не найден";
        try (BufferedReader bufferedReader = Files.newBufferedReader(path)) {
            int ch;
            char surrogate = 0;
            while ((ch = bufferedReader.read()) != -1) {
                if (surrogate != 0) {
                    ch = Character.toCodePoint(surrogate, (char) ch);
                    surrogate = 0;
                } else if (Character.isHighSurrogate((char) ch)) {
                    surrogate = (char) ch;
                    continue;
                }
//                в результате в ch имеем CodePoint
//                можем работать как с обычным символом
                System.out.println(Character.toChars(ch));
            }
        } catch (IOException e) {
            e.printStackTrace();
            System.exit(-1);
        }
    }
}

Вдруг кому пригодится.

ps:

в src/test лежит

"幸福幸福幸福幸福一个梦想一个梦想Ðtestтест123456"

Answer 2 · 2018-08-06 21:18:30

Не надо ничего декодировать, просто укажите кодировку файла при открытии

try (BufferedReader in = new BufferedReader(
       new InputStreamReader(
         new FileInputStream(file), "UTF8"))) {
    // Делайте с входным потоком всё, что вам нужно
}

Answer 3 · 2018-08-06 19:09:10

К примеру, воспринимать буфер как поток байт, как только чтение доходит до конца, то подгружать следующую порцию и сбрасывать указатель на начало. При декодировании не полагаться на жёстко закодированные смещения типа a[i+1], a[i+2], a[i+3] и т.п., а получать следующий байт как-нибудь типа того: mybuffer.getNextByte() (в свою очередь, метод getNextByte должен обрабатывать ситуацию, когда буфер исчерпан, и в таком случае подгружать следующую порцию байт)

Как правильно считать файл в кодировке UTF-8?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт