Make preserved_delims work (in guf_str_next_tok)

2025-02-27 13:02:28 +01:00 · 2025-02-27 13:02:28 +01:00 · 8b02eff3b7
commit 8b02eff3b7
parent 217622d816
5 changed files with 201 additions and 20 deletions
--- a/src/guf_utf8.h
+++ b/src/guf_utf8.h
@ -257,12 +257,30 @@ GUF_FN_KEYWORDS guf_str_view guf_str_next_tok(guf_str_view *input, const guf_str
            guf_str_view delim_candidate = guf_substr_view(prev_input, 0, delim_len);
            for (ptrdiff_t delim_i = 0; delim_i < num_delims; ++delim_i) {
                if (guf_str_view_equal(&delim_candidate, delims + delim_i)) { // Found delim.
+                    bool preserved = false; 
+                    if (preserved_delims && num_preserved_delims > 0) {
+                        for (ptrdiff_t preserved_i = 0; preserved_i < num_preserved_delims; ++preserved_i) {
+                            if (guf_str_view_equal(&delim_candidate, preserved_delims + preserved_i)) { 
+                                preserved = true;
+                                break;
+                            }
+                        }
+                    }
+                    if (!preserved) {
                        input->len = prev_input.len - delim_len;
                        input->str = prev_input.len > 0 ? prev_input.str + delim_len : NULL;
-                    if (preserved_delims && num_preserved_delims > 0) {
+                        GUF_ASSERT(input->len >= 0);
+                    } else { 
+                        input->str -= num_bytes;
+                        input->len += num_bytes;
+                    }
+               
+                    if (tok.len == 0) {
+                        if (preserved) {
+                            input->str += num_bytes;
+                            input->len -= num_bytes;
                            return delim_candidate;
                        }
-                    if (tok.len == 0) {
                        tok.str = input->str;
                        goto end;
                    } else {
--- a/src/test/data/utf8-test.txt
+++ b/src/test/data/utf8-test.txt
@ -44,6 +44,24 @@ Kæmi ný öxi hér ykist þjófum nú bæði víl og ádrepa.

 Pijamalı hasta, yağız şoföre çabucak güvendi.

+Albert osti fagotin ja töräytti puhkuvan melodian. 
+
+דג סקרן שט בים מאוכזב ולפתע מצא חברה 
+
+نص حكيم له سر قاطع وذو شأن عظيم مكتوب على ثوب أخضر ومغلف بجلد أزرق
+
+بر اثر چنین تلقین و شستشوی مغزی جامعی، سطح و پایهٔ ذهن و فهم و نظر بعضی اشخاص واژگونه و معکوس می‌شود 
+
+키스의 고유조건은 입술끼리 만나야 하고 특별한 기술은 필요치 않다.
+
+いろはにほへとちりぬるを
+わかよたれそつねならむ
+うゐのおくやまけふこえて
+あさきゆめみしゑひもせす
+
+イロハニホヘト チリヌルヲ ワカヨタレソ ツネナラム
+ウヰノオクヤマ ケフコエテ アサキユメミシ ヱヒモセスン
+
 ᚠᛇᚻ᛫ᛒᛦᚦ᛫ᚠᚱᚩᚠᚢᚱ᛫ᚠᛁᚱᚪ᛫ᚷᛖᚻᚹᛦᛚᚳᚢᛗ
 ᛋᚳᛖᚪᛚ᛫ᚦᛖᚪᚻ᛫ᛗᚪᚾᚾᚪ᛫ᚷᛖᚻᚹᛦᛚᚳ᛫ᛗᛁᚳᛚᚢᚾ᛫ᚻᛦᛏ᛫ᛞᚫᛚᚪᚾ
 ᚷᛁᚠ᛫ᚻᛖ᛫ᚹᛁᛚᛖ᛫ᚠᚩᚱ᛫ᛞᚱᛁᚻᛏᚾᛖ᛫ᛞᚩᛗᛖᛋ᛫ᚻᛚᛇᛏᚪᚾ᛬
--- a/src/test/test.cpp
+++ b/src/test/test.cpp
@ -9,6 +9,7 @@ extern "C" {

 #include "test_dbuf.hpp"
 #include "test_dict.hpp"
+#include "test_utf8.hpp"

 std::unordered_set<std::unique_ptr<Test>> g_tests {};

@ -25,6 +26,10 @@ void init_tests()
    test = std::make_unique<DictCstrToIntTest>("DictCstrToIntTest");
    GUF_ASSERT_RELEASE(test.get());
    g_tests.insert(std::move(test));
+
+    test = std::make_unique<UTF8Test>("UTF8Test");
+    GUF_ASSERT_RELEASE(test.get());
+    g_tests.insert(std::move(test));
 }

 int main()
--- a/src/test/test_dict.hpp
+++ b/src/test/test_dict.hpp
@ -39,26 +39,10 @@ struct DictCstrToIntTest : public Test
        guf_str_view tok;
        while ((tok = guf_str_next_tok(&input_str, delims.data, delims.size, NULL, -1)).len) {
            // printf("tok_len: %td ", tok.len);
-            printf("'%.*s'\n", (int)tok.len, tok.str);
+            // printf("'%.*s'\n", (int)tok.len, tok.str);
        }
        dbuf_str_view_free(&delims, NULL);

-        // ptrdiff_t valid_chars = 0, invalid_chars = 0, bytes = 0;
-        // guf_utf8_char ch = {};
-        // for (guf_utf8_stat stat = guf_utf8_char_next(&ch, &input_str); stat != GUF_UTF8_READ_DONE; stat = guf_utf8_char_next(&ch, &input_str)) {
-        //     if (stat == GUF_UTF8_READ_VALID) {
-        //         ++valid_chars; 
-        //         printf("%s", ch.bytes);
-        //     } else {
-        //         ++invalid_chars;
-        //         printf("::INVALID_UTF8_CHAR::");
-        //     }
-        //     bytes += guf_utf8_char_num_bytes(&ch);
-        // }
-        // TEST_CHECK(input_str.len == 0 && input_str.str == NULL);
-        // printf("\nread %td bytes\n", bytes);
-        // printf("read %td valid and %td invalid utf-8 characters\n", valid_chars, invalid_chars);
-
        dict_cstr_int_free(&word_cnt_dict, NULL);
        bool dbuf_null = !word_cnt_dict.kv_elems.data && !word_cnt_dict.kv_elems.allocator && !word_cnt_dict.kv_elems.capacity && !word_cnt_dict.kv_elems.size;
        TEST_CHECK(!dbuf_null && !word_cnt_dict.kv_indices && !word_cnt_dict.kv_indices_cap && !word_cnt_dict.max_probelen && !word_cnt_dict.num_tombstones);
--- a/src/test/test_utf8.hpp
+++ b/src/test/test_utf8.hpp
@ -0,0 +1,156 @@
+#include <vector>
+#include "test.hpp"
+
+extern "C" 
+{
+    #include "guf_alloc_libc.h"
+    #include "guf_dict_impl.h"
+    #include "guf_dbuf_impl.h"
+    #include "guf_utf8.h"
+    #include "guf_str.h"
+}
+
+struct UTF8Test : public Test
+{
+
+    UTF8Test(const std::string& name) : Test(name) {};
+
+    private: 
+    dbuf_char text_buf {};
+    std::vector<char> text_vec;
+
+    bool load_text(const char *fname)
+    {
+        FILE *in_file {nullptr};
+        if (!in_file) {
+            in_file = fopen(fname, "r");
+        }
+
+        if (!in_file) {
+            return false;
+        }
+        
+        dbuf_char_init(&text_buf, 128, &guf_allocator_libc);
+
+        int c = EOF;
+        while ((c = fgetc(in_file)) != EOF) {
+            dbuf_char_push_val(&text_buf, (char)c);
+            text_vec.push_back((char)c);
+        }
+        fclose(in_file);
+        
+        return TEST_CHECK(std::ssize(text_vec) == text_buf.size);
+    }
+
+    void free_text()
+    {
+        dbuf_char_free(&text_buf, NULL);
+        text_vec.clear();
+    }
+
+
+    void read_utf8_chars(const char *fname, ptrdiff_t *n_valid, ptrdiff_t *n_invalid)
+    {
+        GUF_ASSERT_RELEASE(load_text(fname));
+
+        ptrdiff_t valid_chars = 0, invalid_chars = 0, bytes = 0;
+        guf_str_view input_str = {.str = text_buf.data, .len = text_buf.size};
+        guf_utf8_char ch = {};
+        for (guf_utf8_stat stat = guf_utf8_char_next(&ch, &input_str); stat != GUF_UTF8_READ_DONE; stat = guf_utf8_char_next(&ch, &input_str)) {
+            if (stat == GUF_UTF8_READ_VALID) {
+                ++valid_chars; 
+                // printf("%s", ch.bytes);
+            } else {
+                ++invalid_chars;
+                // printf("::INVALID_UTF8_CHAR::");
+            }
+            bytes += guf_utf8_char_num_bytes(&ch);
+        }
+        TEST_CHECK(input_str.len == 0 && input_str.str == NULL);
+        TEST_CHECK(bytes == text_buf.size);
+
+        // printf("\nread %td bytes\n", bytes);
+        // printf("read %td valid and %td invalid utf-8 characters\n", valid_chars, invalid_chars);
+
+        free_text();
+
+        if (n_valid)
+            *n_valid = valid_chars;
+        if (n_invalid)
+            *n_invalid = invalid_chars;
+    }
+
+    int count_words(const char *fname, const dbuf_str_view *delims)
+    {
+        GUF_ASSERT_RELEASE(load_text(fname));
+
+        int num_words = 0;
+
+        guf_str_view input_str = {.str = text_buf.data, .len = text_buf.size};
+        guf_str_view tok;
+        while ((tok = guf_str_next_tok(&input_str, delims->data, delims->size, NULL, -1)).len) {
+            // printf("tok_len: %td ", tok.len);
+            // printf("'%.*s'\n", (int)tok.len, tok.str);
+            ++num_words;
+        }
+
+        free_text();
+        return num_words;
+    }
+
+    int count_words_with_delims(const char *fname, const dbuf_str_view *delims)
+    {
+        GUF_ASSERT_RELEASE(load_text(fname));
+
+        int num_words = 0;
+        guf_str_view input_str = {.str = text_buf.data, .len = text_buf.size};
+        guf_str_view tok;
+        while ((tok = guf_str_next_tok(&input_str, delims->data, delims->size, delims->data, delims->size)).len) {
+            // if (tok.str[0] == '\n') {
+            //     printf("'\\n'\n");
+            // } else {
+            //     printf("'%.*s'\n", (int)tok.len, tok.str);
+            // }
+            ++num_words;
+        }
+        free_text();
+        return num_words;
+    }
+
+    public:
+
+    bool run()
+    {
+        if (done) {
+            return passed;
+        }
+
+        ptrdiff_t valid = 0, invalid = 0;
+        read_utf8_chars(TEST_DATA_DIR "/" "utf8-test.txt", &valid, &invalid);
+        TEST_CHECK(valid == 2634 && invalid == 0);
+
+        dbuf_str_view delims = dbuf_str_view_new(&guf_allocator_libc);
+        for (size_t i = 0; i < GUF_STATIC_BUF_SIZE(guf_utf8_whitespace); ++i) {
+            guf_str_view d = {.len = (ptrdiff_t)strlen(guf_utf8_whitespace[i]), .str = guf_utf8_whitespace[i]};
+            dbuf_str_view_push_val(&delims, d);
+        }
+        for (size_t i = 0; i < GUF_STATIC_BUF_SIZE(guf_utf8_punctuation); ++i) {
+            guf_str_view d = {.len = (ptrdiff_t)strlen(guf_utf8_punctuation[i]), .str = guf_utf8_punctuation[i]};
+            dbuf_str_view_push_val(&delims, d);
+        }
+
+        int words = count_words(TEST_DATA_DIR "/" "utf8-test.txt", &delims);
+        printf("words %d\n", words);
+        TEST_CHECK(words == 422);
+
+        int words_with_delims = count_words_with_delims(TEST_DATA_DIR "/" "utf8-test.txt", &delims);
+        TEST_CHECK(words_with_delims == 947);
+        
+        dbuf_str_view_free(&delims, NULL);
+
+        done = true;
+        passed = (num_failed_checks == 0);
+        return passed;
+    }
+
+};