]> git.kaiwu.me - nginx.git/commitdiff
Core: stricter UTF-8 handling in ngx_utf8_decode().
authorYugo Horie <u5.horie@gmail.com>
Wed, 22 Feb 2023 23:09:50 +0000 (08:09 +0900)
committerYugo Horie <u5.horie@gmail.com>
Wed, 22 Feb 2023 23:09:50 +0000 (08:09 +0900)
An UTF-8 octet sequence cannot start with a 11111xxx byte (above 0xf8),
see https://datatracker.ietf.org/doc/html/rfc3629#section-3.  Previously,
such bytes were accepted by ngx_utf8_decode() and misinterpreted as 11110xxx
bytes (as in a 4-byte sequence).  While unlikely, this can potentially cause
issues.

Fix is to explicitly reject such bytes in ngx_utf8_decode().

src/core/ngx_string.c

index 98f270aca5b873204468f3271cadf03e08534150..f8f738472b70a58ad3c9c4d9e4d7b614a5b201de 100644 (file)
@@ -1364,7 +1364,12 @@ ngx_utf8_decode(u_char **p, size_t n)
 
     u = **p;
 
-    if (u >= 0xf0) {
+    if (u >= 0xf8) {
+
+        (*p)++;
+        return 0xffffffff;
+
+    } else if (u >= 0xf0) {
 
         u &= 0x07;
         valid = 0xffff;