Invalid `ParsedTranscriptData` range for non-ASCII transcript. #79

akonior · 2024-11-29T13:47:58Z

If the server sends a JSON response containing non-ASCII (UTF-8) characters, a bug arises in the code that generates ranges for this transcript. This occurs because of how byte arrays are converted to strings, leading to discrepancies in character lengths.

async transcript(): Promise<{
  sent: string;
  recv: string;
  ranges: { recv: ParsedTranscriptData; sent: ParsedTranscriptData };
}> {
  const transcript = this.#prover.transcript();
  const recv = Buffer.from(transcript.recv).toString();
  const sent = Buffer.from(transcript.sent).toString();
  return {
    recv,
    sent,
    ranges: {
      recv: processTranscript(recv),
      sent: processTranscript(sent),
    },
  };
}

In this code const transcript = this.#prover.transcript(); is an array of bytes but const recv = Buffer.from(transcript.recv).toString(); is a string. If there are some utf8 (non-ASCII) characters in transcipt then

transcript.recv.length > Buffer.from(transcript.recv).toString().length

The length mismatch propagates into the processTranscript function:

export function processTranscript(transcript: string): ParsedTranscriptData {
  const returnVal: ParsedTranscriptData = {
    all: {
      start: 0,
      end: transcript.length,
    },

Here, transcript.length represents the number of characters, not bytes. When non-ASCII characters are present, this value is shorter than the actual byte length of the transcript. This discrepancy causes end, _processEOL and subsequent JSON parsing to behave incorrectly, as the range boundaries do not align with the original byte array.

The text was updated successfully, but these errors were encountered:

heeckhau assigned 0xtsukino Dec 6, 2024

This was referenced Dec 10, 2024

Seems like doesn't work correct with utf-8 strings tlsnotary/tlsn-extension#122

Open

Support for utf8 bodies tlsnotary/tlsn-extension#124

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Invalid `ParsedTranscriptData` range for non-ASCII transcript. #79

Invalid `ParsedTranscriptData` range for non-ASCII transcript. #79

akonior commented Nov 29, 2024

Invalid ParsedTranscriptData range for non-ASCII transcript. #79

Invalid ParsedTranscriptData range for non-ASCII transcript. #79

Comments

akonior commented Nov 29, 2024

Invalid `ParsedTranscriptData` range for non-ASCII transcript. #79

Invalid `ParsedTranscriptData` range for non-ASCII transcript. #79