huggingface
diff --git a/‎tokenizers/README.md
Lines changed: 5 additions & 5 deletions b/‎tokenizers/README.md
Lines changed: 5 additions & 5 deletions
diff --git a/‎tokenizers/benches/bert_benchmark.rs
Lines changed: 2 additions & 2 deletions b/‎tokenizers/benches/bert_benchmark.rs
Lines changed: 2 additions & 2 deletions
diff --git a/‎tokenizers/src/decoders/bpe.rs
Lines changed: 7 additions & 5 deletions b/‎tokenizers/src/decoders/bpe.rs
Lines changed: 7 additions & 5 deletions
diff --git a/‎tokenizers/src/decoders/byte_fallback.rs
Lines changed: 12 additions & 31 deletions b/‎tokenizers/src/decoders/byte_fallback.rs
Lines changed: 12 additions & 31 deletions
diff --git a/‎tokenizers/src/decoders/ctc.rs
Lines changed: 12 additions & 12 deletions b/‎tokenizers/src/decoders/ctc.rs
Lines changed: 12 additions & 12 deletions
diff --git a/‎tokenizers/src/decoders/fuse.rs
Lines changed: 1 addition & 3 deletions b/‎tokenizers/src/decoders/fuse.rs
Lines changed: 1 addition & 3 deletions
diff --git a/‎tokenizers/src/decoders/strip.rs
Lines changed: 2 additions & 8 deletions b/‎tokenizers/src/decoders/strip.rs
Lines changed: 2 additions & 8 deletions
diff --git a/‎tokenizers/src/decoders/wordpiece.rs
Lines changed: 1 addition & 8 deletions b/‎tokenizers/src/decoders/wordpiece.rs
Lines changed: 1 addition & 8 deletions
diff --git a/‎tokenizers/src/lib.rs
Lines changed: 5 additions & 5 deletions b/‎tokenizers/src/lib.rs
Lines changed: 5 additions & 5 deletions
diff --git a/‎tokenizers/src/models/bpe/mod.rs
Lines changed: 2 additions & 3 deletions b/‎tokenizers/src/models/bpe/mod.rs
Lines changed: 2 additions & 3 deletions
@@ -95,11 +95,11 @@ fn main() -> Result<()> {
         .vocab_size(vocab_size)
         .min_frequency(0)
         .special_tokens(vec![
-            AddedToken::from(String::from("<s>"), true),
-            AddedToken::from(String::from("<pad>"), true),
-            AddedToken::from(String::from("</s>"), true),
-            AddedToken::from(String::from("<unk>"), true),
-            AddedToken::from(String::from("<mask>"), true),
+            AddedToken::from("<s>", true),
+            AddedToken::from("<pad>", true),
+            AddedToken::from("</s>", true),
+            AddedToken::from("<unk>", true),
+            AddedToken::from("<mask>", true),
         ])
         .build();
 
 
@@ -38,8 +38,8 @@ fn create_bert_tokenizer(wp: WordPiece) -> BertTokenizer {
     tokenizer.with_normalizer(Some(BertNormalizer::default()));
     tokenizer.with_decoder(Some(decoders::wordpiece::WordPiece::default()));
     tokenizer.with_post_processor(Some(BertProcessing::new(
-        ("[SEP]".into(), sep_id),
-        ("[CLS]".into(), cls_id),
+        ("[SEP]", sep_id),
+        ("[CLS]", cls_id),
     )));
     tokenizer
 }
 
@@ -9,18 +9,20 @@ use serde::{Deserialize, Serialize};
 #[serde(tag = "type")]
 #[non_exhaustive]
 pub struct BPEDecoder {
-    pub suffix: String,
+    pub suffix: CompactString,
 }
 
 impl BPEDecoder {
-    pub fn new(suffix: String) -> Self {
-        Self { suffix }
+    pub fn new(suffix: impl Into<CompactString>) -> Self {
+        Self {
+            suffix: suffix.into(),
+        }
     }
 }
 
 impl Default for BPEDecoder {
     fn default() -> Self {
-        Self::new("</w>".into())
+        Self::new("</w>")
     }
 }
 
@@ -37,7 +39,7 @@ impl Decoder for BPEDecoder {
                 let replacement = if i == n { "" } else { " " };
                 token
                     .to_compact_string()
-                    .replace(&self.suffix, replacement)
+                    .replace(&*self.suffix, replacement)
                     .to_compact_string()
             })
             .collect::<Vec<CompactString>>())
 
@@ -78,49 +78,41 @@ mod tests {
     #[test]
     fn decode() {
         let decoder = ByteFallback::new();
-        let res = decoder
-            .decode_chain(vec!["Hey".to_owned(), "friend!".to_owned()])
-            .unwrap();
+        let res = decoder.decode_chain(vec!["Hey", "friend!"]).unwrap();
         assert_eq!(
             res.into_iter()
                 .map(|t| t.to_compact_string())
                 .collect::<Vec<_>>(),
-            vec!["Hey".to_owned(), "friend!".to_owned()]
+            vec!["Hey", "friend!"]
         );
 
-        let res = decoder.decode_chain(vec!["<0x61>".to_owned()]).unwrap();
+        let res = decoder.decode_chain(vec!["<0x61>"]).unwrap();
         assert_eq!(
             res.into_iter()
                 .map(|t| t.to_compact_string())
                 .collect::<Vec<_>>(),
-            vec!["a".to_owned()]
+            vec!["a"]
         );
 
-        let res = decoder.decode_chain(vec!["<0xE5>".to_owned()]).unwrap();
+        let res = decoder.decode_chain(vec!["<0xE5>"]).unwrap();
         assert_eq!(
             res.into_iter()
                 .map(|t| t.to_compact_string())
                 .collect::<Vec<_>>(),
             vec!["�"]
         );
 
-        let res = decoder
-            .decode_chain(vec!["<0xE5>".to_owned(), "<0x8f>".to_owned()])
-            .unwrap();
+        let res = decoder.decode_chain(vec!["<0xE5>", "<0x8f>"]).unwrap();
         assert_eq!(
             res.into_iter()
                 .map(|t| t.to_compact_string())
                 .collect::<Vec<_>>(),
-            vec!["�".to_owned(), "�".to_owned()]
+            vec!["�", "�"]
         );
 
         // 叫
         let res = decoder
-            .decode_chain(vec![
-                "<0xE5>".to_owned(),
-                "<0x8f>".to_owned(),
-                "<0xab>".to_owned(),
-            ])
+            .decode_chain(vec!["<0xE5>", "<0x8f>", "<0xab>"])
             .unwrap();
         assert_eq!(
             res.into_iter()
@@ -130,32 +122,21 @@ mod tests {
         );
 
         let res = decoder
-            .decode_chain(vec![
-                "<0xE5>".to_owned(),
-                "<0x8f>".to_owned(),
-                "<0xab>".to_owned(),
-                "a".to_owned(),
-            ])
+            .decode_chain(vec!["<0xE5>", "<0x8f>", "<0xab>", "a"])
             .unwrap();
         assert_eq!(
             res.into_iter()
                 .map(|t| t.to_compact_string())
                 .collect::<Vec<_>>(),
-            vec!["叫".to_owned(), "a".to_owned()]
+            vec!["叫", "a"]
         );
 
-        let res = decoder
-            .decode_chain(vec![
-                "<0xE5>".to_owned(),
-                "<0x8f>".to_owned(),
-                "a".to_owned(),
-            ])
-            .unwrap();
+        let res = decoder.decode_chain(vec!["<0xE5>", "<0x8f>", "a"]).unwrap();
         assert_eq!(
             res.into_iter()
                 .map(|t| t.to_compact_string())
                 .collect::<Vec<_>>(),
-            vec!["�".to_owned(), "�".to_owned(), "a".to_owned()]
+            vec!["�", "�", "a"]
         );
     }
 }
@@ -14,31 +14,31 @@ use serde::{Deserialize, Serialize};
 #[non_exhaustive]
 pub struct CTC {
     /// The pad token used by CTC to delimit a new token.
-    pub pad_token: String,
+    pub pad_token: CompactString,
     /// The word delimiter token. It will be replaced by a `<space>`.
-    pub word_delimiter_token: String,
+    pub word_delimiter_token: CompactString,
     /// Whether to cleanup some tokenization artifacts.
     /// Mainly spaces before punctuation, and some abbreviated english forms.
     pub cleanup: bool,
 }
 
 impl CTC {
-    pub fn new(pad_token: String, word_delimiter_token: String, cleanup: bool) -> Self {
+    pub fn new(
+        pad_token: impl Into<CompactString>,
+        word_delimiter_token: impl Into<CompactString>,
+        cleanup: bool,
+    ) -> Self {
         Self {
-            pad_token,
-            word_delimiter_token,
+            pad_token: pad_token.into(),
+            word_delimiter_token: word_delimiter_token.into(),
             cleanup,
         }
     }
 }
 
 impl Default for CTC {
     fn default() -> Self {
-        Self {
-            pad_token: "<pad>".to_string(),
-            word_delimiter_token: "|".to_string(),
-            cleanup: true,
-        }
+        Self::new("<pad>", "|", true)
     }
 }
 
@@ -52,10 +52,10 @@ impl Decoder for CTC {
             .map(|token| token.to_compact_string())
             .dedup()
             .filter_map(|token| {
-                let mut replaced: CompactString = token.replace(&self.pad_token, "").into();
+                let mut replaced: CompactString = token.replace(&*self.pad_token, "").into();
                 if self.cleanup {
                     replaced = wordpiece::cleanup(&replaced)
-                        .replace(&self.word_delimiter_token, " ")
+                        .replace(&*self.word_delimiter_token, " ")
                         .into();
                 }
                 if replaced.is_empty() {
 
@@ -44,9 +44,7 @@ mod tests {
     #[test]
     fn decode() {
         let decoder = Fuse::new();
-        let res = decoder
-            .decode_chain(vec!["Hey".to_owned(), " friend!".to_owned()])
-            .unwrap();
+        let res = decoder.decode_chain(vec!["Hey", " friend!"]).unwrap();
         assert_eq!(
             res.into_iter()
                 .map(|t| t.to_compact_string())
 
@@ -71,11 +71,7 @@ mod tests {
     fn decode() {
         let decoder = Strip::new('H', 1, 0);
         let res = decoder
-            .decode_chain(vec![
-                "Hey".to_owned(),
-                " friend!".to_owned(),
-                "HHH".to_owned(),
-            ])
+            .decode_chain(vec!["Hey", " friend!", "HHH"])
             .unwrap();
         assert_eq!(
             res.into_iter()
@@ -85,9 +81,7 @@ mod tests {
         );
 
         let decoder = Strip::new('y', 0, 1);
-        let res = decoder
-            .decode_chain(vec!["Hey".to_owned(), " friend!".to_owned()])
-            .unwrap();
+        let res = decoder.decode_chain(vec!["Hey", " friend!"]).unwrap();
         assert_eq!(
             res.into_iter()
                 .map(|t| t.to_compact_string())
 
@@ -82,14 +82,7 @@ mod tests {
 
         assert_eq!(
             decoder
-                .decode(vec![
-                    "##uelo".to_owned(),
-                    "Ara".to_owned(),
-                    "##új".to_owned(),
-                    "##o".to_owned(),
-                    "No".to_owned(),
-                    "##guera".to_owned()
-                ])
+                .decode(vec!["##uelo", "Ara", "##új", "##o", "No", "##guera"])
                 .unwrap()
                 .to_compact_string(),
             "##uelo Araújo Noguera"
 
@@ -83,11 +83,11 @@
 //!         .vocab_size(vocab_size)
 //!         .min_frequency(0)
 //!         .special_tokens(vec![
-//!             AddedToken::from(String::from("<s>"), true),
-//!             AddedToken::from(String::from("<pad>"), true),
-//!             AddedToken::from(String::from("</s>"), true),
-//!             AddedToken::from(String::from("<unk>"), true),
-//!             AddedToken::from(String::from("<mask>"), true),
+//!             AddedToken::from("<s>", true),
+//!             AddedToken::from("<pad>", true),
+//!             AddedToken::from("</s>", true),
+//!             AddedToken::from("<unk>", true),
+//!             AddedToken::from("<mask>", true),
 //!         ])
 //!         .build();
 //!
 
@@ -1,6 +1,5 @@
 //! [Byte Pair Encoding](https://www.aclweb.org/anthology/P16-1162/) model.
 use std::{iter, mem};
-use compact_str::CompactString;
 
 mod model;
 mod serialization;
@@ -27,10 +26,10 @@ pub enum Error {
     BadMerges(usize),
     /// If a token found in merges, is not in the vocab
     #[error("Token `{0}` out of vocabulary")]
-    MergeTokenOutOfVocabulary(CompactString),
+    MergeTokenOutOfVocabulary(String),
     /// If the provided unk token is out of vocabulary
     #[error("Unk token `{0}` not found in the vocabulary")]
-    UnkTokenOutOfVocabulary(CompactString),
+    UnkTokenOutOfVocabulary(String),
     /// Dropout not between 0 and 1.
     #[error("Dropout should be between 0 and 1, inclusive")]
     InvalidDropout,