From 39c899e6e37bae5deb19a83bcced0e7013b6d2cf Mon Sep 17 00:00:00 2001
From: username <username@gmail.com>
Date: Mon, 13 May 2024 16:16:49 +0800
Subject: [PATCH] Site updated: 2024-05-13 16:16:40

---
 2023/10/27/driver_develop/index.html          |   2 +-
 2023/11/11/Indexing/index.html                | 283 +++++++++++++++
 2023/11/18/compilation_principle/index.html   |   2 +-
 2023/12/10/deduplication_overview/index.html  |   2 +-
 .../deduplication_system_articles/index.html  |  21 +-
 2024/04/27/algorithm_questions/index.html     |   2 +-
 .../{SMR_DePFC => Rewriting}/2kSfwhw5Sd7.png  | Bin
 .../{SMR_DePFC => Rewriting}/2kSgf9wdlNi.png  | Bin
 .../image-20240511151432270.png               | Bin
 .../image-20240511152707489.png               | Bin
 .../image-20240511154851309.png               | Bin
 .../image-20240511194450908.png               | Bin
 .../image-20240511201404030.png               | Bin
 2024/05/11/Rewriting/index.html               | 334 ++++++++++++++++++
 2024/05/11/SMR_DePFC/index.html               |   2 +-
 archives/2023/11/index.html                   |  14 +
 archives/2023/index.html                      |  10 +-
 archives/2023/page/2/index.html               |  27 +-
 archives/2023/page/3/index.html               |  24 +-
 archives/2023/page/4/index.html               |  12 +-
 archives/2023/page/5/index.html               |  12 +-
 archives/2023/page/6/index.html               | 170 +++++++++
 archives/2024/05/index.html                   |  14 +
 archives/2024/index.html                      |  14 +
 archives/index.html                           |  25 +-
 archives/page/2/index.html                    |  24 +-
 archives/page/3/index.html                    |  43 +--
 archives/page/4/index.html                    |  30 +-
 archives/page/5/index.html                    |  10 +-
 archives/page/6/index.html                    |  17 +-
 archives/page/7/index.html                    |  27 ++
 search.xml                                    |  30 +-
 32 files changed, 1008 insertions(+), 143 deletions(-)
 create mode 100644 2023/11/11/Indexing/index.html
 rename 2024/05/11/{SMR_DePFC => Rewriting}/2kSfwhw5Sd7.png (100%)
 rename 2024/05/11/{SMR_DePFC => Rewriting}/2kSgf9wdlNi.png (100%)
 rename 2024/05/11/{SMR_DePFC => Rewriting}/image-20240511151432270.png (100%)
 rename 2024/05/11/{SMR_DePFC => Rewriting}/image-20240511152707489.png (100%)
 rename 2024/05/11/{SMR_DePFC => Rewriting}/image-20240511154851309.png (100%)
 rename 2024/05/11/{SMR_DePFC => Rewriting}/image-20240511194450908.png (100%)
 rename 2024/05/11/{SMR_DePFC => Rewriting}/image-20240511201404030.png (100%)
 create mode 100644 2024/05/11/Rewriting/index.html
 create mode 100644 archives/2023/page/6/index.html
diff --git a/2023/10/27/driver_develop/index.html b/2023/10/27/driver_develop/index.html
index 50677bf4..44443f57 100644
--- a/2023/10/27/driver_develop/index.html
+++ b/2023/10/27/driver_develop/index.html
@@ -424,7 +424,7 @@ <h1 id="I2C"><a href="#I2C" class="headerlink" title="I2C"></a>I2C</h1><p>Wait t
         </section>
         <section class="post-nav">
             
-                <a class="prev" rel="prev" href="/2023/11/18/compilation_principle/">编译原理</a>
+                <a class="prev" rel="prev" href="/2023/11/11/Indexing/">Indexing</a>
             
             
             <a class="next" rel="next" href="/2023/10/19/open-source-9.19-10.19/">开源的第一个月</a>
diff --git a/2023/11/11/Indexing/index.html b/2023/11/11/Indexing/index.html
new file mode 100644
index 00000000..c7c86c2e
--- /dev/null
+++ b/2023/11/11/Indexing/index.html
@@ -0,0 +1,283 @@
+<!DOCTYPE html>
+<html lang="zh-CN">
+
+<head>
+    <meta charset="UTF-8">
+<meta name="viewport"
+      content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">
+<meta http-equiv="X-UA-Compatible" content="ie=edge">
+
+    <meta name="author" content="修年">
+
+
+
+
+
+<title>Indexing | 修年</title>
+
+
+
+    <link rel="icon" href="/favicon.ico">
+
+
+
+
+    <!-- stylesheets list from _config.yml -->
+    
+    <link rel="stylesheet" href="/css/style.css">
+    
+
+
+
+    <!-- scripts list from _config.yml -->
+    
+    <script src="/js/script.js"></script>
+    
+    <script src="/js/tocbot.min.js"></script>
+    
+
+
+
+    
+    
+        
+    
+
+
+      <meta charset="UTF-8">
+    <title>live2d-demo</title>
+    <script src="https://apps.bdimg.com/libs/jquery/2.1.4/jquery.min.js"></script>
+    <!-- Live2DCubismCore -->
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/frame/live2dcubismcore.min.js"></script>
+    <!-- Include Pixi. -->
+    <script src="https://cdnjs.cloudflare.com/ajax/libs/pixi.js/4.6.1/pixi.min.js"></script>
+    <!-- Include Cubism Components. -->
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/live2dcubismframework.js"></script>
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/live2dcubismpixi.js"></script>
+    <!-- User's Script -->
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/l2d.js"></script>
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/main.js"></script>
+    <style>
+    </style>
+<meta name="generator" content="Hexo 5.4.2"></head>
+
+<body>
+    <script>
+        // this function is used to check current theme before page loaded.
+        (() => {
+            const currentTheme = window.localStorage && window.localStorage.getItem('theme') || '';
+            const isDark = currentTheme === 'dark';
+            const pagebody = document.getElementsByTagName('body')[0]
+            if (isDark) {
+                pagebody.classList.add('dark-theme');
+                // mobile
+                document.getElementById("mobile-toggle-theme").innerText = "· Dark"
+            } else {
+                pagebody.classList.remove('dark-theme');
+                // mobile
+                document.getElementById("mobile-toggle-theme").innerText = "· Light"
+            }
+        })();
+    </script>
+
+    <div class="wrapper">
+        <header>
+    <nav class="navbar">
+        <div class="container">
+            <div class="navbar-header header-logo"><a href="/">Xiunian&#39;s Blog</a></div>
+            <div class="menu navbar-right">
+                
+                    <a class="menu-item" href="/about">About</a>
+                
+                    <a class="menu-item" href="/archives">Posts</a>
+                
+                    <a class="menu-item" href="/tag">Tags</a>
+                
+                <input id="switch_default" type="checkbox" class="switch_default">
+                <label for="switch_default" class="toggleBtn"></label>
+            </div>
+        </div>
+    </nav>
+
+    
+    <nav class="navbar-mobile" id="nav-mobile">
+        <div class="container">
+            <div class="navbar-header">
+                <div>
+                    <a href="/">Xiunian&#39;s Blog</a><a id="mobile-toggle-theme">·&nbsp;Light</a>
+                </div>
+                <div class="menu-toggle" onclick="mobileBtn()">&#9776; Menu</div>
+            </div>
+            <div class="menu" id="mobile-menu">
+                
+                    <a class="menu-item" href="/about">About</a>
+                
+                    <a class="menu-item" href="/archives">Posts</a>
+                
+                    <a class="menu-item" href="/tag">Tags</a>
+                
+            </div>
+        </div>
+    </nav>
+
+</header>
+<script>
+    var mobileBtn = function f() {
+        var toggleMenu = document.getElementsByClassName("menu-toggle")[0];
+        var mobileMenu = document.getElementById("mobile-menu");
+        if(toggleMenu.classList.contains("active")){
+           toggleMenu.classList.remove("active")
+            mobileMenu.classList.remove("active")
+        }else{
+            toggleMenu.classList.add("active")
+            mobileMenu.classList.add("active")
+        }
+    }
+</script>
+            <div class="main">
+                <div class="container">
+    
+    
+        <div class="post-toc" style="right: -4em;">
+    <div class="tocbot-list">
+    </div>
+    <div class="tocbot-list-menu">
+        <a class="tocbot-toc-expand" onclick="expand_toc()">Expand all</a>
+        <a onclick="go_top()">Back to top</a>
+        <a onclick="go_bottom()">Go to bottom</a>
+    </div>
+</div>
+
+<script>
+    var tocbot_timer;
+    var DEPTH_MAX = 6; // 为 6 时展开所有
+    var tocbot_default_config = {
+        tocSelector: '.tocbot-list',
+        contentSelector: '.post-content',
+        headingSelector: 'h1, h2, h3, h4, h5',
+        orderedList: false,
+        scrollSmooth: true,
+        onClick: extend_click,
+    };
+
+    function extend_click() {
+        clearTimeout(tocbot_timer);
+        tocbot_timer = setTimeout(function() {
+            tocbot.refresh(obj_merge(tocbot_default_config, {
+                hasInnerContainers: true
+            }));
+        }, 420); // 这个值是由 tocbot 源码里定义的 scrollSmoothDuration 得来的
+    }
+
+    document.ready(function() {
+        tocbot.init(obj_merge(tocbot_default_config, {
+            collapseDepth: 1
+        }));
+    });
+
+    function expand_toc() {
+        var b = document.querySelector('.tocbot-toc-expand');
+        var expanded = b.getAttribute('data-expanded');
+        expanded ? b.removeAttribute('data-expanded') : b.setAttribute('data-expanded', true);
+        tocbot.refresh(obj_merge(tocbot_default_config, {
+            collapseDepth: expanded ? 1 : DEPTH_MAX
+        }));
+        b.innerText = expanded ? 'Expand all' : 'Collapse all';
+    }
+
+    function go_top() {
+        window.scrollTo(0, 0);
+    }
+
+    function go_bottom() {
+        window.scrollTo(0, document.body.scrollHeight);
+    }
+
+    function obj_merge(target, source) {
+        for (var item in source) {
+            if (source.hasOwnProperty(item)) {
+                target[item] = source[item];
+            }
+        }
+        return target;
+    }
+</script>
+    
+
+    
+    <article class="post-wrap">
+        <header class="post-header">
+            <h1 class="post-title">Indexing</h1>
+            
+                <div class="post-meta">
+                    
+                        Author: <a itemprop="author" rel="author" href="/">修年</a>
+                    
+
+                    
+                        <span class="post-time">
+                        Date: <a href="#">十一月 11, 2023&nbsp;&nbsp;14:25:29</a>
+                        </span>
+                    
+                    
+                </div>
+            
+        </header>
+
+        <div class="post-content">
+            <h2 id="sparce-indexing"><a href="#sparce-indexing" class="headerlink" title="sparce indexing"></a>sparce indexing</h2><p>基于chunks的去重都要求使用full index，而这RAM一般承受不起，但是纯用disk io就太慢了。所以它利用了数据局部性：</p>
+<p>If two pieces of backup streams share any chunks, they are likely to share many chunks. <u>如果两个segment共享了某个chunk，那么它们很有可能共享很多chunks。</u></p>
+<p><strong>是这样的流程：</strong></p>
+<ol>
+<li>分段为segment；</li>
+<li>计算该segment的每个chunk的fp，然后对每个chunk查询其对应的sparce indexing table: &lt;fp, segment_id&gt;，记录<u>可能跟它共享很多chunk的segment</u>的segment_id；</li>
+<li>读取这些segment_id对应的segment的chunk indexing table（存储在disk中）；</li>
+<li>for every chunks： 重复，copy entry ；不重复，add to new container</li>
+<li>最后再将该segment的信息写入磁盘，填写sparce indexing表。</li>
+</ol>
+<p>而sparce indexing表最一开始，由对input segment进行chunks的随机抽样得出（或者逐渐构建起来，反正大概是这个意思）</p>
+<p>可以看到，它将segment info保留在disk中，在RAM中只保留fp2seg_id的映射，每次只需简单从磁盘中读取几个segment info即可，利用数据局部性极大地降低了磁盘IO次数。</p>
+<p>Odess采用的就是类似这种capping+sparce indexing的方法。</p>
+<p>将sparce indexing从原来的&lt;fp, seg_id&gt;改为&lt;fp, cid&gt;，并且每次只取top T个包含sample chunks最多的容器，从而将对segment进行cap修改为对container进行cap。仔细想想，这样确实依然保证了原算法的核心思想，也属于是segment size = container size的特种了。</p>
+<p>不这个&lt;fp, cid&gt;不就是Odess中的recipe（或者说是全局指纹表）吗？乐。Odess也确实体现了这种capping+sparce indexing结合的方法【只不过进行简化了，每个chunk固定取其第一个container】。</p>
+
+        </div>
+
+        
+        <section class="post-tags">
+            <div>
+                <span>Tag(s):</span>
+                <span class="tag">
+                    
+                </span>
+            </div>
+            <div>
+                <a href="javascript:window.history.back();">back</a>
+                <span>· </span>
+                <a href="/">home</a>
+            </div>
+        </section>
+        <section class="post-nav">
+            
+                <a class="prev" rel="prev" href="/2023/11/18/compilation_principle/">编译原理</a>
+            
+            
+            <a class="next" rel="next" href="/2023/10/27/driver_develop/">驱动开发小记</a>
+            
+        </section>
+
+
+    </article>
+</div>
+
+            </div>
+            <footer id="footer" class="footer">
+    <div class="copyright">
+        <span>© 修年 | Powered by <a href="https://hexo.io" target="_blank">Hexo</a> & <a href="https://github.com/Siricee/hexo-theme-Chic" target="_blank">Chic</a></span>
+    </div>
+</footer>
+
+    </div>
+</body>
+
+</html>
\ No newline at end of file
diff --git a/2023/11/18/compilation_principle/index.html b/2023/11/18/compilation_principle/index.html
index 862397d9..4c53b81b 100644
--- a/2023/11/18/compilation_principle/index.html
+++ b/2023/11/18/compilation_principle/index.html
@@ -1030,7 +1030,7 @@ <h1 id="拓展阅读"><a href="#拓展阅读" class="headerlink" title="拓展
                 <a class="prev" rel="prev" href="/2023/11/26/database/">数据库原理</a>
             
             
-            <a class="next" rel="next" href="/2023/10/27/driver_develop/">驱动开发小记</a>
+            <a class="next" rel="next" href="/2023/11/11/Indexing/">Indexing</a>
             
         </section>
 
diff --git a/2023/12/10/deduplication_overview/index.html b/2023/12/10/deduplication_overview/index.html
index 9e1f2078..105d4297 100644
--- a/2023/12/10/deduplication_overview/index.html
+++ b/2023/12/10/deduplication_overview/index.html
@@ -242,7 +242,7 @@ <h3 id="dictionary-model-based-coding"><a href="#dictionary-model-based-coding"
 <h3 id="delta-compression"><a href="#delta-compression" class="headerlink" title="delta compression"></a>delta compression</h3><p>它的提出是针对于小文件/相似chunk的。它的思想感觉有点类似密码学，大概是这样：</p>
 <figure class="highlight css"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">given file <span class="selector-tag">A</span>,<span class="selector-tag">B</span></span><br><span class="line">calc △ab，</span><br><span class="line">我们就可以通过△ab和<span class="selector-tag">B</span>来恢复出一个<span class="selector-tag">A</span>。</span><br></pre></td></tr></table></figure>
 
-<p>目前正在尝试把它纳入到deduplication system中。</p>
+<p>目前正在尝试把它纳入到deduplication system中。不过目前的瓶颈似乎是这样的，delta compression是要求要将当前chunk同base chunk进行对比，所以怎么找到base chunk就成了问题。</p>
 <h3 id="Deduplication"><a href="#Deduplication" class="headerlink" title="Deduplication"></a>Deduplication</h3><p>总之，在compression byte-by-byte识别redundant data这样粒度太小的劣势下，通过计算“cryptographically secure hash-based fingerprints”来识别redundant data的chunk-level的deduplication优势就来了！</p>
 <h3 id="Overview"><a href="#Overview" class="headerlink" title="Overview"></a>Overview</h3><p><img src="/2023/12/10/deduplication_overview/image-20231210223322234.png" alt="image-20231210223322234"></p>
 <p>这里也是给了一张很棒的图来总结了上文。</p>
diff --git a/2023/12/10/deduplication_system_articles/index.html b/2023/12/10/deduplication_system_articles/index.html
index 1d4f3077..a64690b5 100644
--- a/2023/12/10/deduplication_system_articles/index.html
+++ b/2023/12/10/deduplication_system_articles/index.html
@@ -228,26 +228,7 @@ <h1 class="post-title">Deduplication System相关文章</h1>
             <blockquote>
 <p>各个超链接导向对应的文章分链接。</p>
 </blockquote>
-<h1 id="Deduplication"><a href="#Deduplication" class="headerlink" title="Deduplication"></a>Deduplication</h1><h2 id="综述"><a href="#综述" class="headerlink" title="综述"></a><a href="/2023/12/10/deduplication_overview">综述</a></h2><h2 id="Indexing"><a href="#Indexing" class="headerlink" title="Indexing"></a>Indexing</h2><h3 id="sparce-indexing"><a href="#sparce-indexing" class="headerlink" title="sparce indexing"></a>sparce indexing</h3><p>基于chunks的去重都要求使用full index，而这RAM一般承受不起，但是纯用disk io就太慢了。所以它利用了数据局部性：</p>
-<p>If two pieces of backup streams share any chunks, they are likely to share many chunks. <u>如果两个segment共享了某个chunk，那么它们很有可能共享很多chunks。</u></p>
-<p><strong>是这样的流程：</strong></p>
-<ol>
-<li>分段为segment；</li>
-<li>计算该segment的每个chunk的fp，然后对每个chunk查询其对应的sparce indexing table: &lt;fp, segment_id&gt;，记录<u>可能跟它共享很多chunk的segment</u>的segment_id；</li>
-<li>读取这些segment_id对应的segment的chunk indexing table（存储在disk中）；</li>
-<li>for every chunks： 重复，copy entry ；不重复，add to new container</li>
-<li>最后再将该segment的信息写入磁盘，填写sparce indexing表。</li>
-</ol>
-<p>而sparce indexing表最一开始，由对input segment进行chunks的随机抽样得出（或者逐渐构建起来，反正大概是这个意思）</p>
-<p>可以看到，它将segment info保留在disk中，在RAM中只保留fp2seg_id的映射，每次只需简单从磁盘中读取几个segment info即可，利用数据局部性极大地降低了磁盘IO次数。</p>
-<p>Odess采用的就是类似这种capping+sparce indexing的方法。</p>
-<p>将sparce indexing从原来的&lt;fp, seg_id&gt;改为&lt;fp, cid&gt;，并且每次只取top T个包含sample chunks最多的容器，从而将对segment进行cap修改为对container进行cap。仔细想想，这样确实依然保证了原算法的核心思想，也属于是segment size = container size的特种了。</p>
-<p>不这个&lt;fp, cid&gt;不就是Odess中的recipe（或者说是全局指纹表）吗？乐。Odess也确实体现了这种capping+sparce indexing结合的方法【只不过进行简化了，每个chunk固定取其第一个container】。</p>
-<h2 id="Chunking"><a href="#Chunking" class="headerlink" title="Chunking"></a>Chunking</h2><h3 id="FastCDC"><a href="#FastCDC" class="headerlink" title="FastCDC"></a><a href="/2023/12/08/fastcdc">FastCDC</a></h3><h2 id="Fragment"><a href="#Fragment" class="headerlink" title="Fragment"></a>Fragment</h2><h3 id="data-layout"><a href="#data-layout" class="headerlink" title="data layout"></a>data layout</h3><h4 id="MFDedup"><a href="#MFDedup" class="headerlink" title="MFDedup"></a><a href="/2023/10/11/MFDedup">MFDedup</a></h4><p>有机会可以再看看代码实现。</p>
-<h3 id="rewrite"><a href="#rewrite" class="headerlink" title="rewrite"></a>rewrite</h3><h4 id="capping"><a href="#capping" class="headerlink" title="capping"></a><a href="/2024/01/07/Capping">capping</a></h4><p>这篇文章的测试做得很友好很完善，值得精读。</p>
-<p>对stream进行分段为segment；限制每个版本的容器数（主要是指引用的旧容器数）；将那些包含重复块rate较小的容器所包含的重复块视为unique block进行rewrite。</p>
-<h4 id="SMR-amp-amp-DePFC"><a href="#SMR-amp-amp-DePFC" class="headerlink" title="SMR &amp;&amp; DePFC"></a><a href="/2024/05/11/SMR_DePFC">SMR &amp;&amp; DePFC</a></h4><p>非常impressive的两个方法</p>
-<h1 id="Restore"><a href="#Restore" class="headerlink" title="Restore"></a>Restore</h1><h2 id="cache"><a href="#cache" class="headerlink" title="cache"></a>cache</h2><h2 id="recipe"><a href="#recipe" class="headerlink" title="recipe"></a>recipe</h2><h3 id="forward-assembly"><a href="#forward-assembly" class="headerlink" title="forward-assembly"></a>forward-assembly</h3><h3 id="OdessStorage"><a href="#OdessStorage" class="headerlink" title="OdessStorage"></a>OdessStorage</h3><h1 id="GC"><a href="#GC" class="headerlink" title="GC"></a><a href="/2023/12/09/deduplication_GC">GC</a></h1>
+<h1 id="综述"><a href="#综述" class="headerlink" title="综述"></a><a href="/2023/12/10/deduplication_overview">综述</a></h1><h1 id="Indexing"><a href="#Indexing" class="headerlink" title="Indexing"></a><a href="/2023/11/11/Indexing">Indexing</a></h1><h1 id="Chunking"><a href="#Chunking" class="headerlink" title="Chunking"></a>Chunking</h1><h2 id="FastCDC"><a href="#FastCDC" class="headerlink" title="FastCDC"></a><a href="/2023/12/08/fastcdc">FastCDC</a></h2><h1 id="Fragment"><a href="#Fragment" class="headerlink" title="Fragment"></a>Fragment</h1><h2 id="data-layout"><a href="#data-layout" class="headerlink" title="data layout"></a>data layout</h2><h3 id="MFDedup"><a href="#MFDedup" class="headerlink" title="MFDedup"></a><a href="/2023/10/11/MFDedup">MFDedup</a></h3><h2 id="Rewriting"><a href="#Rewriting" class="headerlink" title="Rewriting"></a><a href="/2024/05/11/Rewriting">Rewriting</a></h2><h1 id="GC"><a href="#GC" class="headerlink" title="GC"></a><a href="/2023/12/09/deduplication_GC">GC</a></h1>
         </div>
 
         
diff --git a/2024/04/27/algorithm_questions/index.html b/2024/04/27/algorithm_questions/index.html
index d8daa0eb..e87573e9 100644
--- a/2024/04/27/algorithm_questions/index.html
+++ b/2024/04/27/algorithm_questions/index.html
@@ -415,7 +415,7 @@ <h2 id="栈和队列"><a href="#栈和队列" class="headerlink" title="栈和
         </section>
         <section class="post-nav">
             
-                <a class="prev" rel="prev" href="/2024/05/11/SMR_DePFC/">SMR</a>
+                <a class="prev" rel="prev" href="/2024/05/11/Rewriting/">Rewriting</a>
             
             
             <a class="next" rel="next" href="/2024/04/21/userspace_scheduling_framework/">COS: A User-space Scheduling Framework</a>
diff --git a/2024/05/11/SMR_DePFC/2kSfwhw5Sd7.png b/2024/05/11/Rewriting/2kSfwhw5Sd7.png
similarity index 100%
rename from 2024/05/11/SMR_DePFC/2kSfwhw5Sd7.png
rename to 2024/05/11/Rewriting/2kSfwhw5Sd7.png
diff --git a/2024/05/11/SMR_DePFC/2kSgf9wdlNi.png b/2024/05/11/Rewriting/2kSgf9wdlNi.png
similarity index 100%
rename from 2024/05/11/SMR_DePFC/2kSgf9wdlNi.png
rename to 2024/05/11/Rewriting/2kSgf9wdlNi.png
diff --git a/2024/05/11/SMR_DePFC/image-20240511151432270.png b/2024/05/11/Rewriting/image-20240511151432270.png
similarity index 100%
rename from 2024/05/11/SMR_DePFC/image-20240511151432270.png
rename to 2024/05/11/Rewriting/image-20240511151432270.png
diff --git a/2024/05/11/SMR_DePFC/image-20240511152707489.png b/2024/05/11/Rewriting/image-20240511152707489.png
similarity index 100%
rename from 2024/05/11/SMR_DePFC/image-20240511152707489.png
rename to 2024/05/11/Rewriting/image-20240511152707489.png
diff --git a/2024/05/11/SMR_DePFC/image-20240511154851309.png b/2024/05/11/Rewriting/image-20240511154851309.png
similarity index 100%
rename from 2024/05/11/SMR_DePFC/image-20240511154851309.png
rename to 2024/05/11/Rewriting/image-20240511154851309.png
diff --git a/2024/05/11/SMR_DePFC/image-20240511194450908.png b/2024/05/11/Rewriting/image-20240511194450908.png
similarity index 100%
rename from 2024/05/11/SMR_DePFC/image-20240511194450908.png
rename to 2024/05/11/Rewriting/image-20240511194450908.png
diff --git a/2024/05/11/SMR_DePFC/image-20240511201404030.png b/2024/05/11/Rewriting/image-20240511201404030.png
similarity index 100%
rename from 2024/05/11/SMR_DePFC/image-20240511201404030.png
rename to 2024/05/11/Rewriting/image-20240511201404030.png
diff --git a/2024/05/11/Rewriting/index.html b/2024/05/11/Rewriting/index.html
new file mode 100644
index 00000000..ed8c18ac
--- /dev/null
+++ b/2024/05/11/Rewriting/index.html
@@ -0,0 +1,334 @@
+<!DOCTYPE html>
+<html lang="zh-CN">
+
+<head>
+    <meta charset="UTF-8">
+<meta name="viewport"
+      content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">
+<meta http-equiv="X-UA-Compatible" content="ie=edge">
+
+    <meta name="author" content="修年">
+
+
+
+
+
+<title>Rewriting | 修年</title>
+
+
+
+    <link rel="icon" href="/favicon.ico">
+
+
+
+
+    <!-- stylesheets list from _config.yml -->
+    
+    <link rel="stylesheet" href="/css/style.css">
+    
+
+
+
+    <!-- scripts list from _config.yml -->
+    
+    <script src="/js/script.js"></script>
+    
+    <script src="/js/tocbot.min.js"></script>
+    
+
+
+
+    
+    
+        
+    
+
+
+      <meta charset="UTF-8">
+    <title>live2d-demo</title>
+    <script src="https://apps.bdimg.com/libs/jquery/2.1.4/jquery.min.js"></script>
+    <!-- Live2DCubismCore -->
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/frame/live2dcubismcore.min.js"></script>
+    <!-- Include Pixi. -->
+    <script src="https://cdnjs.cloudflare.com/ajax/libs/pixi.js/4.6.1/pixi.min.js"></script>
+    <!-- Include Cubism Components. -->
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/live2dcubismframework.js"></script>
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/live2dcubismpixi.js"></script>
+    <!-- User's Script -->
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/l2d.js"></script>
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/main.js"></script>
+    <style>
+    </style>
+<meta name="generator" content="Hexo 5.4.2"></head>
+
+<body>
+    <script>
+        // this function is used to check current theme before page loaded.
+        (() => {
+            const currentTheme = window.localStorage && window.localStorage.getItem('theme') || '';
+            const isDark = currentTheme === 'dark';
+            const pagebody = document.getElementsByTagName('body')[0]
+            if (isDark) {
+                pagebody.classList.add('dark-theme');
+                // mobile
+                document.getElementById("mobile-toggle-theme").innerText = "· Dark"
+            } else {
+                pagebody.classList.remove('dark-theme');
+                // mobile
+                document.getElementById("mobile-toggle-theme").innerText = "· Light"
+            }
+        })();
+    </script>
+
+    <div class="wrapper">
+        <header>
+    <nav class="navbar">
+        <div class="container">
+            <div class="navbar-header header-logo"><a href="/">Xiunian&#39;s Blog</a></div>
+            <div class="menu navbar-right">
+                
+                    <a class="menu-item" href="/about">About</a>
+                
+                    <a class="menu-item" href="/archives">Posts</a>
+                
+                    <a class="menu-item" href="/tag">Tags</a>
+                
+                <input id="switch_default" type="checkbox" class="switch_default">
+                <label for="switch_default" class="toggleBtn"></label>
+            </div>
+        </div>
+    </nav>
+
+    
+    <nav class="navbar-mobile" id="nav-mobile">
+        <div class="container">
+            <div class="navbar-header">
+                <div>
+                    <a href="/">Xiunian&#39;s Blog</a><a id="mobile-toggle-theme">·&nbsp;Light</a>
+                </div>
+                <div class="menu-toggle" onclick="mobileBtn()">&#9776; Menu</div>
+            </div>
+            <div class="menu" id="mobile-menu">
+                
+                    <a class="menu-item" href="/about">About</a>
+                
+                    <a class="menu-item" href="/archives">Posts</a>
+                
+                    <a class="menu-item" href="/tag">Tags</a>
+                
+            </div>
+        </div>
+    </nav>
+
+</header>
+<script>
+    var mobileBtn = function f() {
+        var toggleMenu = document.getElementsByClassName("menu-toggle")[0];
+        var mobileMenu = document.getElementById("mobile-menu");
+        if(toggleMenu.classList.contains("active")){
+           toggleMenu.classList.remove("active")
+            mobileMenu.classList.remove("active")
+        }else{
+            toggleMenu.classList.add("active")
+            mobileMenu.classList.add("active")
+        }
+    }
+</script>
+            <div class="main">
+                <div class="container">
+    
+    
+        <div class="post-toc" style="right: -4em;">
+    <div class="tocbot-list">
+    </div>
+    <div class="tocbot-list-menu">
+        <a class="tocbot-toc-expand" onclick="expand_toc()">Expand all</a>
+        <a onclick="go_top()">Back to top</a>
+        <a onclick="go_bottom()">Go to bottom</a>
+    </div>
+</div>
+
+<script>
+    var tocbot_timer;
+    var DEPTH_MAX = 6; // 为 6 时展开所有
+    var tocbot_default_config = {
+        tocSelector: '.tocbot-list',
+        contentSelector: '.post-content',
+        headingSelector: 'h1, h2, h3, h4, h5',
+        orderedList: false,
+        scrollSmooth: true,
+        onClick: extend_click,
+    };
+
+    function extend_click() {
+        clearTimeout(tocbot_timer);
+        tocbot_timer = setTimeout(function() {
+            tocbot.refresh(obj_merge(tocbot_default_config, {
+                hasInnerContainers: true
+            }));
+        }, 420); // 这个值是由 tocbot 源码里定义的 scrollSmoothDuration 得来的
+    }
+
+    document.ready(function() {
+        tocbot.init(obj_merge(tocbot_default_config, {
+            collapseDepth: 1
+        }));
+    });
+
+    function expand_toc() {
+        var b = document.querySelector('.tocbot-toc-expand');
+        var expanded = b.getAttribute('data-expanded');
+        expanded ? b.removeAttribute('data-expanded') : b.setAttribute('data-expanded', true);
+        tocbot.refresh(obj_merge(tocbot_default_config, {
+            collapseDepth: expanded ? 1 : DEPTH_MAX
+        }));
+        b.innerText = expanded ? 'Expand all' : 'Collapse all';
+    }
+
+    function go_top() {
+        window.scrollTo(0, 0);
+    }
+
+    function go_bottom() {
+        window.scrollTo(0, document.body.scrollHeight);
+    }
+
+    function obj_merge(target, source) {
+        for (var item in source) {
+            if (source.hasOwnProperty(item)) {
+                target[item] = source[item];
+            }
+        }
+        return target;
+    }
+</script>
+    
+
+    
+    <article class="post-wrap">
+        <header class="post-header">
+            <h1 class="post-title">Rewriting</h1>
+            
+                <div class="post-meta">
+                    
+                        Author: <a itemprop="author" rel="author" href="/">修年</a>
+                    
+
+                    
+                        <span class="post-time">
+                        Date: <a href="#">五月 11, 2024&nbsp;&nbsp;14:25:29</a>
+                        </span>
+                    
+                    
+                </div>
+            
+        </header>
+
+        <div class="post-content">
+            <h1 id="Capping"><a href="#Capping" class="headerlink" title="Capping"></a><a href="/2024/01/07/Capping">Capping</a></h1><p>测试做得很友好很完善</p>
+<p>对stream进行分段为segment；限制每个版本的容器数（主要是指引用的旧容器数）；将那些包含重复块rate较小的容器所包含的重复块视为unique block进行rewrite。</p>
+<h1 id="SMR"><a href="#SMR" class="headerlink" title="SMR"></a>SMR</h1><p><a target="_blank" rel="noopener" href="https://ieeexplore.ieee.org/abstract/document/8402122/">Improving Restore Performance in Deduplication Systems via a Cost-Efficient Rewriting Scheme</a></p>
+<p>在去重时选择容器这个问题可以建模为一个NP的算法问题：（或者说Restoration，由于是反过程所以感觉原理也比较相似）</p>
+<p><strong>Input</strong>:         n个等长集合；数组target【container、recipe】</p>
+<p><strong>Output</strong>:     并集包含target中所有数字的最少集合【selected restore containers】</p>
+<p>Capping事实上就相当于进行了一个妥协，将该问题转化为：</p>
+<p><strong>Input</strong>:         n个等长集合；数组target【container、recipe】</p>
+<p><strong>Output</strong>:     选择集合中target比率最大的T个集合【selected restore containers】</p>
+<p>之前刚入门deduplication system，在看代码的时候，就在想对capping的处理是不是有点暴力了。具体来说，在Capping中，这个块是很多个容器都有，我们每次都默认选择第一个容器来作为这个chunk的index，也即只视第一个容器的chunk为<strong>referenced chunks</strong>，其它都为仅被引用一次的<strong>redundant chunks</strong>。而这有时候并不是最优解，因为有可能选同样包含该chunk的其它容器是最优解，也即它们事实上利用比率最大，但是里面部分chunk被视为了redundant而非referenced chunk。</p>
+<p>本篇文章也正是针对该问题提出。它认为，Capping会产生这个问题是因为它依据了index来进行容器利用率的检测，但其实完全没必要这么做。故而，它提出采用容器之间的差异性来作为指标。</p>
+<p><img src="/2024/05/11/Rewriting/image-20240511151432270.png" alt="image-20240511151432270"></p>
+<p>也即，它将问题转化为了：</p>
+<p><strong>Input</strong>:         n个集合；</p>
+<p><strong>Output</strong>:     并集包含的数字最多的T个集合</p>
+<p>然后只对这个选出来的集合id的容器进行去重，别的都重写。这样一来，它就能够使容器利用率相比于Capping大大增加，重写数大大减少，效果一流。</p>
+<p>不过这个问题依然还是一个NP问题，故而它使用了贪心算法来进一步解决这个问题：每次从容器全集中选出一个跟当前smr集合不一样的chunk最多的容器。</p>
+<p><img src="/2024/05/11/Rewriting/image-20240511152707489.png" alt="image-20240511152707489"></p>
+<blockquote>
+<p>补充：贪心算法可解的证明<br><img src="/2024/05/11/Rewriting/2kSfwhw5Sd7.png" alt="image.png"><br><img src="/2024/05/11/Rewriting/2kSgf9wdlNi.png" alt="image.png"><br>求解任何单调子模性函数的最大值，都可以用贪心算法来取得一个质量不错的近似解。于是它的思路就是证明这个是单调子模函数即可</p>
+<p><img src="/2024/05/11/Rewriting/image-20240511154851309.png" alt="image-20240511154851309"></p>
+</blockquote>
+<p>它最后还提出了一个GSMR，依据备份版本之间的特性进行的重写，感觉跟MFDedup的NDF很像，很神奇，后者多加了个更主要的布局整理的第二步。</p>
+<h1 id="DePFC"><a href="#DePFC" class="headerlink" title="DePFC"></a>DePFC</h1><p><a target="_blank" rel="noopener" href="https://ieeexplore.ieee.org/abstract/document/8994084">Improving Restore Performance of Packed Datasets in Deduplication Systems via Reducing Persistent Fragmented Chunks</a></p>
+<h2 id="介绍"><a href="#介绍" class="headerlink" title="介绍"></a>介绍</h2><p>大概是说发现了一部分persistent fragment chunk，这些块会一直被重写。具体来说，它关注的是这样的情形。在Deduplication System中，数据流都是以tar形式输入的。而tar的打包方式大概是会给每个文件安上一个metadata block前缀，后面再跟数据块一样，所以最终会是metadata和数据混合存储，并且一般情况下，都是metadata变化较频繁（比如说时间戳变化之类的），数据块变化较为少。而对于小文件较多的场景，这时候就是一个容器中含有很多metadata和少部分data block，如果数据块是持久不变的，由于这个metadata经常变化（unique），导致目前的Rewriting方案都会觉得这个对应的容器的利用率很低，并且加上不会更新index，从而就会导致这个chunk一直被重写，就称这样的chunk为PFC。</p>
+<blockquote>
+<p>这点其实也是审稿意见中提到的吧，文件间（或者说chunk间）访问频率不固定，不过NACC的做法倒是均等化了每一个chunk的出现几率</p>
+</blockquote>
+<p>故而，本篇文章提出的思路是，在协作的其它rewriting算法选举出重写块之后，再进一步对重写块分类，分为PFC(persistent fragment chunk) 和 RFC(regular fragment chunk)，然后后者普通重写，前者放在一起重写，并且更新fp index指向最新重写块。</p>
+<p>其中，identify RFC and PFC是这么实现的，维护上一个备份版本的rewritten set。如果FC在其中，则为PFC(被重写过了一次)；否则为RFC，加入本次版本的rewritten index。</p>
+<p>然后，这个过程就会有两个比较关键的点：</p>
+<ol>
+<li><p>Limited Scope to Compute the Container’s Utilization</p>
+<p><img src="/2024/05/11/Rewriting/image-20240511194450908.png" alt="image-20240511194450908"></p>
+<p>在对于Capping协作这种情况会导致该方法失效……</p>
+<p>解决方法是引入一个FCBuffer。具体来说，这个FCBuffer是一个跨segment的数据结构，FC首先被写入FCBuffer，并且实时监测FCBuffer中的各个container的利用率，若利用率达到阈值，就移除FCBuffer中该container对应的所有数据块（因为这说明这些数据块已经被depfc过了）。然后当FCBuffer满的时候再写入新容器。</p>
+</li>
+<li><p>Restore Cache Thrashing</p>
+<p>PFC之间可能间隔很远，特别第一点的FCBuffer带来的PFC和RFC混合存储可能会worsen这一点（毕竟本来RFC就是为了大局起见重写的，把他们集中放置反而可能让PFC之后又面临那个问题了），导致RFC一直滞留更是G。为了防范这点，它引入了一个LRU cache来模拟Restoration阶段，当一个container被驱逐时，就可能说明它里面含有的RFC和当前FCBuffer内所有PFC马上要离当前的context太远了，于是就赶紧写入它对应的所有RFC，以及FCBuffer中所有的PFC。这样一来就能改善距离过远的问题。</p>
+<blockquote>
+<p>这一点我其实觉得有点费解，虽然说直观上觉得是对的，但是理性上还是很难说服自己，实在没怎么看懂。</p>
+</blockquote>
+</li>
+</ol>
+<p>整个算法流程如下图所示：</p>
+<p><img src="/2024/05/11/Rewriting/image-20240511201404030.png" alt="image-20240511201404030"></p>
+<blockquote>
+<p>我看这篇文章，其实是想在当前代码框架尝试着去复现它的。然而，当前的代码框架是一个顺序写入recipe和block的逻辑，貌似不大支持有的chunk可能得在下一个segment的时候才能被确定recipe中的容器位置，我能想到的唯一解决方法是先把这些视为duplicate，等到最后整个dedup完成（所有segment输入完毕）的时候再统一进行一次recipe的更新，不过实现代价可能有点大所以暂时没敢动。</p>
+</blockquote>
+<h2 id="代码实现"><a href="#代码实现" class="headerlink" title="代码实现"></a>代码实现</h2><p>这里也暂且放个我的DePFC + Capping的代码实现吧，虽然最后发现还是不大行（指跟现有代码框架不大兼容，但感觉逻辑一类还是差不多），虽然未经debug，感觉也是可供参考。下面的代码暂没更新fp index，只是基本逻辑框架。</p>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">/*</span></span><br><span class="line"><span class="comment">	基本思路：</span></span><br><span class="line"><span class="comment">	1. Capping识别出FC</span></span><br><span class="line"><span class="comment">	2. doDePFC()分类出PFC和RFC</span></span><br><span class="line"><span class="comment">		1. 不断地从wl中获取，unique跳过，普通duplicate跳过</span></span><br><span class="line"><span class="comment">		2. FCBuffer满时全部视为PFC，加入PFC set，更新global fp index</span></span><br><span class="line"><span class="comment">		3. 驱逐遍历时，PFC加入PFC set，RFC更新rewritten index</span></span><br><span class="line"><span class="comment">		4. 如果FCBuffer中某一容器出现频率达到阈值，移出FCBuffer（相当于视作RFC了）</span></span><br><span class="line"><span class="comment">	3. 在写入阶段</span></span><br><span class="line"><span class="comment">		1. unique和duplicate正常处理（写入data block、写入recipe）</span></span><br><span class="line"><span class="comment">		2. 如果是PFC，写入new container</span></span><br><span class="line"><span class="comment">	当前代码框架是顺序写入逻辑，要求写入时必须要写入recipe。上述思路会致使一些chunk在本segment输入结束时仍未得知自己是PFC还是RFC还是普通duplicate，从而无法顺序写入recipe，导致可能需要先把FC都视为duplicate，然后之后再进行一个统一的更新recipe。由于实现太过复杂，时间上来不大及，故而暂且先放下。</span></span><br><span class="line"><span class="comment">*/</span></span><br></pre></td></tr></table></figure>
+
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">/* Data Structure */</span></span><br><span class="line"><span class="comment">// FCBuffer &lt;cid, FCs&gt;</span></span><br><span class="line">std::unordered_map&lt;<span class="type">uint64_t</span>, std::list&lt;SHA1FP&gt;&gt; FCBuffer;</span><br><span class="line"><span class="type">const</span> <span class="type">static</span> <span class="type">uint64_t</span> FCBufferCapacity = ContainerSize / ExpectChunkSize;</span><br><span class="line"><span class="type">int</span> FCBufferCurrentSize = <span class="number">0</span>;</span><br><span class="line"><span class="type">uint64_t</span> FCBuffer_new_cid = fid;</span><br><span class="line"></span><br><span class="line"><span class="comment">// old rewritten index</span></span><br><span class="line">std::unordered_set&lt;SHA1FP, TupleHasher, TupleEqualer&gt; RCIndex;</span><br><span class="line"><span class="comment">// new rewritten index</span></span><br><span class="line">std::unordered_set&lt;SHA1FP, TupleHasher, TupleEqualer&gt; new_RCIndex;</span><br><span class="line"></span><br><span class="line">LRUCache SRC;	<span class="comment">// LRU for container id</span></span><br><span class="line"></span><br><span class="line">std::unordered_set&lt;SHA1FP, TupleHasher, TupleEqualer&gt; PFC;</span><br><span class="line"><span class="comment">// 记录FC中被视为duplicate的（与Capping兼容情况）</span></span><br><span class="line">std::unordered_set&lt;SHA1FP, TupleHasher, TupleEqualer&gt; InterCapping;</span><br></pre></td></tr></table></figure>
+
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">// DePFC</span></span><br><span class="line">Dedup Pipeline:</span><br><span class="line">    <span class="keyword">for</span> (<span class="type">const</span> <span class="keyword">auto</span> &amp;dedupTask : taskList) &#123;</span><br><span class="line">        detectList.<span class="built_in">push_back</span>(dedupTask);</span><br><span class="line">        segmentLength += dedupTask.length;</span><br><span class="line">        <span class="keyword">if</span> (segmentLength &gt; SegmentThreshold || dedupTask.countdownLatch) &#123;</span><br><span class="line">            <span class="built_in">processingWaitingList</span>(detectList);</span><br><span class="line">            <span class="built_in">cappingDedupChunks</span>(detectList);	<span class="comment">// do Capping first</span></span><br><span class="line">            <span class="built_in">doDePFC</span>(detectList);</span><br><span class="line"></span><br><span class="line">            segmentLength = <span class="number">0</span>;</span><br><span class="line">            detectList.<span class="built_in">clear</span>();</span><br><span class="line">        &#125;</span><br><span class="line">    &#125;</span><br><span class="line">    <span class="comment">// change RCIndex to new_RCIndex</span></span><br><span class="line">    RCIndex = new_RCIndex;</span><br><span class="line">    new_RCIndex.<span class="built_in">clear</span>();</span><br></pre></td></tr></table></figure>
+
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br><span class="line">79</span><br><span class="line">80</span><br><span class="line">81</span><br><span class="line">82</span><br><span class="line">83</span><br><span class="line">84</span><br><span class="line">85</span><br><span class="line">86</span><br><span class="line">87</span><br><span class="line">88</span><br><span class="line">89</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">// baseChunkPositions中是Capping分类出的FC</span></span><br><span class="line"><span class="function"><span class="type">void</span> <span class="title">dePFC</span><span class="params">(std::list&lt;DedupTask&gt; &amp;wl)</span> </span>&#123;</span><br><span class="line">    <span class="keyword">for</span> (<span class="keyword">auto</span> &amp;entry: wl) &#123;</span><br><span class="line">        <span class="type">bool</span> isFC = <span class="literal">false</span>;</span><br><span class="line">        Location location;</span><br><span class="line"></span><br><span class="line">        <span class="keyword">if</span> (<span class="built_in">unlikely</span>(!FLAGS_dedup))    <span class="keyword">continue</span>;   <span class="comment">// all chunks are regarded as unique</span></span><br><span class="line">        <span class="type">int</span> result = GlobalMetadataManagerPtr-&gt;<span class="built_in">findRecord</span>(entry.fp, &amp;location);</span><br><span class="line">        <span class="keyword">if</span> (!result)    <span class="keyword">continue</span>;   <span class="comment">// unique</span></span><br><span class="line"></span><br><span class="line">        <span class="comment">// now all chunks here is duplicated</span></span><br><span class="line"></span><br><span class="line">        <span class="keyword">auto</span> citer = baseChunkPositions.<span class="built_in">find</span>(location.fid);</span><br><span class="line">        <span class="keyword">if</span> (citer == baseChunkPositions.<span class="built_in">end</span>() || citer-&gt;second == <span class="number">0</span>) &#123;	<span class="comment">// Capping result</span></span><br><span class="line">            isFC = <span class="literal">true</span>;</span><br><span class="line">        &#125;</span><br><span class="line"></span><br><span class="line">        <span class="keyword">if</span> (!isFC)  <span class="keyword">continue</span>;   <span class="comment">// normal duplicate</span></span><br><span class="line"></span><br><span class="line">        <span class="comment">// now all chunks here is FC</span></span><br><span class="line"></span><br><span class="line">        <span class="keyword">if</span> (FCBufferCurrentSize + <span class="number">1</span> &gt;= FCBufferCapacity) &#123;</span><br><span class="line">            <span class="comment">// regard all as PFC</span></span><br><span class="line">            <span class="keyword">for</span> (<span class="keyword">auto</span> fc_it = FCBuffer.<span class="built_in">begin</span>(); fc_it != FCBuffer.<span class="built_in">end</span>();) &#123;</span><br><span class="line">                <span class="keyword">for</span> (<span class="keyword">auto</span> fp = fc_it-&gt;second.<span class="built_in">begin</span>(); fp != fc_it-&gt;second.<span class="built_in">end</span>();) &#123;</span><br><span class="line">                    PFC.<span class="built_in">insert</span>(*fp);</span><br><span class="line">                    FCBufferCurrentSize --;</span><br><span class="line">                    fp = fc_it-&gt;second.<span class="built_in">erase</span>(fp);</span><br><span class="line">                &#125;</span><br><span class="line">                <span class="keyword">if</span> (fc_it-&gt;second.<span class="built_in">empty</span>() || fc_it-&gt;first == vid)   </span><br><span class="line">                    fc_it = FCBuffer.<span class="built_in">erase</span>(fc_it);</span><br><span class="line">                <span class="keyword">else</span>    fc_it ++;</span><br><span class="line">            &#125;</span><br><span class="line">            <span class="built_in">assert</span>(FCBufferCurrentSize == <span class="number">0</span>);</span><br><span class="line">        &#125;</span><br><span class="line"></span><br><span class="line">        <span class="type">uint64_t</span> old_cid = location.fid;</span><br><span class="line"></span><br><span class="line">        <span class="type">int</span> vid = SRC.<span class="built_in">put</span>(old_cid);</span><br><span class="line">        <span class="keyword">if</span> (vid &gt;= <span class="number">0</span>) &#123;</span><br><span class="line">            <span class="keyword">auto</span> it = FCBuffer.<span class="built_in">find</span>(vid);</span><br><span class="line">            <span class="built_in">assert</span>(it != FCBuffer.<span class="built_in">end</span>());</span><br><span class="line">            <span class="type">bool</span> has_pfc = <span class="literal">false</span>;</span><br><span class="line">            <span class="keyword">for</span> (<span class="keyword">auto</span> &amp;fp : it-&gt;second) &#123;</span><br><span class="line">                <span class="keyword">if</span> (RCIndex.<span class="built_in">find</span>(fp) == RCIndex.<span class="built_in">end</span>()) &#123;</span><br><span class="line">                    <span class="comment">// RFC, regard as normal denyDedup</span></span><br><span class="line">                    FCBufferCurrentSize  --;</span><br><span class="line">                    new_RCIndex.<span class="built_in">insert</span>(fp);</span><br><span class="line">                    <span class="comment">// <span class="doctag">TODO:</span> add updates for rewritten index</span></span><br><span class="line">                    <span class="keyword">continue</span>;</span><br><span class="line">                &#125;</span><br><span class="line">                has_pfc = <span class="literal">true</span>;</span><br><span class="line">            &#125;</span><br><span class="line"></span><br><span class="line">            <span class="comment">// remove all pfc in the buffer</span></span><br><span class="line">            <span class="keyword">if</span> (has_pfc) &#123;</span><br><span class="line">                <span class="keyword">for</span> (<span class="keyword">auto</span> fc_it = FCBuffer.<span class="built_in">begin</span>(); fc_it != FCBuffer.<span class="built_in">end</span>();) &#123;</span><br><span class="line">                    <span class="keyword">for</span> (<span class="keyword">auto</span> fp = fc_it-&gt;second.<span class="built_in">begin</span>(); fp != fc_it-&gt;second.<span class="built_in">end</span>();) &#123;</span><br><span class="line">                        <span class="keyword">if</span> (RCIndex.<span class="built_in">find</span>(*fp) == RCIndex.<span class="built_in">end</span>()) &#123;</span><br><span class="line">                            fp ++</span><br><span class="line">                            <span class="keyword">continue</span>;</span><br><span class="line">                        &#125;</span><br><span class="line"></span><br><span class="line">                        <span class="comment">// PFC</span></span><br><span class="line">                        FCBufferCurrentSize --;</span><br><span class="line">                        PFC.<span class="built_in">insert</span>(*fp);</span><br><span class="line">                        fp = fc_it-&gt;second.<span class="built_in">erase</span>(fp);</span><br><span class="line">                    &#125;</span><br><span class="line">                    <span class="keyword">if</span> (fc_it-&gt;second.<span class="built_in">empty</span>() || fc_it-&gt;first == vid)   fc_it = FCBuffer.<span class="built_in">erase</span>(fc_it);</span><br><span class="line">                    <span class="keyword">else</span>    fc_it ++;</span><br><span class="line">                &#125;</span><br><span class="line">            &#125;</span><br><span class="line">            FCBuffer.<span class="built_in">erase</span>(it);</span><br><span class="line">        &#125;</span><br><span class="line"></span><br><span class="line">        FCBuffer[old_cid].<span class="built_in">insert</span>(entry);</span><br><span class="line">        FCBufferCurrentSize ++;</span><br><span class="line">        <span class="keyword">auto</span> it = FCBuffer.<span class="built_in">find</span>(old_cid);</span><br><span class="line">        <span class="keyword">if</span> ((it-&gt;second.<span class="built_in">size</span>()) * FLAGS_ExpectSize / ContainerSize &gt;= Threshold) &#123;</span><br><span class="line">            <span class="keyword">for</span> (<span class="keyword">auto</span> &amp;fp : it-&gt;second) &#123;</span><br><span class="line">                FCBufferCurrentSize --;</span><br><span class="line">                <span class="comment">// normal duplicate</span></span><br><span class="line">                InterCapping.<span class="built_in">insert</span>(fp);</span><br><span class="line">                <span class="keyword">continue</span>;</span><br><span class="line">            &#125;</span><br><span class="line">            FCBuffer.<span class="built_in">erase</span>(it);</span><br><span class="line">        &#125;</span><br><span class="line">    &#125;</span><br><span class="line">&#125;</span><br></pre></td></tr></table></figure>
+
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">// DePFC</span></span><br><span class="line"><span class="keyword">auto</span> citer = baseChunkPositions.<span class="built_in">find</span>(writeTask.location.fid);</span><br><span class="line"><span class="keyword">if</span> (citer == baseChunkPositions.<span class="built_in">end</span>() || citer-&gt;second == <span class="number">0</span>) &#123;	<span class="comment">// FC</span></span><br><span class="line">    <span class="keyword">if</span> (InterCapping.<span class="built_in">find</span>(entry.fp) == InterCapping.<span class="built_in">end</span>()) &#123;	<span class="comment">// RFC or PFC</span></span><br><span class="line">        result = <span class="number">0</span>; <span class="comment">// capping reject similar chunks.</span></span><br><span class="line">        denyDedup++;</span><br><span class="line">        <span class="built_in">memset</span>(&amp;writeTask.location, <span class="number">0</span>, <span class="built_in">sizeof</span>(Location));</span><br><span class="line">    &#125;</span><br><span class="line">&#125;</span><br></pre></td></tr></table></figure>
+
+
+
+<h2 id="其他"><a href="#其他" class="headerlink" title="其他"></a>其他</h2><p>They propose <strong>DePFC</strong> that identifies and groups PFCs to increase the utilization of containers storing PFCs, making grouped PFCs no longer fragmented. However, DePFC <u>fails to remove redundant data among similar chunks holding metadata blocks</u>.</p>
+<p>与之相关的是他们团队ICCD’21的另一篇文章，A High-performance Post-deduplication Delta Compression Scheme for Packed Datasets，利用了通过PFC来发现metadata block，然后对其进行内部的delta compression。</p>
+<h1 id="Comparison"><a href="#Comparison" class="headerlink" title="Comparison"></a>Comparison</h1><p>正好一次性读了两篇文章，就来稍微想一下对比吧。我感觉相比DePFC，还是SMR的应用范围可能更广一些，毕竟DePFC可能只在巨多小文件的时候，效果才会出奇的好，平时感觉可能就比一般重写好些。SMR的话，可能还是有一个情况比较受限，比如说一个极端情况，target中正巧很少包含选举出的container中互异的那些chunk，这种情况下target可能需要被大规模重写。emmm…但感觉这种情况也特别少见，不大懂。</p>
+<p>总之，感觉我还是缺少了点看出这些方法有什么缺点的眼力，不过好在看完了也是收获了挺多。过几天再看看两篇文章的evaluation具体都测了什么吧。</p>
+
+        </div>
+
+        
+        <section class="post-tags">
+            <div>
+                <span>Tag(s):</span>
+                <span class="tag">
+                    
+                </span>
+            </div>
+            <div>
+                <a href="javascript:window.history.back();">back</a>
+                <span>· </span>
+                <a href="/">home</a>
+            </div>
+        </section>
+        <section class="post-nav">
+            
+                <a class="prev" rel="prev" href="/2024/05/11/SMR_DePFC/">SMR</a>
+            
+            
+            <a class="next" rel="next" href="/2024/04/27/algorithm_questions/">算法题</a>
+            
+        </section>
+
+
+    </article>
+</div>
+
+            </div>
+            <footer id="footer" class="footer">
+    <div class="copyright">
+        <span>© 修年 | Powered by <a href="https://hexo.io" target="_blank">Hexo</a> & <a href="https://github.com/Siricee/hexo-theme-Chic" target="_blank">Chic</a></span>
+    </div>
+</footer>
+
+    </div>
+</body>
+
+</html>
\ No newline at end of file
diff --git a/2024/05/11/SMR_DePFC/index.html b/2024/05/11/SMR_DePFC/index.html
index 47b6744a..916ca3ce 100644
--- a/2024/05/11/SMR_DePFC/index.html
+++ b/2024/05/11/SMR_DePFC/index.html
@@ -290,7 +290,7 @@ <h1 id="Comparison"><a href="#Comparison" class="headerlink" title="Comparison">
         <section class="post-nav">
             
             
-            <a class="next" rel="next" href="/2024/04/27/algorithm_questions/">算法题</a>
+            <a class="next" rel="next" href="/2024/05/11/Rewriting/">Rewriting</a>
             
         </section>
 
diff --git a/archives/2023/11/index.html b/archives/2023/11/index.html
index e79d23a2..5d1e1a01 100644
--- a/archives/2023/11/index.html
+++ b/archives/2023/11/index.html
@@ -171,6 +171,20 @@ <h3>2023</h3>
 			
 		
 		
+		
+    
+        
+
+        
+
+		
+		
+		
+		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/11/11/Indexing/">Indexing</a>
+				<span class="archive-item-date">十一月 11, 2023</span>
+			</article>
 		
     
     
diff --git a/archives/2023/index.html b/archives/2023/index.html
index cd1c58a8..38b4190c 100644
--- a/archives/2023/index.html
+++ b/archives/2023/index.html
@@ -240,8 +240,8 @@ <h3>2023</h3>
 		
 		
 			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/10/27/driver_develop/">驱动开发小记</a>
-				<span class="archive-item-date">十月 27, 2023</span>
+				<a class="archive-item-link" href="/2023/11/11/Indexing/">Indexing</a>
+				<span class="archive-item-date">十一月 11, 2023</span>
 			</article>
 		
     
@@ -254,14 +254,14 @@ <h3>2023</h3>
 		
 		
 			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/10/19/open-source-9.19-10.19/">开源的第一个月</a>
-				<span class="archive-item-date">十月 19, 2023</span>
+				<a class="archive-item-link" href="/2023/10/27/driver_develop/">驱动开发小记</a>
+				<span class="archive-item-date">十月 27, 2023</span>
 			</article>
 		
     
     
     <nav class="pagination">
-        <span class="page-number current">1</span><a class="page-number" href="/archives/2023/page/2/">2</a><a class="page-number" href="/archives/2023/page/3/">3</a><span class="space">&hellip;</span><a class="page-number" href="/archives/2023/page/5/">5</a>
+        <span class="page-number current">1</span><a class="page-number" href="/archives/2023/page/2/">2</a><a class="page-number" href="/archives/2023/page/3/">3</a><span class="space">&hellip;</span><a class="page-number" href="/archives/2023/page/6/">6</a>
     </nav>
 
 </div>
diff --git a/archives/2023/page/2/index.html b/archives/2023/page/2/index.html
index 987cd1ac..fc8b26bd 100644
--- a/archives/2023/page/2/index.html
+++ b/archives/2023/page/2/index.html
@@ -146,6 +146,20 @@ <h3>2023</h3>
 
 		
 		
+		
+		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/10/19/open-source-9.19-10.19/">开源的第一个月</a>
+				<span class="archive-item-date">十月 19, 2023</span>
+			</article>
+		
+    
+        
+
+        
+
+		
+		
 			
 		
 		
@@ -254,20 +268,9 @@ <h3>2023</h3>
 			</article>
 		
     
-        
-
-        
-
-		
-		
-			
-		
-		
-		
-    
     
     <nav class="pagination">
-        <a class="page-number" href="/archives/2023/">1</a><span class="page-number current">2</span><a class="page-number" href="/archives/2023/page/3/">3</a><a class="page-number" href="/archives/2023/page/4/">4</a><a class="page-number" href="/archives/2023/page/5/">5</a>
+        <a class="page-number" href="/archives/2023/">1</a><span class="page-number current">2</span><a class="page-number" href="/archives/2023/page/3/">3</a><a class="page-number" href="/archives/2023/page/4/">4</a><span class="space">&hellip;</span><a class="page-number" href="/archives/2023/page/6/">6</a>
     </nav>
 
 </div>
diff --git a/archives/2023/page/3/index.html b/archives/2023/page/3/index.html
index 5f796918..e795e2df 100644
--- a/archives/2023/page/3/index.html
+++ b/archives/2023/page/3/index.html
@@ -149,6 +149,17 @@ <h3>2023</h3>
 			
 		
 		
+		
+    
+        
+
+        
+
+		
+		
+			
+		
+		
 		
     
         
@@ -236,17 +247,6 @@ <h3>2023</h3>
 		
 		
 		
-    
-        
-
-        
-
-		
-		
-			
-		
-		
-		
     
         
 
@@ -261,7 +261,7 @@ <h3>2023</h3>
     
     
     <nav class="pagination">
-        <a class="page-number" href="/archives/2023/">1</a><a class="page-number" href="/archives/2023/page/2/">2</a><span class="page-number current">3</span><a class="page-number" href="/archives/2023/page/4/">4</a><a class="page-number" href="/archives/2023/page/5/">5</a>
+        <a class="page-number" href="/archives/2023/">1</a><a class="page-number" href="/archives/2023/page/2/">2</a><span class="page-number current">3</span><a class="page-number" href="/archives/2023/page/4/">4</a><a class="page-number" href="/archives/2023/page/5/">5</a><a class="page-number" href="/archives/2023/page/6/">6</a>
     </nav>
 
 </div>
diff --git a/archives/2023/page/4/index.html b/archives/2023/page/4/index.html
index 97f4cb42..3a9451b6 100644
--- a/archives/2023/page/4/index.html
+++ b/archives/2023/page/4/index.html
@@ -234,12 +234,9 @@ <h3>2023</h3>
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/02/25/cs144/">cs144</a>
-				<span class="archive-item-date">二月 25, 2023</span>
-			</article>
 		
     
         
@@ -248,14 +245,17 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/02/25/cs144/">cs144</a>
+				<span class="archive-item-date">二月 25, 2023</span>
+			</article>
 		
     
     
     <nav class="pagination">
-        <a class="page-number" href="/archives/2023/">1</a><a class="page-number" href="/archives/2023/page/2/">2</a><a class="page-number" href="/archives/2023/page/3/">3</a><span class="page-number current">4</span><a class="page-number" href="/archives/2023/page/5/">5</a>
+        <a class="page-number" href="/archives/2023/">1</a><a class="page-number" href="/archives/2023/page/2/">2</a><a class="page-number" href="/archives/2023/page/3/">3</a><span class="page-number current">4</span><a class="page-number" href="/archives/2023/page/5/">5</a><a class="page-number" href="/archives/2023/page/6/">6</a>
     </nav>
 
 </div>
diff --git a/archives/2023/page/5/index.html b/archives/2023/page/5/index.html
index 767a4eae..0c529600 100644
--- a/archives/2023/page/5/index.html
+++ b/archives/2023/page/5/index.html
@@ -223,12 +223,9 @@ <h3>2023</h3>
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/01/10/xv6/">xv6</a>
-				<span class="archive-item-date">一月 10, 2023</span>
-			</article>
 		
     
         
@@ -237,9 +234,12 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/01/10/xv6/">xv6</a>
+				<span class="archive-item-date">一月 10, 2023</span>
+			</article>
 		
     
         
@@ -255,7 +255,7 @@ <h3>2023</h3>
     
     
     <nav class="pagination">
-        <a class="page-number" href="/archives/2023/">1</a><span class="space">&hellip;</span><a class="page-number" href="/archives/2023/page/3/">3</a><a class="page-number" href="/archives/2023/page/4/">4</a><span class="page-number current">5</span>
+        <a class="page-number" href="/archives/2023/">1</a><span class="space">&hellip;</span><a class="page-number" href="/archives/2023/page/3/">3</a><a class="page-number" href="/archives/2023/page/4/">4</a><span class="page-number current">5</span><a class="page-number" href="/archives/2023/page/6/">6</a>
     </nav>
 
 </div>
diff --git a/archives/2023/page/6/index.html b/archives/2023/page/6/index.html
new file mode 100644
index 00000000..3fc2f634
--- /dev/null
+++ b/archives/2023/page/6/index.html
@@ -0,0 +1,170 @@
+<!DOCTYPE html>
+<html lang="zh-CN">
+
+<head>
+    <meta charset="UTF-8">
+<meta name="viewport"
+      content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">
+<meta http-equiv="X-UA-Compatible" content="ie=edge">
+
+    <meta name="author" content="修年">
+
+
+
+
+
+<title>归档: 2023 | 修年</title>
+
+
+
+    <link rel="icon" href="/favicon.ico">
+
+
+
+
+    <!-- stylesheets list from _config.yml -->
+    
+    <link rel="stylesheet" href="/css/style.css">
+    
+
+
+
+    <!-- scripts list from _config.yml -->
+    
+    <script src="/js/script.js"></script>
+    
+    <script src="/js/tocbot.min.js"></script>
+    
+
+
+
+    
+    
+        
+    
+
+
+      <meta charset="UTF-8">
+    <title>live2d-demo</title>
+    <script src="https://apps.bdimg.com/libs/jquery/2.1.4/jquery.min.js"></script>
+    <!-- Live2DCubismCore -->
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/frame/live2dcubismcore.min.js"></script>
+    <!-- Include Pixi. -->
+    <script src="https://cdnjs.cloudflare.com/ajax/libs/pixi.js/4.6.1/pixi.min.js"></script>
+    <!-- Include Cubism Components. -->
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/live2dcubismframework.js"></script>
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/live2dcubismpixi.js"></script>
+    <!-- User's Script -->
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/l2d.js"></script>
+    <script src="https://cdn.jsdelivr.net/gh/litstronger/live2d-moc3@master/js/main.js"></script>
+    <style>
+    </style>
+<meta name="generator" content="Hexo 5.4.2"></head>
+
+<body>
+    <script>
+        // this function is used to check current theme before page loaded.
+        (() => {
+            const currentTheme = window.localStorage && window.localStorage.getItem('theme') || '';
+            const isDark = currentTheme === 'dark';
+            const pagebody = document.getElementsByTagName('body')[0]
+            if (isDark) {
+                pagebody.classList.add('dark-theme');
+                // mobile
+                document.getElementById("mobile-toggle-theme").innerText = "· Dark"
+            } else {
+                pagebody.classList.remove('dark-theme');
+                // mobile
+                document.getElementById("mobile-toggle-theme").innerText = "· Light"
+            }
+        })();
+    </script>
+
+    <div class="wrapper">
+        <header>
+    <nav class="navbar">
+        <div class="container">
+            <div class="navbar-header header-logo"><a href="/">Xiunian&#39;s Blog</a></div>
+            <div class="menu navbar-right">
+                
+                    <a class="menu-item" href="/about">About</a>
+                
+                    <a class="menu-item" href="/archives">Posts</a>
+                
+                    <a class="menu-item" href="/tag">Tags</a>
+                
+                <input id="switch_default" type="checkbox" class="switch_default">
+                <label for="switch_default" class="toggleBtn"></label>
+            </div>
+        </div>
+    </nav>
+
+    
+    <nav class="navbar-mobile" id="nav-mobile">
+        <div class="container">
+            <div class="navbar-header">
+                <div>
+                    <a href="/">Xiunian&#39;s Blog</a><a id="mobile-toggle-theme">·&nbsp;Light</a>
+                </div>
+                <div class="menu-toggle" onclick="mobileBtn()">&#9776; Menu</div>
+            </div>
+            <div class="menu" id="mobile-menu">
+                
+                    <a class="menu-item" href="/about">About</a>
+                
+                    <a class="menu-item" href="/archives">Posts</a>
+                
+                    <a class="menu-item" href="/tag">Tags</a>
+                
+            </div>
+        </div>
+    </nav>
+
+</header>
+<script>
+    var mobileBtn = function f() {
+        var toggleMenu = document.getElementsByClassName("menu-toggle")[0];
+        var mobileMenu = document.getElementById("mobile-menu");
+        if(toggleMenu.classList.contains("active")){
+           toggleMenu.classList.remove("active")
+            mobileMenu.classList.remove("active")
+        }else{
+            toggleMenu.classList.add("active")
+            mobileMenu.classList.add("active")
+        }
+    }
+</script>
+            <div class="main">
+                <div class="post-wrap archive">
+    
+    
+        
+
+        
+            <h3>2023</h3>
+        
+
+		
+		
+			
+		
+		
+		
+    
+    
+    <nav class="pagination">
+        <a class="page-number" href="/archives/2023/">1</a><span class="space">&hellip;</span><a class="page-number" href="/archives/2023/page/4/">4</a><a class="page-number" href="/archives/2023/page/5/">5</a><span class="page-number current">6</span>
+    </nav>
+
+</div>
+            </div>
+            <footer id="footer" class="footer">
+    <div class="copyright">
+        <span>© 修年 | Powered by <a href="https://hexo.io" target="_blank">Hexo</a> & <a href="https://github.com/Siricee/hexo-theme-Chic" target="_blank">Chic</a></span>
+    </div>
+</footer>
+
+    </div>
+</body>
+
+</html>
\ No newline at end of file
diff --git a/archives/2024/05/index.html b/archives/2024/05/index.html
index 970c907e..1f4e5212 100644
--- a/archives/2024/05/index.html
+++ b/archives/2024/05/index.html
@@ -154,6 +154,20 @@ <h3>2024</h3>
 			</article>
 		
     
+        
+
+        
+
+		
+		
+		
+		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2024/05/11/Rewriting/">Rewriting</a>
+				<span class="archive-item-date">五月 11, 2024</span>
+			</article>
+		
+    
     
 </div>
             </div>
diff --git a/archives/2024/index.html b/archives/2024/index.html
index 52cae171..ccc1f6b2 100644
--- a/archives/2024/index.html
+++ b/archives/2024/index.html
@@ -162,6 +162,20 @@ <h3>2024</h3>
 		
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2024/05/11/Rewriting/">Rewriting</a>
+				<span class="archive-item-date">五月 11, 2024</span>
+			</article>
+		
+    
+        
+
+        
+
+		
+		
+		
+		
 			<article class="archive-item">
 				<a class="archive-item-link" href="/2024/04/27/algorithm_questions/">算法题</a>
 				<span class="archive-item-date">四月 27, 2024</span>
diff --git a/archives/index.html b/archives/index.html
index aa2939ad..27cf2a22 100644
--- a/archives/index.html
+++ b/archives/index.html
@@ -163,8 +163,8 @@ <h3>2024</h3>
 		
 		
 			<article class="archive-item">
-				<a class="archive-item-link" href="/2024/04/27/algorithm_questions/">算法题</a>
-				<span class="archive-item-date">四月 27, 2024</span>
+				<a class="archive-item-link" href="/2024/05/11/Rewriting/">Rewriting</a>
+				<span class="archive-item-date">五月 11, 2024</span>
 			</article>
 		
     
@@ -177,8 +177,8 @@ <h3>2024</h3>
 		
 		
 			<article class="archive-item">
-				<a class="archive-item-link" href="/2024/04/21/userspace_scheduling_framework/">COS: A User-space Scheduling Framework</a>
-				<span class="archive-item-date">四月 21, 2024</span>
+				<a class="archive-item-link" href="/2024/04/27/algorithm_questions/">算法题</a>
+				<span class="archive-item-date">四月 27, 2024</span>
 			</article>
 		
     
@@ -191,8 +191,8 @@ <h3>2024</h3>
 		
 		
 			<article class="archive-item">
-				<a class="archive-item-link" href="/2024/04/10/read_linux/">对Linux研究汇总</a>
-				<span class="archive-item-date">四月 10, 2024</span>
+				<a class="archive-item-link" href="/2024/04/21/userspace_scheduling_framework/">COS: A User-space Scheduling Framework</a>
+				<span class="archive-item-date">四月 21, 2024</span>
 			</article>
 		
     
@@ -205,7 +205,7 @@ <h3>2024</h3>
 		
 		
 			<article class="archive-item">
-				<a class="archive-item-link" href="/2024/04/10/unsolved_problems/">尚未解决的问题</a>
+				<a class="archive-item-link" href="/2024/04/10/read_linux/">对Linux研究汇总</a>
 				<span class="archive-item-date">四月 10, 2024</span>
 			</article>
 		
@@ -219,8 +219,8 @@ <h3>2024</h3>
 		
 		
 			<article class="archive-item">
-				<a class="archive-item-link" href="/2024/03/23/webserver/">Web Server</a>
-				<span class="archive-item-date">三月 23, 2024</span>
+				<a class="archive-item-link" href="/2024/04/10/unsolved_problems/">尚未解决的问题</a>
+				<span class="archive-item-date">四月 10, 2024</span>
 			</article>
 		
     
@@ -230,9 +230,12 @@ <h3>2024</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2024/03/23/webserver/">Web Server</a>
+				<span class="archive-item-date">三月 23, 2024</span>
+			</article>
 		
     
         
@@ -259,8 +262,6 @@ <h3>2024</h3>
     
         
 
-        
-            <h3>2023</h3>
         
 
 		
diff --git a/archives/page/2/index.html b/archives/page/2/index.html
index 0774c0a7..198849af 100644
--- a/archives/page/2/index.html
+++ b/archives/page/2/index.html
@@ -157,12 +157,9 @@ <h3>2023</h3>
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/12/10/deduplication_system_articles/">Deduplication System相关文章</a>
-				<span class="archive-item-date">十二月 10, 2023</span>
-			</article>
 		
     
         
@@ -171,9 +168,12 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/12/10/deduplication_system_articles/">Deduplication System相关文章</a>
+				<span class="archive-item-date">十二月 10, 2023</span>
+			</article>
 		
     
         
@@ -226,12 +226,9 @@ <h3>2023</h3>
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/10/27/driver_develop/">驱动开发小记</a>
-				<span class="archive-item-date">十月 27, 2023</span>
-			</article>
 		
     
         
@@ -243,8 +240,8 @@ <h3>2023</h3>
 		
 		
 			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/10/19/open-source-9.19-10.19/">开源的第一个月</a>
-				<span class="archive-item-date">十月 19, 2023</span>
+				<a class="archive-item-link" href="/2023/11/11/Indexing/">Indexing</a>
+				<span class="archive-item-date">十一月 11, 2023</span>
 			</article>
 		
     
@@ -254,9 +251,12 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/10/27/driver_develop/">驱动开发小记</a>
+				<span class="archive-item-date">十月 27, 2023</span>
+			</article>
 		
     
     
diff --git a/archives/page/3/index.html b/archives/page/3/index.html
index b8ea0661..2d564baf 100644
--- a/archives/page/3/index.html
+++ b/archives/page/3/index.html
@@ -149,8 +149,8 @@ <h3>2023</h3>
 		
 		
 			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/10/12/%E5%90%84%E7%A7%8D%E9%85%8D%E7%8E%AF%E5%A2%83%E4%B8%AD%E9%81%87%E5%88%B0%E7%9A%84%E9%97%AE%E9%A2%98/">各种配环境中遇到的问题</a>
-				<span class="archive-item-date">十月 12, 2023</span>
+				<a class="archive-item-link" href="/2023/10/19/open-source-9.19-10.19/">开源的第一个月</a>
+				<span class="archive-item-date">十月 19, 2023</span>
 			</article>
 		
     
@@ -174,8 +174,8 @@ <h3>2023</h3>
 		
 		
 			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/10/07/git/">git使用记录</a>
-				<span class="archive-item-date">十月 7, 2023</span>
+				<a class="archive-item-link" href="/2023/10/12/%E5%90%84%E7%A7%8D%E9%85%8D%E7%8E%AF%E5%A2%83%E4%B8%AD%E9%81%87%E5%88%B0%E7%9A%84%E9%97%AE%E9%A2%98/">各种配环境中遇到的问题</a>
+				<span class="archive-item-date">十月 12, 2023</span>
 			</article>
 		
     
@@ -185,12 +185,9 @@ <h3>2023</h3>
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/10/06/%E5%AD%98%E5%82%A8%E7%AE%80%E5%8D%95%E5%85%A5%E9%97%A8/">存储简单入门</a>
-				<span class="archive-item-date">十月 6, 2023</span>
-			</article>
 		
     
         
@@ -199,9 +196,12 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/10/07/git/">git使用记录</a>
+				<span class="archive-item-date">十月 7, 2023</span>
+			</article>
 		
     
         
@@ -210,9 +210,12 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/10/06/%E5%AD%98%E5%82%A8%E7%AE%80%E5%8D%95%E5%85%A5%E9%97%A8/">存储简单入门</a>
+				<span class="archive-item-date">十月 6, 2023</span>
+			</article>
 		
     
         
@@ -221,12 +224,9 @@ <h3>2023</h3>
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/09/18/%E9%9D%99%E6%80%81%E9%93%BE%E6%8E%A5%E4%B8%8E%E5%8A%A8%E6%80%81%E9%93%BE%E6%8E%A5/">链接、装载与运行库</a>
-				<span class="archive-item-date">九月 18, 2023</span>
-			</article>
 		
     
         
@@ -235,12 +235,9 @@ <h3>2023</h3>
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/08/27/2023-os-comp/">总结—2023全国大学生计算机系统能力大赛-OS功能</a>
-				<span class="archive-item-date">八月 27, 2023</span>
-			</article>
 		
     
         
@@ -249,9 +246,12 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/09/18/%E9%9D%99%E6%80%81%E9%93%BE%E6%8E%A5%E4%B8%8E%E5%8A%A8%E6%80%81%E9%93%BE%E6%8E%A5/">链接、装载与运行库</a>
+				<span class="archive-item-date">九月 18, 2023</span>
+			</article>
 		
     
         
@@ -260,9 +260,12 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/08/27/2023-os-comp/">总结—2023全国大学生计算机系统能力大赛-OS功能</a>
+				<span class="archive-item-date">八月 27, 2023</span>
+			</article>
 		
     
     
diff --git a/archives/page/4/index.html b/archives/page/4/index.html
index c1c27ba5..6a898925 100644
--- a/archives/page/4/index.html
+++ b/archives/page/4/index.html
@@ -146,12 +146,9 @@ <h3>2023</h3>
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/06/21/%E8%AF%BE%E7%A8%8B%E5%AD%A6%E4%B9%A0/">课程学习</a>
-				<span class="archive-item-date">六月 21, 2023</span>
-			</article>
 		
     
         
@@ -160,12 +157,9 @@ <h3>2023</h3>
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/06/17/%E5%AF%B9GRUB%E5%92%8Cinitramfs%E7%9A%84%E5%B0%8F%E6%8E%A2%E7%A9%B6/">对GRUB和initramfs的小探究</a>
-				<span class="archive-item-date">六月 17, 2023</span>
-			</article>
 		
     
         
@@ -174,9 +168,12 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/06/21/%E8%AF%BE%E7%A8%8B%E5%AD%A6%E4%B9%A0/">课程学习</a>
+				<span class="archive-item-date">六月 21, 2023</span>
+			</article>
 		
     
         
@@ -185,9 +182,12 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/06/17/%E5%AF%B9GRUB%E5%92%8Cinitramfs%E7%9A%84%E5%B0%8F%E6%8E%A2%E7%A9%B6/">对GRUB和initramfs的小探究</a>
+				<span class="archive-item-date">六月 17, 2023</span>
+			</article>
 		
     
         
@@ -196,12 +196,9 @@ <h3>2023</h3>
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/03/13/cmu15445/">CMU15445</a>
-				<span class="archive-item-date">三月 13, 2023</span>
-			</article>
 		
     
         
@@ -221,9 +218,12 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/03/13/cmu15445/">CMU15445</a>
+				<span class="archive-item-date">三月 13, 2023</span>
+			</article>
 		
     
         
diff --git a/archives/page/5/index.html b/archives/page/5/index.html
index 58dec055..9f2d4e5b 100644
--- a/archives/page/5/index.html
+++ b/archives/page/5/index.html
@@ -223,12 +223,9 @@ <h3>2023</h3>
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/02/25/cs144/">cs144</a>
-				<span class="archive-item-date">二月 25, 2023</span>
-			</article>
 		
     
         
@@ -248,9 +245,12 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/02/25/cs144/">cs144</a>
+				<span class="archive-item-date">二月 25, 2023</span>
+			</article>
 		
     
     
diff --git a/archives/page/6/index.html b/archives/page/6/index.html
index b237e6f8..ed6d18f2 100644
--- a/archives/page/6/index.html
+++ b/archives/page/6/index.html
@@ -212,12 +212,9 @@ <h3>2023</h3>
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2023/01/10/xv6/">xv6</a>
-				<span class="archive-item-date">一月 10, 2023</span>
-			</article>
 		
     
         
@@ -237,25 +234,23 @@ <h3>2023</h3>
 
 		
 		
-			
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2023/01/10/xv6/">xv6</a>
+				<span class="archive-item-date">一月 10, 2023</span>
+			</article>
 		
     
         
 
-        
-            <h3>2022</h3>
         
 
 		
 		
+			
 		
 		
-			<article class="archive-item">
-				<a class="archive-item-link" href="/2022/12/21/JavaWeb/">JavaWeb</a>
-				<span class="archive-item-date">十二月 21, 2022</span>
-			</article>
 		
     
     
diff --git a/archives/page/7/index.html b/archives/page/7/index.html
index 548943bc..6a8d6235 100644
--- a/archives/page/7/index.html
+++ b/archives/page/7/index.html
@@ -141,6 +141,19 @@
         
 
         
+            <h3>2023</h3>
+        
+
+		
+		
+			
+		
+		
+		
+    
+        
+
+        
             <h3>2022</h3>
         
 
@@ -148,6 +161,20 @@ <h3>2022</h3>
 		
 		
 		
+			<article class="archive-item">
+				<a class="archive-item-link" href="/2022/12/21/JavaWeb/">JavaWeb</a>
+				<span class="archive-item-date">十二月 21, 2022</span>
+			</article>
+		
+    
+        
+
+        
+
+		
+		
+		
+		
 			<article class="archive-item">
 				<a class="archive-item-link" href="/2022/11/06/Java%E5%B9%B6%E5%8F%91%E7%BC%96%E7%A8%8B%E5%AE%9E%E6%88%98/">Java并发编程实战</a>
 				<span class="archive-item-date">十一月 6, 2022</span>
diff --git a/search.xml b/search.xml
index e97a7165..d3d533ce 100644
--- a/search.xml
+++ b/search.xml
@@ -16,6 +16,19 @@
     
     
     
+    <entry>
+      <title>Rewriting</title>
+      <link href="/2024/05/11/Rewriting/"/>
+      <url>/2024/05/11/Rewriting/</url>
+      
+        <content type="html"><![CDATA[<h1 id="Capping"><a href="#Capping" class="headerlink" title="Capping"></a><a href="/2024/01/07/Capping">Capping</a></h1><p>测试做得很友好很完善</p><p>对stream进行分段为segment；限制每个版本的容器数（主要是指引用的旧容器数）；将那些包含重复块rate较小的容器所包含的重复块视为unique block进行rewrite。</p><h1 id="SMR"><a href="#SMR" class="headerlink" title="SMR"></a>SMR</h1><p><a href="https://ieeexplore.ieee.org/abstract/document/8402122/">Improving Restore Performance in Deduplication Systems via a Cost-Efficient Rewriting Scheme</a></p><p>在去重时选择容器这个问题可以建模为一个NP的算法问题：（或者说Restoration，由于是反过程所以感觉原理也比较相似）</p><p><strong>Input</strong>:         n个等长集合；数组target【container、recipe】</p><p><strong>Output</strong>:     并集包含target中所有数字的最少集合【selected restore containers】</p><p>Capping事实上就相当于进行了一个妥协，将该问题转化为：</p><p><strong>Input</strong>:         n个等长集合；数组target【container、recipe】</p><p><strong>Output</strong>:     选择集合中target比率最大的T个集合【selected restore containers】</p><p>之前刚入门deduplication system，在看代码的时候，就在想对capping的处理是不是有点暴力了。具体来说，在Capping中，这个块是很多个容器都有，我们每次都默认选择第一个容器来作为这个chunk的index，也即只视第一个容器的chunk为<strong>referenced chunks</strong>，其它都为仅被引用一次的<strong>redundant chunks</strong>。而这有时候并不是最优解，因为有可能选同样包含该chunk的其它容器是最优解，也即它们事实上利用比率最大，但是里面部分chunk被视为了redundant而非referenced chunk。</p><p>本篇文章也正是针对该问题提出。它认为，Capping会产生这个问题是因为它依据了index来进行容器利用率的检测，但其实完全没必要这么做。故而，它提出采用容器之间的差异性来作为指标。</p><p><img src="/2024/05/11/Rewriting/image-20240511151432270.png" alt="image-20240511151432270"></p><p>也即，它将问题转化为了：</p><p><strong>Input</strong>:         n个集合；</p><p><strong>Output</strong>:     并集包含的数字最多的T个集合</p><p>然后只对这个选出来的集合id的容器进行去重，别的都重写。这样一来，它就能够使容器利用率相比于Capping大大增加，重写数大大减少，效果一流。</p><p>不过这个问题依然还是一个NP问题，故而它使用了贪心算法来进一步解决这个问题：每次从容器全集中选出一个跟当前smr集合不一样的chunk最多的容器。</p><p><img src="/2024/05/11/Rewriting/image-20240511152707489.png" alt="image-20240511152707489"></p><blockquote><p>补充：贪心算法可解的证明<br><img src="/2024/05/11/Rewriting/2kSfwhw5Sd7.png" alt="image.png"><br><img src="/2024/05/11/Rewriting/2kSgf9wdlNi.png" alt="image.png"><br>求解任何单调子模性函数的最大值，都可以用贪心算法来取得一个质量不错的近似解。于是它的思路就是证明这个是单调子模函数即可</p><p><img src="/2024/05/11/Rewriting/image-20240511154851309.png" alt="image-20240511154851309"></p></blockquote><p>它最后还提出了一个GSMR，依据备份版本之间的特性进行的重写，感觉跟MFDedup的NDF很像，很神奇，后者多加了个更主要的布局整理的第二步。</p><h1 id="DePFC"><a href="#DePFC" class="headerlink" title="DePFC"></a>DePFC</h1><p><a href="https://ieeexplore.ieee.org/abstract/document/8994084">Improving Restore Performance of Packed Datasets in Deduplication Systems via Reducing Persistent Fragmented Chunks</a></p><h2 id="介绍"><a href="#介绍" class="headerlink" title="介绍"></a>介绍</h2><p>大概是说发现了一部分persistent fragment chunk，这些块会一直被重写。具体来说，它关注的是这样的情形。在Deduplication System中，数据流都是以tar形式输入的。而tar的打包方式大概是会给每个文件安上一个metadata block前缀，后面再跟数据块一样，所以最终会是metadata和数据混合存储，并且一般情况下，都是metadata变化较频繁（比如说时间戳变化之类的），数据块变化较为少。而对于小文件较多的场景，这时候就是一个容器中含有很多metadata和少部分data block，如果数据块是持久不变的，由于这个metadata经常变化（unique），导致目前的Rewriting方案都会觉得这个对应的容器的利用率很低，并且加上不会更新index，从而就会导致这个chunk一直被重写，就称这样的chunk为PFC。</p><blockquote><p>这点其实也是审稿意见中提到的吧，文件间（或者说chunk间）访问频率不固定，不过NACC的做法倒是均等化了每一个chunk的出现几率</p></blockquote><p>故而，本篇文章提出的思路是，在协作的其它rewriting算法选举出重写块之后，再进一步对重写块分类，分为PFC(persistent fragment chunk) 和 RFC(regular fragment chunk)，然后后者普通重写，前者放在一起重写，并且更新fp index指向最新重写块。</p><p>其中，identify RFC and PFC是这么实现的，维护上一个备份版本的rewritten set。如果FC在其中，则为PFC(被重写过了一次)；否则为RFC，加入本次版本的rewritten index。</p><p>然后，这个过程就会有两个比较关键的点：</p><ol><li><p>Limited Scope to Compute the Container’s Utilization</p><p><img src="/2024/05/11/Rewriting/image-20240511194450908.png" alt="image-20240511194450908"></p><p>在对于Capping协作这种情况会导致该方法失效……</p><p>解决方法是引入一个FCBuffer。具体来说，这个FCBuffer是一个跨segment的数据结构，FC首先被写入FCBuffer，并且实时监测FCBuffer中的各个container的利用率，若利用率达到阈值，就移除FCBuffer中该container对应的所有数据块（因为这说明这些数据块已经被depfc过了）。然后当FCBuffer满的时候再写入新容器。</p></li><li><p>Restore Cache Thrashing</p><p>PFC之间可能间隔很远，特别第一点的FCBuffer带来的PFC和RFC混合存储可能会worsen这一点（毕竟本来RFC就是为了大局起见重写的，把他们集中放置反而可能让PFC之后又面临那个问题了），导致RFC一直滞留更是G。为了防范这点，它引入了一个LRU cache来模拟Restoration阶段，当一个container被驱逐时，就可能说明它里面含有的RFC和当前FCBuffer内所有PFC马上要离当前的context太远了，于是就赶紧写入它对应的所有RFC，以及FCBuffer中所有的PFC。这样一来就能改善距离过远的问题。</p><blockquote><p>这一点我其实觉得有点费解，虽然说直观上觉得是对的，但是理性上还是很难说服自己，实在没怎么看懂。</p></blockquote></li></ol><p>整个算法流程如下图所示：</p><p><img src="/2024/05/11/Rewriting/image-20240511201404030.png" alt="image-20240511201404030"></p><blockquote><p>我看这篇文章，其实是想在当前代码框架尝试着去复现它的。然而，当前的代码框架是一个顺序写入recipe和block的逻辑，貌似不大支持有的chunk可能得在下一个segment的时候才能被确定recipe中的容器位置，我能想到的唯一解决方法是先把这些视为duplicate，等到最后整个dedup完成（所有segment输入完毕）的时候再统一进行一次recipe的更新，不过实现代价可能有点大所以暂时没敢动。</p></blockquote><h2 id="代码实现"><a href="#代码实现" class="headerlink" title="代码实现"></a>代码实现</h2><p>这里也暂且放个我的DePFC + Capping的代码实现吧，虽然最后发现还是不大行（指跟现有代码框架不大兼容，但感觉逻辑一类还是差不多），虽然未经debug，感觉也是可供参考。下面的代码暂没更新fp index，只是基本逻辑框架。</p><figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">/*</span></span><br><span class="line"><span class="comment">基本思路：</span></span><br><span class="line"><span class="comment">1. Capping识别出FC</span></span><br><span class="line"><span class="comment">2. doDePFC()分类出PFC和RFC</span></span><br><span class="line"><span class="comment">1. 不断地从wl中获取，unique跳过，普通duplicate跳过</span></span><br><span class="line"><span class="comment">2. FCBuffer满时全部视为PFC，加入PFC set，更新global fp index</span></span><br><span class="line"><span class="comment">3. 驱逐遍历时，PFC加入PFC set，RFC更新rewritten index</span></span><br><span class="line"><span class="comment">4. 如果FCBuffer中某一容器出现频率达到阈值，移出FCBuffer（相当于视作RFC了）</span></span><br><span class="line"><span class="comment">3. 在写入阶段</span></span><br><span class="line"><span class="comment">1. unique和duplicate正常处理（写入data block、写入recipe）</span></span><br><span class="line"><span class="comment">2. 如果是PFC，写入new container</span></span><br><span class="line"><span class="comment">当前代码框架是顺序写入逻辑，要求写入时必须要写入recipe。上述思路会致使一些chunk在本segment输入结束时仍未得知自己是PFC还是RFC还是普通duplicate，从而无法顺序写入recipe，导致可能需要先把FC都视为duplicate，然后之后再进行一个统一的更新recipe。由于实现太过复杂，时间上来不大及，故而暂且先放下。</span></span><br><span class="line"><span class="comment">*/</span></span><br></pre></td></tr></table></figure><figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">/* Data Structure */</span></span><br><span class="line"><span class="comment">// FCBuffer &lt;cid, FCs&gt;</span></span><br><span class="line">std::unordered_map&lt;<span class="type">uint64_t</span>, std::list&lt;SHA1FP&gt;&gt; FCBuffer;</span><br><span class="line"><span class="type">const</span> <span class="type">static</span> <span class="type">uint64_t</span> FCBufferCapacity = ContainerSize / ExpectChunkSize;</span><br><span class="line"><span class="type">int</span> FCBufferCurrentSize = <span class="number">0</span>;</span><br><span class="line"><span class="type">uint64_t</span> FCBuffer_new_cid = fid;</span><br><span class="line"></span><br><span class="line"><span class="comment">// old rewritten index</span></span><br><span class="line">std::unordered_set&lt;SHA1FP, TupleHasher, TupleEqualer&gt; RCIndex;</span><br><span class="line"><span class="comment">// new rewritten index</span></span><br><span class="line">std::unordered_set&lt;SHA1FP, TupleHasher, TupleEqualer&gt; new_RCIndex;</span><br><span class="line"></span><br><span class="line">LRUCache SRC;<span class="comment">// LRU for container id</span></span><br><span class="line"></span><br><span class="line">std::unordered_set&lt;SHA1FP, TupleHasher, TupleEqualer&gt; PFC;</span><br><span class="line"><span class="comment">// 记录FC中被视为duplicate的（与Capping兼容情况）</span></span><br><span class="line">std::unordered_set&lt;SHA1FP, TupleHasher, TupleEqualer&gt; InterCapping;</span><br></pre></td></tr></table></figure><figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">// DePFC</span></span><br><span class="line">Dedup Pipeline:</span><br><span class="line">    <span class="keyword">for</span> (<span class="type">const</span> <span class="keyword">auto</span> &amp;dedupTask : taskList) &#123;</span><br><span class="line">        detectList.<span class="built_in">push_back</span>(dedupTask);</span><br><span class="line">        segmentLength += dedupTask.length;</span><br><span class="line">        <span class="keyword">if</span> (segmentLength &gt; SegmentThreshold || dedupTask.countdownLatch) &#123;</span><br><span class="line">            <span class="built_in">processingWaitingList</span>(detectList);</span><br><span class="line">            <span class="built_in">cappingDedupChunks</span>(detectList);<span class="comment">// do Capping first</span></span><br><span class="line">            <span class="built_in">doDePFC</span>(detectList);</span><br><span class="line"></span><br><span class="line">            segmentLength = <span class="number">0</span>;</span><br><span class="line">            detectList.<span class="built_in">clear</span>();</span><br><span class="line">        &#125;</span><br><span class="line">    &#125;</span><br><span class="line">    <span class="comment">// change RCIndex to new_RCIndex</span></span><br><span class="line">    RCIndex = new_RCIndex;</span><br><span class="line">    new_RCIndex.<span class="built_in">clear</span>();</span><br></pre></td></tr></table></figure><figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br><span class="line">79</span><br><span class="line">80</span><br><span class="line">81</span><br><span class="line">82</span><br><span class="line">83</span><br><span class="line">84</span><br><span class="line">85</span><br><span class="line">86</span><br><span class="line">87</span><br><span class="line">88</span><br><span class="line">89</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">// baseChunkPositions中是Capping分类出的FC</span></span><br><span class="line"><span class="function"><span class="type">void</span> <span class="title">dePFC</span><span class="params">(std::list&lt;DedupTask&gt; &amp;wl)</span> </span>&#123;</span><br><span class="line">    <span class="keyword">for</span> (<span class="keyword">auto</span> &amp;entry: wl) &#123;</span><br><span class="line">        <span class="type">bool</span> isFC = <span class="literal">false</span>;</span><br><span class="line">        Location location;</span><br><span class="line"></span><br><span class="line">        <span class="keyword">if</span> (<span class="built_in">unlikely</span>(!FLAGS_dedup))    <span class="keyword">continue</span>;   <span class="comment">// all chunks are regarded as unique</span></span><br><span class="line">        <span class="type">int</span> result = GlobalMetadataManagerPtr-&gt;<span class="built_in">findRecord</span>(entry.fp, &amp;location);</span><br><span class="line">        <span class="keyword">if</span> (!result)    <span class="keyword">continue</span>;   <span class="comment">// unique</span></span><br><span class="line"></span><br><span class="line">        <span class="comment">// now all chunks here is duplicated</span></span><br><span class="line"></span><br><span class="line">        <span class="keyword">auto</span> citer = baseChunkPositions.<span class="built_in">find</span>(location.fid);</span><br><span class="line">        <span class="keyword">if</span> (citer == baseChunkPositions.<span class="built_in">end</span>() || citer-&gt;second == <span class="number">0</span>) &#123;<span class="comment">// Capping result</span></span><br><span class="line">            isFC = <span class="literal">true</span>;</span><br><span class="line">        &#125;</span><br><span class="line"></span><br><span class="line">        <span class="keyword">if</span> (!isFC)  <span class="keyword">continue</span>;   <span class="comment">// normal duplicate</span></span><br><span class="line"></span><br><span class="line">        <span class="comment">// now all chunks here is FC</span></span><br><span class="line"></span><br><span class="line">        <span class="keyword">if</span> (FCBufferCurrentSize + <span class="number">1</span> &gt;= FCBufferCapacity) &#123;</span><br><span class="line">            <span class="comment">// regard all as PFC</span></span><br><span class="line">            <span class="keyword">for</span> (<span class="keyword">auto</span> fc_it = FCBuffer.<span class="built_in">begin</span>(); fc_it != FCBuffer.<span class="built_in">end</span>();) &#123;</span><br><span class="line">                <span class="keyword">for</span> (<span class="keyword">auto</span> fp = fc_it-&gt;second.<span class="built_in">begin</span>(); fp != fc_it-&gt;second.<span class="built_in">end</span>();) &#123;</span><br><span class="line">                    PFC.<span class="built_in">insert</span>(*fp);</span><br><span class="line">                    FCBufferCurrentSize --;</span><br><span class="line">                    fp = fc_it-&gt;second.<span class="built_in">erase</span>(fp);</span><br><span class="line">                &#125;</span><br><span class="line">                <span class="keyword">if</span> (fc_it-&gt;second.<span class="built_in">empty</span>() || fc_it-&gt;first == vid)   </span><br><span class="line">                    fc_it = FCBuffer.<span class="built_in">erase</span>(fc_it);</span><br><span class="line">                <span class="keyword">else</span>    fc_it ++;</span><br><span class="line">            &#125;</span><br><span class="line">            <span class="built_in">assert</span>(FCBufferCurrentSize == <span class="number">0</span>);</span><br><span class="line">        &#125;</span><br><span class="line"></span><br><span class="line">        <span class="type">uint64_t</span> old_cid = location.fid;</span><br><span class="line"></span><br><span class="line">        <span class="type">int</span> vid = SRC.<span class="built_in">put</span>(old_cid);</span><br><span class="line">        <span class="keyword">if</span> (vid &gt;= <span class="number">0</span>) &#123;</span><br><span class="line">            <span class="keyword">auto</span> it = FCBuffer.<span class="built_in">find</span>(vid);</span><br><span class="line">            <span class="built_in">assert</span>(it != FCBuffer.<span class="built_in">end</span>());</span><br><span class="line">            <span class="type">bool</span> has_pfc = <span class="literal">false</span>;</span><br><span class="line">            <span class="keyword">for</span> (<span class="keyword">auto</span> &amp;fp : it-&gt;second) &#123;</span><br><span class="line">                <span class="keyword">if</span> (RCIndex.<span class="built_in">find</span>(fp) == RCIndex.<span class="built_in">end</span>()) &#123;</span><br><span class="line">                    <span class="comment">// RFC, regard as normal denyDedup</span></span><br><span class="line">                    FCBufferCurrentSize  --;</span><br><span class="line">                    new_RCIndex.<span class="built_in">insert</span>(fp);</span><br><span class="line">                    <span class="comment">// <span class="doctag">TODO:</span> add updates for rewritten index</span></span><br><span class="line">                    <span class="keyword">continue</span>;</span><br><span class="line">                &#125;</span><br><span class="line">                has_pfc = <span class="literal">true</span>;</span><br><span class="line">            &#125;</span><br><span class="line"></span><br><span class="line">            <span class="comment">// remove all pfc in the buffer</span></span><br><span class="line">            <span class="keyword">if</span> (has_pfc) &#123;</span><br><span class="line">                <span class="keyword">for</span> (<span class="keyword">auto</span> fc_it = FCBuffer.<span class="built_in">begin</span>(); fc_it != FCBuffer.<span class="built_in">end</span>();) &#123;</span><br><span class="line">                    <span class="keyword">for</span> (<span class="keyword">auto</span> fp = fc_it-&gt;second.<span class="built_in">begin</span>(); fp != fc_it-&gt;second.<span class="built_in">end</span>();) &#123;</span><br><span class="line">                        <span class="keyword">if</span> (RCIndex.<span class="built_in">find</span>(*fp) == RCIndex.<span class="built_in">end</span>()) &#123;</span><br><span class="line">                            fp ++</span><br><span class="line">                            <span class="keyword">continue</span>;</span><br><span class="line">                        &#125;</span><br><span class="line"></span><br><span class="line">                        <span class="comment">// PFC</span></span><br><span class="line">                        FCBufferCurrentSize --;</span><br><span class="line">                        PFC.<span class="built_in">insert</span>(*fp);</span><br><span class="line">                        fp = fc_it-&gt;second.<span class="built_in">erase</span>(fp);</span><br><span class="line">                    &#125;</span><br><span class="line">                    <span class="keyword">if</span> (fc_it-&gt;second.<span class="built_in">empty</span>() || fc_it-&gt;first == vid)   fc_it = FCBuffer.<span class="built_in">erase</span>(fc_it);</span><br><span class="line">                    <span class="keyword">else</span>    fc_it ++;</span><br><span class="line">                &#125;</span><br><span class="line">            &#125;</span><br><span class="line">            FCBuffer.<span class="built_in">erase</span>(it);</span><br><span class="line">        &#125;</span><br><span class="line"></span><br><span class="line">        FCBuffer[old_cid].<span class="built_in">insert</span>(entry);</span><br><span class="line">        FCBufferCurrentSize ++;</span><br><span class="line">        <span class="keyword">auto</span> it = FCBuffer.<span class="built_in">find</span>(old_cid);</span><br><span class="line">        <span class="keyword">if</span> ((it-&gt;second.<span class="built_in">size</span>()) * FLAGS_ExpectSize / ContainerSize &gt;= Threshold) &#123;</span><br><span class="line">            <span class="keyword">for</span> (<span class="keyword">auto</span> &amp;fp : it-&gt;second) &#123;</span><br><span class="line">                FCBufferCurrentSize --;</span><br><span class="line">                <span class="comment">// normal duplicate</span></span><br><span class="line">                InterCapping.<span class="built_in">insert</span>(fp);</span><br><span class="line">                <span class="keyword">continue</span>;</span><br><span class="line">            &#125;</span><br><span class="line">            FCBuffer.<span class="built_in">erase</span>(it);</span><br><span class="line">        &#125;</span><br><span class="line">    &#125;</span><br><span class="line">&#125;</span><br></pre></td></tr></table></figure><figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">// DePFC</span></span><br><span class="line"><span class="keyword">auto</span> citer = baseChunkPositions.<span class="built_in">find</span>(writeTask.location.fid);</span><br><span class="line"><span class="keyword">if</span> (citer == baseChunkPositions.<span class="built_in">end</span>() || citer-&gt;second == <span class="number">0</span>) &#123;<span class="comment">// FC</span></span><br><span class="line">    <span class="keyword">if</span> (InterCapping.<span class="built_in">find</span>(entry.fp) == InterCapping.<span class="built_in">end</span>()) &#123;<span class="comment">// RFC or PFC</span></span><br><span class="line">        result = <span class="number">0</span>; <span class="comment">// capping reject similar chunks.</span></span><br><span class="line">        denyDedup++;</span><br><span class="line">        <span class="built_in">memset</span>(&amp;writeTask.location, <span class="number">0</span>, <span class="built_in">sizeof</span>(Location));</span><br><span class="line">    &#125;</span><br><span class="line">&#125;</span><br></pre></td></tr></table></figure><h2 id="其他"><a href="#其他" class="headerlink" title="其他"></a>其他</h2><p>They propose <strong>DePFC</strong> that identifies and groups PFCs to increase the utilization of containers storing PFCs, making grouped PFCs no longer fragmented. However, DePFC <u>fails to remove redundant data among similar chunks holding metadata blocks</u>.</p><p>与之相关的是他们团队ICCD’21的另一篇文章，A High-performance Post-deduplication Delta Compression Scheme for Packed Datasets，利用了通过PFC来发现metadata block，然后对其进行内部的delta compression。</p><h1 id="Comparison"><a href="#Comparison" class="headerlink" title="Comparison"></a>Comparison</h1><p>正好一次性读了两篇文章，就来稍微想一下对比吧。我感觉相比DePFC，还是SMR的应用范围可能更广一些，毕竟DePFC可能只在巨多小文件的时候，效果才会出奇的好，平时感觉可能就比一般重写好些。SMR的话，可能还是有一个情况比较受限，比如说一个极端情况，target中正巧很少包含选举出的container中互异的那些chunk，这种情况下target可能需要被大规模重写。emmm…但感觉这种情况也特别少见，不大懂。</p><p>总之，感觉我还是缺少了点看出这些方法有什么缺点的眼力，不过好在看完了也是收获了挺多。过几天再看看两篇文章的evaluation具体都测了什么吧。</p>]]></content>
+      
+      
+      
+    </entry>
+    
+    
+    
     <entry>
       <title>算法题</title>
       <link href="/2024/04/27/algorithm_questions/"/>
@@ -144,7 +157,7 @@
       <link href="/2023/12/10/deduplication_overview/"/>
       <url>/2023/12/10/deduplication_overview/</url>
       
-        <content type="html"><![CDATA[<blockquote><p>Xia W, Jiang H, Feng D, et al. A comprehensive study of the past, present, and future of data deduplication[J]. Proceedings of the IEEE, 2016, 104(9): 1681-1710.</p></blockquote><h1 id="Data-Reduction"><a href="#Data-Reduction" class="headerlink" title="Data Reduction"></a>Data Reduction</h1><p>一开始主要是一步步讲述了Data Deduplication这个概念提出的历程。</p><h2 id="Compression"><a href="#Compression" class="headerlink" title="Compression"></a>Compression</h2><p>最一开始，都是用的压缩<strong>Compression</strong>。compression分为lossy和lossless（有损压缩和无损压缩），前者是通过去除一些不必要的信息来不可逆地减少数据大小（如JPEG图片压缩），后者是通过编码或者算术等方法可逆地减少数据大小（如GZIP、LZW等）。由于大规模存储系统（large-scale storage system）主要聚焦于无损压缩，因而下文也主要介绍这个。（<u>deduplication也可以视为无损压缩的一种方法</u>）</p><h3 id="entropy-encoding"><a href="#entropy-encoding" class="headerlink" title="entropy encoding"></a>entropy encoding</h3><h4 id="信息熵"><a href="#信息熵" class="headerlink" title="信息熵"></a>信息熵</h4><p>提到压缩，就不得不提到信息熵。一个变量X的信息熵可以如下计算：</p><p><img src="/2023/12/10/deduplication_overview/image-20231210221755122.png" alt="image-20231210221755122"></p><p>比如说通过字符串abaaacabba，我们可以计算其所构成字母的信息熵：</p><p><img src="/2023/12/10/deduplication_overview/image-20231210221846621.png" alt="image-20231210221846621"></p><p>其实际含义是，对于“abaaacabba”这个上下文，<code>&#123;a, b, c&#125;</code>集合的<strong>每个字母至少需要1.295个bit来表示</strong>，也即<strong>字符串“abaaacabba”至少由12.95个bits来表示</strong>。也即，信息熵实际上是算出了<strong>压缩的极限</strong>。</p><h4 id="哈夫曼树"><a href="#哈夫曼树" class="headerlink" title="哈夫曼树"></a>哈夫曼树</h4><p>早期的压缩理论就是根据信息熵来的，这种我们称为“entropy encoding”或者“statistical-model-based coding”，因为它需要基于某个上下文（statistics）来计算信息熵。最常见的就是哈夫曼树，它用一个frequency-sorted binary tree来生成前缀编码，从而对信息进行压缩。</p><h4 id="缺点"><a href="#缺点" class="headerlink" title="缺点"></a>缺点</h4><p>然而，显而易见的是这种entropy encoding你首先就得有合适的statistics，这是不scalable的。所以它一般也不适用于现代的storage system的压缩要求。</p><h3 id="dictionary-model-based-coding"><a href="#dictionary-model-based-coding" class="headerlink" title="dictionary-model-based coding"></a>dictionary-model-based coding</h3><p>因而，“dictionary-model-based coding”就此浮出水面。它从<strong>string-level</strong>来识别重复数据，从而简化和加速了压缩。它的主要思想是通过滑动窗口识别重复字符串，并用位置和长度来替代这些重复的。（相当于是unique string只存储一次）代表性的是LZ压缩。</p><p>然而，它由于是string-level，所以需要对整个系统的所有string进行扫描，需要在compression ratio和speed之间trade off。</p><h3 id="delta-compression"><a href="#delta-compression" class="headerlink" title="delta compression"></a>delta compression</h3><p>它的提出是针对于小文件/相似chunk的。它的思想感觉有点类似密码学，大概是这样：</p><figure class="highlight css"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">given file <span class="selector-tag">A</span>,<span class="selector-tag">B</span></span><br><span class="line">calc △ab，</span><br><span class="line">我们就可以通过△ab和<span class="selector-tag">B</span>来恢复出一个<span class="selector-tag">A</span>。</span><br></pre></td></tr></table></figure><p>目前正在尝试把它纳入到deduplication system中。</p><h3 id="Deduplication"><a href="#Deduplication" class="headerlink" title="Deduplication"></a>Deduplication</h3><p>总之，在compression byte-by-byte识别redundant data这样粒度太小的劣势下，通过计算“cryptographically secure hash-based fingerprints”来识别redundant data的chunk-level的deduplication优势就来了！</p><h3 id="Overview"><a href="#Overview" class="headerlink" title="Overview"></a>Overview</h3><p><img src="/2023/12/10/deduplication_overview/image-20231210223322234.png" alt="image-20231210223322234"></p><p>这里也是给了一张很棒的图来总结了上文。</p><h2 id="Key-Features"><a href="#Key-Features" class="headerlink" title="Key Features"></a>Key Features</h2><p>这个部分大概是说<strong>key features有两个，一个是chunking，另一个是fingerprinting</strong>。</p><p>chunking有两种方法，fixed-size和variable-size，前者会出现boundary-shift问题，后者更加泛用。</p><p>fingerprinting的主流方法还是基于SHA1（现在也用SHA256了）【Cryptographically Secure Hash-Based Fingerprinting】，主要是讨论了它哈希碰撞的可能性很小所以使用安全，还有就是讨论了fingerprint的特性：</p><ol><li><p>很难找到两个不同msg指纹相同</p></li><li><p>很难从fp倒推出一个msg</p></li></ol><h2 id="Basic-Workflow"><a href="#Basic-Workflow" class="headerlink" title="Basic Workflow"></a>Basic Workflow</h2><blockquote><p>A typical data deduplication system follows the workflow of:</p><ol><li>chunking</li><li>fingerprinting</li><li>indexing</li><li>further compression</li><li>storage management<ol><li>data restore</li><li>garbage collection</li><li>fragment elimination</li><li>reliability</li><li>security</li></ol></li></ol></blockquote><h1 id="Deduplication-1"><a href="#Deduplication-1" class="headerlink" title="Deduplication"></a>Deduplication</h1><blockquote><p>In this section, we examine the state-of-the-art works on data deduplication in sufficient depth to understand their key and distinguishing features.</p></blockquote><p>本节终于要开始对deduplication的关键技术做详尽的介绍和讨论了。</p><h2 id="A-Chunking"><a href="#A-Chunking" class="headerlink" title="A.Chunking"></a>A.Chunking</h2><p>这部分确实如他所言主要介绍了chunking。它先是介绍了主流的CDC算法Rabin（具体在FastCDC那篇文章介绍过这部分了，这里就不再赘述），然后讲述了Rabin算法的三个主要缺点：chunk size方差大、计算量大、去重检测还不够精确。</p><p>针对这三个缺点，分别有各种文献提出了这几类关键技术（顺序与缺点一一对应）：</p><ol><li><p>Reducing Chunk Size Variance by <strong>Imposing Limits on MAX/MIN Chunk Sizes</strong> for CDC</p><p>当chunk size过大，虽然会加速后续的indexing等步骤，减少space消耗，但是会影响去重率；chunk size过小，虽然会增加去重率，但是会增大后续indexing等步骤的工作量。这又是一个trade-off。</p><p>这里主要介绍了各个主流方法都是怎么限制chunk size的，比如说LBFS简单粗暴，还有别的什么依据极值、非对称滑动窗口等做法。感觉还是FastCDC那个做法更加灵活聪明。</p></li><li><p>Reducing Computation to Accelerate the Chunking Process</p><p>也是有比如说Gear等等算法或者硬件层面上的改进。</p></li><li><p>Improving Duplicate-Detection Accuracy by <strong>Rechunking Nonduplicate Chunks</strong></p><p>这个问题也是比较普遍，比如如图所示的C2和C5之间就可以再做进一步去重：</p><p><img src="/2023/12/10/deduplication_overview/image-20231210235904637.png" alt="image-20231210235904637"></p><p>具体方法有比如说频率分析法选定某些频繁访问的chunk进行rechunking、把几个小的nonduplicate chunk给merge为一个大的然后rechunking等等。</p><p>这个可能对网络场景也有适用，毕竟网络传输也就主要是通过一个个很小的network package数据包。</p></li><li><p>Impact of Interspersed Metadata</p><p>主要是说如果数据集内meta data和主要数据混在一起可能干扰去重，比如说block header、还有tar打包后产生的文件的包含时间戳等信息的file header等等。</p><p>解决方法大概就是预处理之类的。</p></li></ol><h2 id="B-Accelerate-Computational-Tasks"><a href="#B-Accelerate-Computational-Tasks" class="headerlink" title="B. Accelerate Computational Tasks"></a>B. Accelerate Computational Tasks</h2><p>这个部分大概就是提出了两种方法，一个是通过将deduplication system给pipeline了（就是Odess那个做法），然后再结合multithreading来对它进行多线程加速；另一个就是通过开发GPU相关库来对deduplication做支持，从而使用GPGPU架构来进行硬件加速。</p><p><img src="/2023/12/10/deduplication_overview/image-20231211141021880.png" alt="image-20231211141021880"></p><h2 id="C-Indexing"><a href="#C-Indexing" class="headerlink" title="C. Indexing"></a>C. Indexing</h2><p><img src="/2023/12/10/deduplication_overview/image-20231211141035597.png" alt="image-20231211141035597"></p><p>不知道这个indexing是不是就是我们pipeline中的dedup阶段，感觉是的。</p><p>这个阶段面临的问题就是，数据量太大，导致指纹量也很大装不进内存，也就是说可能得根据磁盘中的指纹进行快速的索引。</p><p>indexing大致有两种思路，一个是精准的indexing，另一个就是命中率较低但内存占用也低的indexing。感觉capping有可能也有点后者的感觉（）</p><p>然后目前流行的也是有四类方法：locality-based, similarity-based, flash-assisted, and cluster deduplication approaches。</p><ol><li><p>locality-based</p><p>大概意思就是说利用数据的局部性，每次要某个指纹不是只读它一个，而是顺带把磁盘中这个指纹后面几个也读进内存，磁盘中的也是按照数据局部性存储的。</p><p>除此之外，DDFS结合Bloom filter使用来精准检测重复。</p><blockquote><p> A Bloom filter [22] is a space-efficient data structure that uses a bit array with several independent hash functions to represent membership of a set of items (e.g., fingerprints).</p></blockquote><p>而Sparse indexing则采取“抽样”的方式。</p><p>这个一般用于提高performance。</p></li><li><p>similarity-based</p><p>最常见的方法是用一个fp set的最大值or最小值来表示一个file，然后对这个建立一个主索引。如果两个文件的代表fp相同，那么这两个文件很有可能重复读极高。</p><p>它这里提到了一个比较值得思考的观点：locality-based是利用了physical-locality，similarity-based是利用了logical-locality。前者还是比较容易理解的，因为它要求磁盘中的指纹按局部性存储，后者我是真没明白。。。之后有兴趣再看看相关论文了解一下吧。</p><p>这个一般用于reduce RAM overhead。</p></li><li><p>flash-assisted</p><p>感觉这个没啥特别的，相当于换了个闪存介质而不是磁盘来存储index。</p></li><li><p>Cluster Deduplication</p><p>这个相当于加了层分布式，将输入的数据流分成几个种类（比如说按前缀分）然后送到多个结点上并行地进行去重处理，然后每个结点内部又可以用别的算法了之类的。这就需要涉及到负载均衡、路由算法等等了。</p><p>缺点是可能降低deduplication ratio（可能是因为一些路由算法实现？）。</p></li></ol><h2 id="D-Post-Deduplication-Compression"><a href="#D-Post-Deduplication-Compression" class="headerlink" title="D. Post-Deduplication Compression"></a>D. Post-Deduplication Compression</h2><p><img src="/2023/12/10/deduplication_overview/image-20231212224322111.png" alt="image-20231212224322111"></p><p>不过即便如此，一个chunk内可能还是有一些小地方是dunplicate的（internal redundancy），这时候压缩就大有用处了。并且多个chunk一起压缩，比单个单个压缩的压缩率更高。</p><p>这个还适用于上面说到的一种情况，也即那个用到rechunk的地方，完全可以用delta compression来代替，而且感觉后者可能还更通用（）感觉被薄纱。</p><p>主要面临的挑战来自于这几个方面：resemblance detection, reading base chunks, and delta encoding。</p><ol><li><p>resemblance detection</p><p>目前大概有这几种方法：</p><ol><li>Manber：计算polynomial-based fingerprints，两个文件的相似性取决于它们相同的这个fp的数量。</li><li>superfeature：抽样选取一些Rabin fp作为feature，并把它们合起来成为一个大的superfeature，对这个东西进行index。这个好像应用比较广泛。</li><li>TAPER：每个file都是一个bloom filter，比较filter相同的bit位数。</li></ol></li><li><p>delta encoding</p></li><li><p>Additional Delta Compression Challenges</p></li></ol><h2 id="E-Data-Restore"><a href="#E-Data-Restore" class="headerlink" title="E. Data Restore"></a>E. Data Restore</h2><p>这里笔墨最多的还是在说碎片化问题，同时也简要介绍了去重系统的三个主要应用场景：primary storage、backup storage、cloud storage，以及碎片化问题给它们的薄弱方面的狠狠一击（）</p><ol><li><p>primary storage</p><p>它最主要的问题还是IO-sensitive</p></li><li><p>backup storage</p><p>它最主要的问题是随着备份版本增多碎片化问题的愈发严重</p></li><li><p>cloud storage</p><p>它最主要的问题是速度，其受网络带宽、碎片化的限制。</p></li></ol><h2 id="F-Garbage-Collection"><a href="#F-Garbage-Collection" class="headerlink" title="F. Garbage Collection"></a>F. Garbage Collection</h2><p>这部分也大概是讲了GC常见的两种方法，一个是reference count，另一个是mark &amp; sweep。</p><p>前者需要<strong>inline</strong>地维护refcnt，后者则可以<strong>offline</strong>运行。</p><p>并且在backup system中，GC一般是删除了几个备份版本之后的background process。而在primary storage中，GC通常是inline的。</p>]]></content>
+        <content type="html"><![CDATA[<blockquote><p>Xia W, Jiang H, Feng D, et al. A comprehensive study of the past, present, and future of data deduplication[J]. Proceedings of the IEEE, 2016, 104(9): 1681-1710.</p></blockquote><h1 id="Data-Reduction"><a href="#Data-Reduction" class="headerlink" title="Data Reduction"></a>Data Reduction</h1><p>一开始主要是一步步讲述了Data Deduplication这个概念提出的历程。</p><h2 id="Compression"><a href="#Compression" class="headerlink" title="Compression"></a>Compression</h2><p>最一开始，都是用的压缩<strong>Compression</strong>。compression分为lossy和lossless（有损压缩和无损压缩），前者是通过去除一些不必要的信息来不可逆地减少数据大小（如JPEG图片压缩），后者是通过编码或者算术等方法可逆地减少数据大小（如GZIP、LZW等）。由于大规模存储系统（large-scale storage system）主要聚焦于无损压缩，因而下文也主要介绍这个。（<u>deduplication也可以视为无损压缩的一种方法</u>）</p><h3 id="entropy-encoding"><a href="#entropy-encoding" class="headerlink" title="entropy encoding"></a>entropy encoding</h3><h4 id="信息熵"><a href="#信息熵" class="headerlink" title="信息熵"></a>信息熵</h4><p>提到压缩，就不得不提到信息熵。一个变量X的信息熵可以如下计算：</p><p><img src="/2023/12/10/deduplication_overview/image-20231210221755122.png" alt="image-20231210221755122"></p><p>比如说通过字符串abaaacabba，我们可以计算其所构成字母的信息熵：</p><p><img src="/2023/12/10/deduplication_overview/image-20231210221846621.png" alt="image-20231210221846621"></p><p>其实际含义是，对于“abaaacabba”这个上下文，<code>&#123;a, b, c&#125;</code>集合的<strong>每个字母至少需要1.295个bit来表示</strong>，也即<strong>字符串“abaaacabba”至少由12.95个bits来表示</strong>。也即，信息熵实际上是算出了<strong>压缩的极限</strong>。</p><h4 id="哈夫曼树"><a href="#哈夫曼树" class="headerlink" title="哈夫曼树"></a>哈夫曼树</h4><p>早期的压缩理论就是根据信息熵来的，这种我们称为“entropy encoding”或者“statistical-model-based coding”，因为它需要基于某个上下文（statistics）来计算信息熵。最常见的就是哈夫曼树，它用一个frequency-sorted binary tree来生成前缀编码，从而对信息进行压缩。</p><h4 id="缺点"><a href="#缺点" class="headerlink" title="缺点"></a>缺点</h4><p>然而，显而易见的是这种entropy encoding你首先就得有合适的statistics，这是不scalable的。所以它一般也不适用于现代的storage system的压缩要求。</p><h3 id="dictionary-model-based-coding"><a href="#dictionary-model-based-coding" class="headerlink" title="dictionary-model-based coding"></a>dictionary-model-based coding</h3><p>因而，“dictionary-model-based coding”就此浮出水面。它从<strong>string-level</strong>来识别重复数据，从而简化和加速了压缩。它的主要思想是通过滑动窗口识别重复字符串，并用位置和长度来替代这些重复的。（相当于是unique string只存储一次）代表性的是LZ压缩。</p><p>然而，它由于是string-level，所以需要对整个系统的所有string进行扫描，需要在compression ratio和speed之间trade off。</p><h3 id="delta-compression"><a href="#delta-compression" class="headerlink" title="delta compression"></a>delta compression</h3><p>它的提出是针对于小文件/相似chunk的。它的思想感觉有点类似密码学，大概是这样：</p><figure class="highlight css"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">given file <span class="selector-tag">A</span>,<span class="selector-tag">B</span></span><br><span class="line">calc △ab，</span><br><span class="line">我们就可以通过△ab和<span class="selector-tag">B</span>来恢复出一个<span class="selector-tag">A</span>。</span><br></pre></td></tr></table></figure><p>目前正在尝试把它纳入到deduplication system中。不过目前的瓶颈似乎是这样的，delta compression是要求要将当前chunk同base chunk进行对比，所以怎么找到base chunk就成了问题。</p><h3 id="Deduplication"><a href="#Deduplication" class="headerlink" title="Deduplication"></a>Deduplication</h3><p>总之，在compression byte-by-byte识别redundant data这样粒度太小的劣势下，通过计算“cryptographically secure hash-based fingerprints”来识别redundant data的chunk-level的deduplication优势就来了！</p><h3 id="Overview"><a href="#Overview" class="headerlink" title="Overview"></a>Overview</h3><p><img src="/2023/12/10/deduplication_overview/image-20231210223322234.png" alt="image-20231210223322234"></p><p>这里也是给了一张很棒的图来总结了上文。</p><h2 id="Key-Features"><a href="#Key-Features" class="headerlink" title="Key Features"></a>Key Features</h2><p>这个部分大概是说<strong>key features有两个，一个是chunking，另一个是fingerprinting</strong>。</p><p>chunking有两种方法，fixed-size和variable-size，前者会出现boundary-shift问题，后者更加泛用。</p><p>fingerprinting的主流方法还是基于SHA1（现在也用SHA256了）【Cryptographically Secure Hash-Based Fingerprinting】，主要是讨论了它哈希碰撞的可能性很小所以使用安全，还有就是讨论了fingerprint的特性：</p><ol><li><p>很难找到两个不同msg指纹相同</p></li><li><p>很难从fp倒推出一个msg</p></li></ol><h2 id="Basic-Workflow"><a href="#Basic-Workflow" class="headerlink" title="Basic Workflow"></a>Basic Workflow</h2><blockquote><p>A typical data deduplication system follows the workflow of:</p><ol><li>chunking</li><li>fingerprinting</li><li>indexing</li><li>further compression</li><li>storage management<ol><li>data restore</li><li>garbage collection</li><li>fragment elimination</li><li>reliability</li><li>security</li></ol></li></ol></blockquote><h1 id="Deduplication-1"><a href="#Deduplication-1" class="headerlink" title="Deduplication"></a>Deduplication</h1><blockquote><p>In this section, we examine the state-of-the-art works on data deduplication in sufficient depth to understand their key and distinguishing features.</p></blockquote><p>本节终于要开始对deduplication的关键技术做详尽的介绍和讨论了。</p><h2 id="A-Chunking"><a href="#A-Chunking" class="headerlink" title="A.Chunking"></a>A.Chunking</h2><p>这部分确实如他所言主要介绍了chunking。它先是介绍了主流的CDC算法Rabin（具体在FastCDC那篇文章介绍过这部分了，这里就不再赘述），然后讲述了Rabin算法的三个主要缺点：chunk size方差大、计算量大、去重检测还不够精确。</p><p>针对这三个缺点，分别有各种文献提出了这几类关键技术（顺序与缺点一一对应）：</p><ol><li><p>Reducing Chunk Size Variance by <strong>Imposing Limits on MAX/MIN Chunk Sizes</strong> for CDC</p><p>当chunk size过大，虽然会加速后续的indexing等步骤，减少space消耗，但是会影响去重率；chunk size过小，虽然会增加去重率，但是会增大后续indexing等步骤的工作量。这又是一个trade-off。</p><p>这里主要介绍了各个主流方法都是怎么限制chunk size的，比如说LBFS简单粗暴，还有别的什么依据极值、非对称滑动窗口等做法。感觉还是FastCDC那个做法更加灵活聪明。</p></li><li><p>Reducing Computation to Accelerate the Chunking Process</p><p>也是有比如说Gear等等算法或者硬件层面上的改进。</p></li><li><p>Improving Duplicate-Detection Accuracy by <strong>Rechunking Nonduplicate Chunks</strong></p><p>这个问题也是比较普遍，比如如图所示的C2和C5之间就可以再做进一步去重：</p><p><img src="/2023/12/10/deduplication_overview/image-20231210235904637.png" alt="image-20231210235904637"></p><p>具体方法有比如说频率分析法选定某些频繁访问的chunk进行rechunking、把几个小的nonduplicate chunk给merge为一个大的然后rechunking等等。</p><p>这个可能对网络场景也有适用，毕竟网络传输也就主要是通过一个个很小的network package数据包。</p></li><li><p>Impact of Interspersed Metadata</p><p>主要是说如果数据集内meta data和主要数据混在一起可能干扰去重，比如说block header、还有tar打包后产生的文件的包含时间戳等信息的file header等等。</p><p>解决方法大概就是预处理之类的。</p></li></ol><h2 id="B-Accelerate-Computational-Tasks"><a href="#B-Accelerate-Computational-Tasks" class="headerlink" title="B. Accelerate Computational Tasks"></a>B. Accelerate Computational Tasks</h2><p>这个部分大概就是提出了两种方法，一个是通过将deduplication system给pipeline了（就是Odess那个做法），然后再结合multithreading来对它进行多线程加速；另一个就是通过开发GPU相关库来对deduplication做支持，从而使用GPGPU架构来进行硬件加速。</p><p><img src="/2023/12/10/deduplication_overview/image-20231211141021880.png" alt="image-20231211141021880"></p><h2 id="C-Indexing"><a href="#C-Indexing" class="headerlink" title="C. Indexing"></a>C. Indexing</h2><p><img src="/2023/12/10/deduplication_overview/image-20231211141035597.png" alt="image-20231211141035597"></p><p>不知道这个indexing是不是就是我们pipeline中的dedup阶段，感觉是的。</p><p>这个阶段面临的问题就是，数据量太大，导致指纹量也很大装不进内存，也就是说可能得根据磁盘中的指纹进行快速的索引。</p><p>indexing大致有两种思路，一个是精准的indexing，另一个就是命中率较低但内存占用也低的indexing。感觉capping有可能也有点后者的感觉（）</p><p>然后目前流行的也是有四类方法：locality-based, similarity-based, flash-assisted, and cluster deduplication approaches。</p><ol><li><p>locality-based</p><p>大概意思就是说利用数据的局部性，每次要某个指纹不是只读它一个，而是顺带把磁盘中这个指纹后面几个也读进内存，磁盘中的也是按照数据局部性存储的。</p><p>除此之外，DDFS结合Bloom filter使用来精准检测重复。</p><blockquote><p> A Bloom filter [22] is a space-efficient data structure that uses a bit array with several independent hash functions to represent membership of a set of items (e.g., fingerprints).</p></blockquote><p>而Sparse indexing则采取“抽样”的方式。</p><p>这个一般用于提高performance。</p></li><li><p>similarity-based</p><p>最常见的方法是用一个fp set的最大值or最小值来表示一个file，然后对这个建立一个主索引。如果两个文件的代表fp相同，那么这两个文件很有可能重复读极高。</p><p>它这里提到了一个比较值得思考的观点：locality-based是利用了physical-locality，similarity-based是利用了logical-locality。前者还是比较容易理解的，因为它要求磁盘中的指纹按局部性存储，后者我是真没明白。。。之后有兴趣再看看相关论文了解一下吧。</p><p>这个一般用于reduce RAM overhead。</p></li><li><p>flash-assisted</p><p>感觉这个没啥特别的，相当于换了个闪存介质而不是磁盘来存储index。</p></li><li><p>Cluster Deduplication</p><p>这个相当于加了层分布式，将输入的数据流分成几个种类（比如说按前缀分）然后送到多个结点上并行地进行去重处理，然后每个结点内部又可以用别的算法了之类的。这就需要涉及到负载均衡、路由算法等等了。</p><p>缺点是可能降低deduplication ratio（可能是因为一些路由算法实现？）。</p></li></ol><h2 id="D-Post-Deduplication-Compression"><a href="#D-Post-Deduplication-Compression" class="headerlink" title="D. Post-Deduplication Compression"></a>D. Post-Deduplication Compression</h2><p><img src="/2023/12/10/deduplication_overview/image-20231212224322111.png" alt="image-20231212224322111"></p><p>不过即便如此，一个chunk内可能还是有一些小地方是dunplicate的（internal redundancy），这时候压缩就大有用处了。并且多个chunk一起压缩，比单个单个压缩的压缩率更高。</p><p>这个还适用于上面说到的一种情况，也即那个用到rechunk的地方，完全可以用delta compression来代替，而且感觉后者可能还更通用（）感觉被薄纱。</p><p>主要面临的挑战来自于这几个方面：resemblance detection, reading base chunks, and delta encoding。</p><ol><li><p>resemblance detection</p><p>目前大概有这几种方法：</p><ol><li>Manber：计算polynomial-based fingerprints，两个文件的相似性取决于它们相同的这个fp的数量。</li><li>superfeature：抽样选取一些Rabin fp作为feature，并把它们合起来成为一个大的superfeature，对这个东西进行index。这个好像应用比较广泛。</li><li>TAPER：每个file都是一个bloom filter，比较filter相同的bit位数。</li></ol></li><li><p>delta encoding</p></li><li><p>Additional Delta Compression Challenges</p></li></ol><h2 id="E-Data-Restore"><a href="#E-Data-Restore" class="headerlink" title="E. Data Restore"></a>E. Data Restore</h2><p>这里笔墨最多的还是在说碎片化问题，同时也简要介绍了去重系统的三个主要应用场景：primary storage、backup storage、cloud storage，以及碎片化问题给它们的薄弱方面的狠狠一击（）</p><ol><li><p>primary storage</p><p>它最主要的问题还是IO-sensitive</p></li><li><p>backup storage</p><p>它最主要的问题是随着备份版本增多碎片化问题的愈发严重</p></li><li><p>cloud storage</p><p>它最主要的问题是速度，其受网络带宽、碎片化的限制。</p></li></ol><h2 id="F-Garbage-Collection"><a href="#F-Garbage-Collection" class="headerlink" title="F. Garbage Collection"></a>F. Garbage Collection</h2><p>这部分也大概是讲了GC常见的两种方法，一个是reference count，另一个是mark &amp; sweep。</p><p>前者需要<strong>inline</strong>地维护refcnt，后者则可以<strong>offline</strong>运行。</p><p>并且在backup system中，GC一般是删除了几个备份版本之后的background process。而在primary storage中，GC通常是inline的。</p>]]></content>
       
       
       
@@ -157,7 +170,7 @@
       <link href="/2023/12/10/deduplication_system_articles/"/>
       <url>/2023/12/10/deduplication_system_articles/</url>
       
-        <content type="html"><![CDATA[<blockquote><p>各个超链接导向对应的文章分链接。</p></blockquote><h1 id="Deduplication"><a href="#Deduplication" class="headerlink" title="Deduplication"></a>Deduplication</h1><h2 id="综述"><a href="#综述" class="headerlink" title="综述"></a><a href="/2023/12/10/deduplication_overview">综述</a></h2><h2 id="Indexing"><a href="#Indexing" class="headerlink" title="Indexing"></a>Indexing</h2><h3 id="sparce-indexing"><a href="#sparce-indexing" class="headerlink" title="sparce indexing"></a>sparce indexing</h3><p>基于chunks的去重都要求使用full index，而这RAM一般承受不起，但是纯用disk io就太慢了。所以它利用了数据局部性：</p><p>If two pieces of backup streams share any chunks, they are likely to share many chunks. <u>如果两个segment共享了某个chunk，那么它们很有可能共享很多chunks。</u></p><p><strong>是这样的流程：</strong></p><ol><li>分段为segment；</li><li>计算该segment的每个chunk的fp，然后对每个chunk查询其对应的sparce indexing table: &lt;fp, segment_id&gt;，记录<u>可能跟它共享很多chunk的segment</u>的segment_id；</li><li>读取这些segment_id对应的segment的chunk indexing table（存储在disk中）；</li><li>for every chunks： 重复，copy entry ；不重复，add to new container</li><li>最后再将该segment的信息写入磁盘，填写sparce indexing表。</li></ol><p>而sparce indexing表最一开始，由对input segment进行chunks的随机抽样得出（或者逐渐构建起来，反正大概是这个意思）</p><p>可以看到，它将segment info保留在disk中，在RAM中只保留fp2seg_id的映射，每次只需简单从磁盘中读取几个segment info即可，利用数据局部性极大地降低了磁盘IO次数。</p><p>Odess采用的就是类似这种capping+sparce indexing的方法。</p><p>将sparce indexing从原来的&lt;fp, seg_id&gt;改为&lt;fp, cid&gt;，并且每次只取top T个包含sample chunks最多的容器，从而将对segment进行cap修改为对container进行cap。仔细想想，这样确实依然保证了原算法的核心思想，也属于是segment size = container size的特种了。</p><p>不这个&lt;fp, cid&gt;不就是Odess中的recipe（或者说是全局指纹表）吗？乐。Odess也确实体现了这种capping+sparce indexing结合的方法【只不过进行简化了，每个chunk固定取其第一个container】。</p><h2 id="Chunking"><a href="#Chunking" class="headerlink" title="Chunking"></a>Chunking</h2><h3 id="FastCDC"><a href="#FastCDC" class="headerlink" title="FastCDC"></a><a href="/2023/12/08/fastcdc">FastCDC</a></h3><h2 id="Fragment"><a href="#Fragment" class="headerlink" title="Fragment"></a>Fragment</h2><h3 id="data-layout"><a href="#data-layout" class="headerlink" title="data layout"></a>data layout</h3><h4 id="MFDedup"><a href="#MFDedup" class="headerlink" title="MFDedup"></a><a href="/2023/10/11/MFDedup">MFDedup</a></h4><p>有机会可以再看看代码实现。</p><h3 id="rewrite"><a href="#rewrite" class="headerlink" title="rewrite"></a>rewrite</h3><h4 id="capping"><a href="#capping" class="headerlink" title="capping"></a><a href="/2024/01/07/Capping">capping</a></h4><p>这篇文章的测试做得很友好很完善，值得精读。</p><p>对stream进行分段为segment；限制每个版本的容器数（主要是指引用的旧容器数）；将那些包含重复块rate较小的容器所包含的重复块视为unique block进行rewrite。</p><h4 id="SMR-amp-amp-DePFC"><a href="#SMR-amp-amp-DePFC" class="headerlink" title="SMR &amp;&amp; DePFC"></a><a href="/2024/05/11/SMR_DePFC">SMR &amp;&amp; DePFC</a></h4><p>非常impressive的两个方法</p><h1 id="Restore"><a href="#Restore" class="headerlink" title="Restore"></a>Restore</h1><h2 id="cache"><a href="#cache" class="headerlink" title="cache"></a>cache</h2><h2 id="recipe"><a href="#recipe" class="headerlink" title="recipe"></a>recipe</h2><h3 id="forward-assembly"><a href="#forward-assembly" class="headerlink" title="forward-assembly"></a>forward-assembly</h3><h3 id="OdessStorage"><a href="#OdessStorage" class="headerlink" title="OdessStorage"></a>OdessStorage</h3><h1 id="GC"><a href="#GC" class="headerlink" title="GC"></a><a href="/2023/12/09/deduplication_GC">GC</a></h1>]]></content>
+        <content type="html"><![CDATA[<blockquote><p>各个超链接导向对应的文章分链接。</p></blockquote><h1 id="综述"><a href="#综述" class="headerlink" title="综述"></a><a href="/2023/12/10/deduplication_overview">综述</a></h1><h1 id="Indexing"><a href="#Indexing" class="headerlink" title="Indexing"></a><a href="/2023/11/11/Indexing">Indexing</a></h1><h1 id="Chunking"><a href="#Chunking" class="headerlink" title="Chunking"></a>Chunking</h1><h2 id="FastCDC"><a href="#FastCDC" class="headerlink" title="FastCDC"></a><a href="/2023/12/08/fastcdc">FastCDC</a></h2><h1 id="Fragment"><a href="#Fragment" class="headerlink" title="Fragment"></a>Fragment</h1><h2 id="data-layout"><a href="#data-layout" class="headerlink" title="data layout"></a>data layout</h2><h3 id="MFDedup"><a href="#MFDedup" class="headerlink" title="MFDedup"></a><a href="/2023/10/11/MFDedup">MFDedup</a></h3><h2 id="Rewriting"><a href="#Rewriting" class="headerlink" title="Rewriting"></a><a href="/2024/05/11/Rewriting">Rewriting</a></h2><h1 id="GC"><a href="#GC" class="headerlink" title="GC"></a><a href="/2023/12/09/deduplication_GC">GC</a></h1>]]></content>
       
       
       
@@ -230,6 +243,19 @@
     
     
     
+    <entry>
+      <title>Indexing</title>
+      <link href="/2023/11/11/Indexing/"/>
+      <url>/2023/11/11/Indexing/</url>
+      
+        <content type="html"><![CDATA[<h2 id="sparce-indexing"><a href="#sparce-indexing" class="headerlink" title="sparce indexing"></a>sparce indexing</h2><p>基于chunks的去重都要求使用full index，而这RAM一般承受不起，但是纯用disk io就太慢了。所以它利用了数据局部性：</p><p>If two pieces of backup streams share any chunks, they are likely to share many chunks. <u>如果两个segment共享了某个chunk，那么它们很有可能共享很多chunks。</u></p><p><strong>是这样的流程：</strong></p><ol><li>分段为segment；</li><li>计算该segment的每个chunk的fp，然后对每个chunk查询其对应的sparce indexing table: &lt;fp, segment_id&gt;，记录<u>可能跟它共享很多chunk的segment</u>的segment_id；</li><li>读取这些segment_id对应的segment的chunk indexing table（存储在disk中）；</li><li>for every chunks： 重复，copy entry ；不重复，add to new container</li><li>最后再将该segment的信息写入磁盘，填写sparce indexing表。</li></ol><p>而sparce indexing表最一开始，由对input segment进行chunks的随机抽样得出（或者逐渐构建起来，反正大概是这个意思）</p><p>可以看到，它将segment info保留在disk中，在RAM中只保留fp2seg_id的映射，每次只需简单从磁盘中读取几个segment info即可，利用数据局部性极大地降低了磁盘IO次数。</p><p>Odess采用的就是类似这种capping+sparce indexing的方法。</p><p>将sparce indexing从原来的&lt;fp, seg_id&gt;改为&lt;fp, cid&gt;，并且每次只取top T个包含sample chunks最多的容器，从而将对segment进行cap修改为对container进行cap。仔细想想，这样确实依然保证了原算法的核心思想，也属于是segment size = container size的特种了。</p><p>不这个&lt;fp, cid&gt;不就是Odess中的recipe（或者说是全局指纹表）吗？乐。Odess也确实体现了这种capping+sparce indexing结合的方法【只不过进行简化了，每个chunk固定取其第一个container】。</p>]]></content>
+      
+      
+      
+    </entry>
+    
+    
+    
     <entry>
       <title>驱动开发小记</title>
       <link href="/2023/10/27/driver_develop/"/>