From c77a94516d48bcd9e9c64c83a5f7cffe72e6e435 Mon Sep 17 00:00:00 2001
From: Xavier GUIHOT <x.guihot@gmail.com>
Date: Sun, 24 Jun 2018 11:33:36 +0100
Subject: [PATCH] Pimp RDD with minBy/maxBy and key/value RDD with
 min/maxByKey/Value

---
 README.md                                     |  3 +
 .../SparkHelper$$PairRDDExtensions.html       | 76 +++++++++++++++++++
 .../SparkHelper$$RDDExtensions.html           | 38 ++++++++++
 docs/com/spark_helper/SparkHelper$.html       |  5 +-
 docs/com/spark_helper/package.html            |  5 +-
 docs/index/index-m.html                       | 18 +++++
 .../scala/com/spark_helper/SparkHelper.scala  | 59 ++++++++++++++
 .../com/spark_helper/SparkHelperTest.scala    | 43 +++++++++++
 8 files changed, 245 insertions(+), 2 deletions(-)
diff --git a/README.md b/README.md
index 4c204b5..857f425 100644
--- a/README.md
+++ b/README.md
@@ -133,6 +133,9 @@ rdd.toList // equivalent to rdd.collect.toList - alias: rdd.collectAsList
 rdd.toMap // RDD((1, "a"), (2, "b"), (2, "c")) => Map((1, "a"), (2, "c"))
 rdd.duplicates // RDD(1, 3, 2, 1, 7, 8, 8, 1, 2) => RDD(1, 2, 8)
 rdd.reduceWithCount // RDD("a", "b", "c", "a", "d", "a", "c") => RDD(("a", 3), ("b", 1), ("c", 2), ("d", 1))
+rdd.maxBy(_._2) // RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")) => (2, "c") or (4, "c")
+rdd.minBy(_._2) // RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")) => (1, "a")
+rdd.maxByKey; rdd.minByKey; rdd.maxByValue, ... // RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")).maxByKey => (4, "c")
 
 ```
 
diff --git a/docs/com/spark_helper/SparkHelper$$PairRDDExtensions.html b/docs/com/spark_helper/SparkHelper$$PairRDDExtensions.html
index 41cb52e..cb8a426 100644
--- a/docs/com/spark_helper/SparkHelper$$PairRDDExtensions.html
+++ b/docs/com/spark_helper/SparkHelper$$PairRDDExtensions.html
@@ -347,6 +347,82 @@ <h4 class="signature">
       </a>
     </span>
       <div class="fullcomment"><dl class="attributes block"> <dt>Definition Classes</dt><dd>Any</dd></dl></div>
+    </li><li name="com.spark_helper.SparkHelper.PairRDDExtensions#maxByKey" visbl="pub" data-isabs="false" fullComment="yes" group="Ungrouped">
+      <a id="maxByKey()(implicitord:Ordering[K]):(K,V)"></a>
+      <a id="maxByKey()(Ordering[K]):(K,V)"></a>
+      <h4 class="signature">
+      <span class="modifier_kind">
+        <span class="modifier"></span>
+        <span class="kind">def</span>
+      </span>
+      <span class="symbol">
+        <span class="name">maxByKey</span><span class="params">()</span><span class="params">(<span class="implicit">implicit </span><span name="ord">ord: <span class="extype" name="scala.Ordering">Ordering</span>[<span class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions.K">K</span>]</span>)</span><span class="result">: (<span class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions.K">K</span>, <span class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions.V">V</span>)</span>
+      </span>
+      </h4><span class="permalink">
+      <a href="../../index.html#com.spark_helper.SparkHelper$$PairRDDExtensions@maxByKey()(implicitord:Ordering[K]):(K,V)" title="Permalink" target="_top">
+        <img src="../../lib/permalink.png" alt="Permalink" />
+      </a>
+    </span>
+      <p class="shortcomment cmt">Returns the element of this RDD with the largest key as defined by the
+implicit Ordering[K].</p><div class="fullcomment"><div class="comment cmt"><p>Returns the element of this RDD with the largest key as defined by the
+implicit Ordering[K].</p><pre>RDD((<span class="num">1</span>, <span class="lit">"a"</span>), (<span class="num">2</span>, <span class="lit">"c"</span>), (<span class="num">3</span>, <span class="lit">"b"</span>), (<span class="num">4</span>, <span class="lit">"c"</span>)).maxByKey <span class="cmt">// (4, "c")</span></pre></div><dl class="paramcmts block"><dt>returns</dt><dd class="cmt"><p>the element with the largest key</p></dd></dl></div>
+    </li><li name="com.spark_helper.SparkHelper.PairRDDExtensions#maxByValue" visbl="pub" data-isabs="false" fullComment="yes" group="Ungrouped">
+      <a id="maxByValue()(implicitord:Ordering[V]):(K,V)"></a>
+      <a id="maxByValue()(Ordering[V]):(K,V)"></a>
+      <h4 class="signature">
+      <span class="modifier_kind">
+        <span class="modifier"></span>
+        <span class="kind">def</span>
+      </span>
+      <span class="symbol">
+        <span class="name">maxByValue</span><span class="params">()</span><span class="params">(<span class="implicit">implicit </span><span name="ord">ord: <span class="extype" name="scala.Ordering">Ordering</span>[<span class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions.V">V</span>]</span>)</span><span class="result">: (<span class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions.K">K</span>, <span class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions.V">V</span>)</span>
+      </span>
+      </h4><span class="permalink">
+      <a href="../../index.html#com.spark_helper.SparkHelper$$PairRDDExtensions@maxByValue()(implicitord:Ordering[V]):(K,V)" title="Permalink" target="_top">
+        <img src="../../lib/permalink.png" alt="Permalink" />
+      </a>
+    </span>
+      <p class="shortcomment cmt">Returns the element of this RDD with the largest value as defined by the
+implicit Ordering[V].</p><div class="fullcomment"><div class="comment cmt"><p>Returns the element of this RDD with the largest value as defined by the
+implicit Ordering[V].</p><pre>RDD((<span class="num">1</span>, <span class="lit">"a"</span>), (<span class="num">2</span>, <span class="lit">"c"</span>), (<span class="num">3</span>, <span class="lit">"b"</span>), (<span class="num">4</span>, <span class="lit">"c"</span>)).maxByValue <span class="cmt">// (2, "c") or (4, "c")</span></pre></div><dl class="paramcmts block"><dt>returns</dt><dd class="cmt"><p>the element with the largest value</p></dd></dl></div>
+    </li><li name="com.spark_helper.SparkHelper.PairRDDExtensions#minByKey" visbl="pub" data-isabs="false" fullComment="yes" group="Ungrouped">
+      <a id="minByKey()(implicitord:Ordering[K]):(K,V)"></a>
+      <a id="minByKey()(Ordering[K]):(K,V)"></a>
+      <h4 class="signature">
+      <span class="modifier_kind">
+        <span class="modifier"></span>
+        <span class="kind">def</span>
+      </span>
+      <span class="symbol">
+        <span class="name">minByKey</span><span class="params">()</span><span class="params">(<span class="implicit">implicit </span><span name="ord">ord: <span class="extype" name="scala.Ordering">Ordering</span>[<span class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions.K">K</span>]</span>)</span><span class="result">: (<span class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions.K">K</span>, <span class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions.V">V</span>)</span>
+      </span>
+      </h4><span class="permalink">
+      <a href="../../index.html#com.spark_helper.SparkHelper$$PairRDDExtensions@minByKey()(implicitord:Ordering[K]):(K,V)" title="Permalink" target="_top">
+        <img src="../../lib/permalink.png" alt="Permalink" />
+      </a>
+    </span>
+      <p class="shortcomment cmt">Returns the element of this RDD with the smallest key as defined by the
+implicit Ordering[T].</p><div class="fullcomment"><div class="comment cmt"><p>Returns the element of this RDD with the smallest key as defined by the
+implicit Ordering[T].</p><pre>RDD((<span class="num">1</span>, <span class="lit">"a"</span>), (<span class="num">2</span>, <span class="lit">"c"</span>), (<span class="num">3</span>, <span class="lit">"b"</span>), (<span class="num">4</span>, <span class="lit">"c"</span>)).minByKey <span class="cmt">// (1, "a")</span></pre></div><dl class="paramcmts block"><dt>returns</dt><dd class="cmt"><p>the element with the smallest key</p></dd></dl></div>
+    </li><li name="com.spark_helper.SparkHelper.PairRDDExtensions#minByValue" visbl="pub" data-isabs="false" fullComment="yes" group="Ungrouped">
+      <a id="minByValue()(implicitord:Ordering[V]):(K,V)"></a>
+      <a id="minByValue()(Ordering[V]):(K,V)"></a>
+      <h4 class="signature">
+      <span class="modifier_kind">
+        <span class="modifier"></span>
+        <span class="kind">def</span>
+      </span>
+      <span class="symbol">
+        <span class="name">minByValue</span><span class="params">()</span><span class="params">(<span class="implicit">implicit </span><span name="ord">ord: <span class="extype" name="scala.Ordering">Ordering</span>[<span class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions.V">V</span>]</span>)</span><span class="result">: (<span class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions.K">K</span>, <span class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions.V">V</span>)</span>
+      </span>
+      </h4><span class="permalink">
+      <a href="../../index.html#com.spark_helper.SparkHelper$$PairRDDExtensions@minByValue()(implicitord:Ordering[V]):(K,V)" title="Permalink" target="_top">
+        <img src="../../lib/permalink.png" alt="Permalink" />
+      </a>
+    </span>
+      <p class="shortcomment cmt">Returns the element of this RDD with the smallest value as defined by
+the implicit Ordering[V].</p><div class="fullcomment"><div class="comment cmt"><p>Returns the element of this RDD with the smallest value as defined by
+the implicit Ordering[V].</p><pre>RDD((<span class="num">1</span>, <span class="lit">"a"</span>), (<span class="num">2</span>, <span class="lit">"c"</span>), (<span class="num">3</span>, <span class="lit">"b"</span>), (<span class="num">4</span>, <span class="lit">"c"</span>)).minByValue <span class="cmt">// (1, "a")</span></pre></div><dl class="paramcmts block"><dt>returns</dt><dd class="cmt"><p>the element with the smallest value</p></dd></dl></div>
     </li><li name="scala.AnyRef#ne" visbl="pub" data-isabs="false" fullComment="yes" group="Ungrouped">
       <a id="ne(x$1:AnyRef):Boolean"></a>
       <a id="ne(AnyRef):Boolean"></a>
diff --git a/docs/com/spark_helper/SparkHelper$$RDDExtensions.html b/docs/com/spark_helper/SparkHelper$$RDDExtensions.html
index a206659..5248400 100644
--- a/docs/com/spark_helper/SparkHelper$$RDDExtensions.html
+++ b/docs/com/spark_helper/SparkHelper$$RDDExtensions.html
@@ -367,6 +367,44 @@ <h4 class="signature">
       </a>
     </span>
       <div class="fullcomment"><dl class="attributes block"> <dt>Definition Classes</dt><dd>Any</dd></dl></div>
+    </li><li name="com.spark_helper.SparkHelper.RDDExtensions#maxBy" visbl="pub" data-isabs="false" fullComment="yes" group="Ungrouped">
+      <a id="maxBy[U](f:T=&gt;U)(implicitord:Ordering[U]):T"></a>
+      <a id="maxBy[U]((T)⇒U)(Ordering[U]):T"></a>
+      <h4 class="signature">
+      <span class="modifier_kind">
+        <span class="modifier"></span>
+        <span class="kind">def</span>
+      </span>
+      <span class="symbol">
+        <span class="name">maxBy</span><span class="tparams">[<span name="U">U</span>]</span><span class="params">(<span name="f">f: (<span class="extype" name="com.spark_helper.SparkHelper.RDDExtensions.T">T</span>) ⇒ <span class="extype" name="com.spark_helper.SparkHelper.RDDExtensions.maxBy.U">U</span></span>)</span><span class="params">(<span class="implicit">implicit </span><span name="ord">ord: <span class="extype" name="scala.Ordering">Ordering</span>[<span class="extype" name="com.spark_helper.SparkHelper.RDDExtensions.maxBy.U">U</span>]</span>)</span><span class="result">: <span class="extype" name="com.spark_helper.SparkHelper.RDDExtensions.T">T</span></span>
+      </span>
+      </h4><span class="permalink">
+      <a href="../../index.html#com.spark_helper.SparkHelper$$RDDExtensions@maxBy[U](f:T=&gt;U)(implicitord:Ordering[U]):T" title="Permalink" target="_top">
+        <img src="../../lib/permalink.png" alt="Permalink" />
+      </a>
+    </span>
+      <p class="shortcomment cmt">Returns the max of this RDD by the given predicate as defined by the
+implicit Ordering[T].</p><div class="fullcomment"><div class="comment cmt"><p>Returns the max of this RDD by the given predicate as defined by the
+implicit Ordering[T].</p><pre>RDD((<span class="num">1</span>, <span class="lit">"a"</span>), (<span class="num">2</span>, <span class="lit">"c"</span>), (<span class="num">3</span>, <span class="lit">"b"</span>), (<span class="num">4</span>, <span class="lit">"c"</span>)).maxBy(_._2) <span class="cmt">// (2, "c") or (4, "c")</span></pre></div><dl class="paramcmts block"><dt>returns</dt><dd class="cmt"><p>the max of this RDD by the given predicate</p></dd></dl></div>
+    </li><li name="com.spark_helper.SparkHelper.RDDExtensions#minBy" visbl="pub" data-isabs="false" fullComment="yes" group="Ungrouped">
+      <a id="minBy[U](f:T=&gt;U)(implicitord:Ordering[U]):T"></a>
+      <a id="minBy[U]((T)⇒U)(Ordering[U]):T"></a>
+      <h4 class="signature">
+      <span class="modifier_kind">
+        <span class="modifier"></span>
+        <span class="kind">def</span>
+      </span>
+      <span class="symbol">
+        <span class="name">minBy</span><span class="tparams">[<span name="U">U</span>]</span><span class="params">(<span name="f">f: (<span class="extype" name="com.spark_helper.SparkHelper.RDDExtensions.T">T</span>) ⇒ <span class="extype" name="com.spark_helper.SparkHelper.RDDExtensions.minBy.U">U</span></span>)</span><span class="params">(<span class="implicit">implicit </span><span name="ord">ord: <span class="extype" name="scala.Ordering">Ordering</span>[<span class="extype" name="com.spark_helper.SparkHelper.RDDExtensions.minBy.U">U</span>]</span>)</span><span class="result">: <span class="extype" name="com.spark_helper.SparkHelper.RDDExtensions.T">T</span></span>
+      </span>
+      </h4><span class="permalink">
+      <a href="../../index.html#com.spark_helper.SparkHelper$$RDDExtensions@minBy[U](f:T=&gt;U)(implicitord:Ordering[U]):T" title="Permalink" target="_top">
+        <img src="../../lib/permalink.png" alt="Permalink" />
+      </a>
+    </span>
+      <p class="shortcomment cmt">Returns the min of this RDD by the given predicate as defined by the
+implicit Ordering[T].</p><div class="fullcomment"><div class="comment cmt"><p>Returns the min of this RDD by the given predicate as defined by the
+implicit Ordering[T].</p><pre>RDD((<span class="num">1</span>, <span class="lit">"a"</span>), (<span class="num">2</span>, <span class="lit">"c"</span>), (<span class="num">3</span>, <span class="lit">"b"</span>), (<span class="num">4</span>, <span class="lit">"c"</span>)).minBy(_._2) <span class="cmt">// (1, "a")</span></pre></div><dl class="paramcmts block"><dt>returns</dt><dd class="cmt"><p>the min of this RDD by the given predicate</p></dd></dl></div>
     </li><li name="scala.AnyRef#ne" visbl="pub" data-isabs="false" fullComment="yes" group="Ungrouped">
       <a id="ne(x$1:AnyRef):Boolean"></a>
       <a id="ne(AnyRef):Boolean"></a>
diff --git a/docs/com/spark_helper/SparkHelper$.html b/docs/com/spark_helper/SparkHelper$.html
index 748b917..338143b 100644
--- a/docs/com/spark_helper/SparkHelper$.html
+++ b/docs/com/spark_helper/SparkHelper$.html
@@ -90,7 +90,10 @@ <h4 id="signature" class="signature">
 rdd.toList <span class="cmt">// equivalent to rdd.collect.toList - alias: rdd.collectAsList</span>
 rdd.toMap <span class="cmt">// RDD((1, "a"), (2, "b"), (2, "c")) => Map((1, "a"), (2, "c"))</span>
 rdd.duplicates <span class="cmt">// RDD(1, 3, 2, 1, 7, 8, 8, 1, 2) => RDD(1, 2, 8)</span>
-rdd.reduceWithCount <span class="cmt">// RDD("a", "b", "c", "a", "d", "a", "c") => RDD(("a", 3), ("b", 1), ("c", 2), ("d", 1))</span></pre><p>Source <a href="https://github.com/xavierguihot/spark_helper/blob/master/src
+rdd.reduceWithCount <span class="cmt">// RDD("a", "b", "c", "a", "d", "a", "c") => RDD(("a", 3), ("b", 1), ("c", 2), ("d", 1))</span>
+rdd.maxBy(_._2) <span class="cmt">// RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")) => (2, "c") or (4, "c")</span>
+rdd.minBy(_._2) <span class="cmt">// RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")) => (1, "a")</span>
+rdd.maxByKey; rdd.minByKey; rdd.maxByValue, ... <span class="cmt">// RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")).maxByKey => (4, "c")</span></pre><p>Source <a href="https://github.com/xavierguihot/spark_helper/blob/master/src
 /main/scala/com/spark_helper/SparkHelper.scala">SparkHelper</a>
 </p></div><dl class="attributes block"> <dt>Since</dt><dd><p>2017-02</p></dd><dt>To do</dt><dd><span class="cmt"><p>sc.parallelize[T](elmts: T*) instead of sc.parallelize[T](elmts: Array[T])</p></span></dd></dl><div class="toggleContainer block">
           <span class="toggle">Linear Supertypes</span>
diff --git a/docs/com/spark_helper/package.html b/docs/com/spark_helper/package.html
index b376ec6..f08d516 100644
--- a/docs/com/spark_helper/package.html
+++ b/docs/com/spark_helper/package.html
@@ -344,7 +344,10 @@ <h4 class="signature">
 rdd.toList <span class="cmt">// equivalent to rdd.collect.toList - alias: rdd.collectAsList</span>
 rdd.toMap <span class="cmt">// RDD((1, "a"), (2, "b"), (2, "c")) => Map((1, "a"), (2, "c"))</span>
 rdd.duplicates <span class="cmt">// RDD(1, 3, 2, 1, 7, 8, 8, 1, 2) => RDD(1, 2, 8)</span>
-rdd.reduceWithCount <span class="cmt">// RDD("a", "b", "c", "a", "d", "a", "c") => RDD(("a", 3), ("b", 1), ("c", 2), ("d", 1))</span></pre><p>Source <a href="https://github.com/xavierguihot/spark_helper/blob/master/src
+rdd.reduceWithCount <span class="cmt">// RDD("a", "b", "c", "a", "d", "a", "c") => RDD(("a", 3), ("b", 1), ("c", 2), ("d", 1))</span>
+rdd.maxBy(_._2) <span class="cmt">// RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")) => (2, "c") or (4, "c")</span>
+rdd.minBy(_._2) <span class="cmt">// RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")) => (1, "a")</span>
+rdd.maxByKey; rdd.minByKey; rdd.maxByValue, ... <span class="cmt">// RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")).maxByKey => (4, "c")</span></pre><p>Source <a href="https://github.com/xavierguihot/spark_helper/blob/master/src
 /main/scala/com/spark_helper/SparkHelper.scala">SparkHelper</a>
 </p></div><dl class="attributes block"> <dt>Since</dt><dd><p>2017-02</p></dd><dt>To do</dt><dd><span class="cmt"><p>sc.parallelize[T](elmts: T*) instead of sc.parallelize[T](elmts: Array[T])</p></span></dd></dl></div>
     </li><li name="com.spark_helper.monitoring" visbl="pub" data-isabs="false" fullComment="no" group="Ungrouped">
diff --git a/docs/index/index-m.html b/docs/index/index-m.html
index aba778b..c58f225 100644
--- a/docs/index/index-m.html
+++ b/docs/index/index-m.html
@@ -13,6 +13,24 @@
         <body><div class="entry">
       <div class="name">Monitor</div>
       <div class="occurrences"><a href="../com/spark_helper/package.html" class="extype" name="com.spark_helper">spark_helper</a> </div>
+    </div><div class="entry">
+      <div class="name">maxBy</div>
+      <div class="occurrences"><a href="../com/spark_helper/SparkHelper$$RDDExtensions.html" class="extype" name="com.spark_helper.SparkHelper.RDDExtensions">RDDExtensions</a> </div>
+    </div><div class="entry">
+      <div class="name">maxByKey</div>
+      <div class="occurrences"><a href="../com/spark_helper/SparkHelper$$PairRDDExtensions.html" class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions">PairRDDExtensions</a> </div>
+    </div><div class="entry">
+      <div class="name">maxByValue</div>
+      <div class="occurrences"><a href="../com/spark_helper/SparkHelper$$PairRDDExtensions.html" class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions">PairRDDExtensions</a> </div>
+    </div><div class="entry">
+      <div class="name">minBy</div>
+      <div class="occurrences"><a href="../com/spark_helper/SparkHelper$$RDDExtensions.html" class="extype" name="com.spark_helper.SparkHelper.RDDExtensions">RDDExtensions</a> </div>
+    </div><div class="entry">
+      <div class="name">minByKey</div>
+      <div class="occurrences"><a href="../com/spark_helper/SparkHelper$$PairRDDExtensions.html" class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions">PairRDDExtensions</a> </div>
+    </div><div class="entry">
+      <div class="name">minByValue</div>
+      <div class="occurrences"><a href="../com/spark_helper/SparkHelper$$PairRDDExtensions.html" class="extype" name="com.spark_helper.SparkHelper.PairRDDExtensions">PairRDDExtensions</a> </div>
     </div><div class="entry">
       <div class="name">monitoring</div>
       <div class="occurrences"><a href="../com/spark_helper/package.html" class="extype" name="com.spark_helper">spark_helper</a> </div>
diff --git a/src/main/scala/com/spark_helper/SparkHelper.scala b/src/main/scala/com/spark_helper/SparkHelper.scala
index e3444ff..d0a9a0a 100644
--- a/src/main/scala/com/spark_helper/SparkHelper.scala
+++ b/src/main/scala/com/spark_helper/SparkHelper.scala
@@ -66,6 +66,9 @@ import scala.util.Random
   * rdd.toMap // RDD((1, "a"), (2, "b"), (2, "c")) => Map((1, "a"), (2, "c"))
   * rdd.duplicates // RDD(1, 3, 2, 1, 7, 8, 8, 1, 2) => RDD(1, 2, 8)
   * rdd.reduceWithCount // RDD("a", "b", "c", "a", "d", "a", "c") => RDD(("a", 3), ("b", 1), ("c", 2), ("d", 1))
+  * rdd.maxBy(_._2) // RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")) => (2, "c") or (4, "c")
+  * rdd.minBy(_._2) // RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")) => (1, "a")
+  * rdd.maxByKey; rdd.minByKey; rdd.maxByValue, ... // RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")).maxByKey => (4, "c")
   * }}}
   *
   * Source <a href="https://github.com/xavierguihot/spark_helper/blob/master/src
@@ -175,6 +178,26 @@ object SparkHelper extends Serializable {
       * */
     def duplicates(): RDD[T] =
       rdd.reduceWithCount().collect { case (x, count) if count != 1L => x }
+
+    /** Returns the max of this RDD by the given predicate as defined by the
+      * implicit Ordering[T].
+      *
+      * {{{ RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")).maxBy(_._2) // (2, "c") or (4, "c") }}}
+      *
+      * @return the max of this RDD by the given predicate
+      * */
+    def maxBy[U](f: T => U)(implicit ord: Ordering[U]): T =
+      rdd.reduce { case (x, y) => if (ord.compare(f(x), f(y)) > 0) x else y }
+
+    /** Returns the min of this RDD by the given predicate as defined by the
+      * implicit Ordering[T].
+      *
+      * {{{ RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")).minBy(_._2) // (1, "a") }}}
+      *
+      * @return the min of this RDD by the given predicate
+      * */
+    def minBy[U](f: T => U)(implicit ord: Ordering[U]): T =
+      rdd.reduce { case (x, y) => if (ord.compare(f(x), f(y)) > 0) y else x }
   }
 
   implicit class StringRDDExtensions(rdd: RDD[String]) {
@@ -423,6 +446,42 @@ object SparkHelper extends Serializable {
       * @return the collected Map version of the RDD on the driver
       */
     def toMap: Map[K, V] = rdd.collect().toMap
+
+    /** Returns the element of this RDD with the largest key as defined by the
+      * implicit Ordering[K].
+      *
+      * {{{ RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")).maxByKey // (4, "c") }}}
+      *
+      * @return the element with the largest key
+      */
+    def maxByKey()(implicit ord: Ordering[K]): (K, V) = rdd.maxBy(_._1)(ord)
+
+    /** Returns the element of this RDD with the smallest key as defined by the
+      * implicit Ordering[T].
+      *
+      * {{{ RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")).minByKey // (1, "a") }}}
+      *
+      * @return the element with the smallest key
+      */
+    def minByKey()(implicit ord: Ordering[K]): (K, V) = rdd.minBy(_._1)(ord)
+
+    /** Returns the element of this RDD with the largest value as defined by the
+      * implicit Ordering[V].
+      *
+      * {{{ RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")).maxByValue // (2, "c") or (4, "c") }}}
+      *
+      * @return the element with the largest value
+      */
+    def maxByValue()(implicit ord: Ordering[V]): (K, V) = rdd.maxBy(_._2)(ord)
+
+    /** Returns the element of this RDD with the smallest value as defined by
+      * the implicit Ordering[V].
+      *
+      * {{{ RDD((1, "a"), (2, "c"), (3, "b"), (4, "c")).minByValue // (1, "a") }}}
+      *
+      * @return the element with the smallest value
+      */
+    def minByValue()(implicit ord: Ordering[V]): (K, V) = rdd.minBy(_._2)(ord)
   }
 
   implicit class StringPairRDDExtensions(rdd: RDD[(String, String)]) {
diff --git a/src/test/scala/com/spark_helper/SparkHelperTest.scala b/src/test/scala/com/spark_helper/SparkHelperTest.scala
index 0fd9da8..0437b9d 100644
--- a/src/test/scala/com/spark_helper/SparkHelperTest.scala
+++ b/src/test/scala/com/spark_helper/SparkHelperTest.scala
@@ -4,6 +4,8 @@ import com.spark_helper.SparkHelper._
 
 import org.apache.hadoop.io.compress.GzipCodec
 
+import scala.math.Ordering.{String => StringOrdering}
+
 import com.holdenkarau.spark.testing.{SharedSparkContext, RDDComparisons}
 
 import org.scalatest.FunSuite
@@ -447,6 +449,47 @@ class SparkHelperTest
     val out = sc.parallelize(Array(1, 2, 8))
     assertRDDEquals(in.duplicates(), out)
   }
+
+  test("Max by") {
+    // 1:
+    val in = sc.parallelize(Array((1, "a"), (2, "c"), (3, "b"), (4, "c")))
+    assert(Set((2, "c"), (4, "c")).contains(in.maxBy(_._2)))
+    // 2:
+    assert(in.maxBy(_._2)(WeirdOrdering) === (3, "b"))
+    // 3:
+    val message = intercept[UnsupportedOperationException] {
+      sc.emptyRDD[(String, Int)].maxBy(_._2)
+    }.getMessage
+    assert(message === "empty collection")
+  }
+
+  test("Min by") {
+    // 1:
+    val in = sc.parallelize(Array((1, "a"), (2, "c"), (3, "b"), (4, "c")))
+    assert(in.minBy(_._2) === (1, "a"))
+    // 2:
+    assert(in.minBy(_._2)(WeirdOrdering) === (1, "a"))
+    // 3:
+    val message = intercept[UnsupportedOperationException] {
+      sc.emptyRDD[(String, Int)].minBy(_._2)
+    }.getMessage
+    assert(message === "empty collection")
+  }
+
+  test("Min/max by key/value") {
+    val in = sc.parallelize(Array((1, "a"), (2, "c"), (3, "b"), (4, "c")))
+    assert(in.maxByKey() === (4, "c"))
+    assert(in.minByKey() === (1, "a"))
+    assert(Set((2, "c"), (4, "c")).contains(in.maxByValue()))
+    assert(in.minByValue() === (1, "a"))
+  }
 }
 
 case class A(x: Int, y: String)
+
+object WeirdOrdering extends Ordering[String] {
+  def compare(a: String, b: String): Int =
+    if (a == "b") Int.MaxValue
+    else if (b == "b") -Int.MaxValue
+    else StringOrdering.compare(a, b)
+}