Basic of BigData 목차 정리 및 내용 수정

DeepFlame-JR · DeepFlame-JR · commit a919ff8f3003 · 2022-08-22T21:39:44.000+09:00
diff --git a/BigData/1_Basic_of_BigData.md b/BigData/1_Basic_of_BigData.md
@@ -10,7 +10,24 @@
 <br/>
 <br/>
 
-# 빅데이터의 기초 지식
+# 목차
+- [빅데이터의 기초 지식](#1-빅데이터의-기초-지식)
+  * [1. 빅데이터의 정착](#1-빅데이터의-정착)
+    + [빅데이터 기술의 요구 (Hadoop, No SQL, DW)](#빅데이터-기술의-요구-hadoop-no-sql-dw)
+      - [Hadoop](#hadoop)
+      - [No SQL](#no-sql)
+      - [Data Warehouse(DW)](#data-warehousedw)
+  * [2. 데이터 분석 기반의 빅데이터](#2-데이터-분석-기반의-빅데이터)
+    + [데이터 파이프라인](#데이터-파이프라인)
+    + [DW와 데이터 마트](#dw와-데이터-마트)
+    + [Data Lake](#data-lake)
+    + [ETL vs ELT](#etl-vs-elt)
+
+<br/>
+<br/>
+<br/>
+
+# 1. 빅데이터의 기초 지식
 
 ## 1. 빅데이터의 정착
 '빅데이터'의 역사에 대해 알아보자
@@ -23,9 +40,6 @@
 - 다수의 컴퓨터에서 대량의 데이터 처리
 - 초기 `MapReduce`를 참고하여 제작됨
 - `Java`로 개발되어 SQL에 익숙한 분석가가 활용하기 어려웠음 → Hive 도입
-    - Java의 GC가 가장 성능이 좋음 (빅데이터를 다루기에 메모리 관점 중요)
-    - Java가 디버깅이 쉬움
-    - Hadoop이 Nutch 프로그램에서 발전 되었는데, 그것이 Java 기반
 
 ```
 Why Hadoop? 🤔
@@ -46,6 +60,14 @@ Why Hadoop? 🤔
 데이터를 소비자에게 데이터의 성질을 맡기는 시스템. (데이터로 뭘하기 전까진 데이터로 무엇을 할지 정확히 알 수 없다.)
 ```
 
+```
+Why Java? 🤔
+1. Java의 GC가 가장 성능이 좋음 (빅데이터를 다루기에 메모리 관점 중요)
+2. Java가 디버깅이 쉬움
+3. Hadoop이 Nutch 프로그램에서 발전 되었는데, 그것이 Java 기반
+```
+
+
 #### No SQL
 - RDB에 비해 고속의 읽기, 쓰기가 가능하고, 분산 처리에 뛰어남
 - 앱에서 온라인으로 접속하는 DB → `NoSQL DB에 기록하고 Hadoop으로 분산처리하자`
@@ -71,9 +93,9 @@ Why Hadoop? 🤔
 - 데이터 처리 방법
     - 스트림 처리
         - 차례차례로 생성되는 데이터를 끊임없이 보냄 (30분간의 데이터를 집계)
-        - 장기적인 데이터 처리에는 적합하지 않음
+        - `장기적인 데이터 처리에는 적합하지 않음`
     - 배치 처리
-        - 대량의 데이터를 저장하고, 처리하는 데 적합함
+        - `대량의 데이터를 저장하고, 처리하는 데 적합함`
         - 분산 시스템 활용 (4, 5)
 
 #### 분산 스토리지
@@ -83,7 +105,7 @@ Why Hadoop? 🤔
 
 #### 분산 데이터 처리
 - 데이터 분석을 위해 데이터를 가공하여 외부 DB에 저장
-- MapReduce가 대표적이며, 많은 컴퓨터 자원을 필요로 한다
+- `MapReduce`가 대표적이며, 많은 컴퓨터 자원을 필요로 한다
 - 빅데이터를 SQL로 집계하기 위한 방법
     1. 쿼리엔진 도입 (Hive)
     1. 외부 DW를 이용. ETL과정을 거침.
@@ -97,7 +119,7 @@ Why Hadoop? 🤔
     - 소량의 데이터를 자주 쓰고 읽는 데는 적합하지 않음
     - 하루가 끝날 때 정리하여 쓰고, 야간 시간대에 집계하여 보고서 작성
 - 데이터 소스의 형태가 모두 다르기 때문에 `ETL 프로세스`활용
-- DW는 중요한 데이터 처리에 사용되기에 과부하를 조심해야함 → 세분화된 니즈에 따라 구성된 `데이터 마트`구축
+- DW는 중요한 데이터 처리에 사용되기에 `과부하`를 조심해야함 → 세분화된 니즈에 따라 구성된 `데이터 마트`구축
 - DW 중심의 파이프라인에서는 테이블 설계와 ETL 프로세스가 중요
 
 ### Data Lake