Skip to content

Commit a919ff8

Browse files
committed
Basic of BigData 목차 정리 및 내용 수정
1 parent 6e76248 commit a919ff8

File tree

1 file changed

+30
-8
lines changed

1 file changed

+30
-8
lines changed

BigData/1_Basic_of_BigData.md

+30-8
Original file line numberDiff line numberDiff line change
@@ -10,7 +10,24 @@
1010
<br/>
1111
<br/>
1212

13-
# 빅데이터의 기초 지식
13+
# 목차
14+
- [빅데이터의 기초 지식](#1-빅데이터의-기초-지식)
15+
* [1. 빅데이터의 정착](#1-빅데이터의-정착)
16+
+ [빅데이터 기술의 요구 (Hadoop, No SQL, DW)](#빅데이터-기술의-요구-hadoop-no-sql-dw)
17+
- [Hadoop](#hadoop)
18+
- [No SQL](#no-sql)
19+
- [Data Warehouse(DW)](#data-warehousedw)
20+
* [2. 데이터 분석 기반의 빅데이터](#2-데이터-분석-기반의-빅데이터)
21+
+ [데이터 파이프라인](#데이터-파이프라인)
22+
+ [DW와 데이터 마트](#dw와-데이터-마트)
23+
+ [Data Lake](#data-lake)
24+
+ [ETL vs ELT](#etl-vs-elt)
25+
26+
<br/>
27+
<br/>
28+
<br/>
29+
30+
# 1. 빅데이터의 기초 지식
1431

1532
## 1. 빅데이터의 정착
1633
'빅데이터'의 역사에 대해 알아보자
@@ -23,9 +40,6 @@
2340
- 다수의 컴퓨터에서 대량의 데이터 처리
2441
- 초기 `MapReduce`를 참고하여 제작됨
2542
- `Java`로 개발되어 SQL에 익숙한 분석가가 활용하기 어려웠음 → Hive 도입
26-
- Java의 GC가 가장 성능이 좋음 (빅데이터를 다루기에 메모리 관점 중요)
27-
- Java가 디버깅이 쉬움
28-
- Hadoop이 Nutch 프로그램에서 발전 되었는데, 그것이 Java 기반
2943

3044
```
3145
Why Hadoop? 🤔
@@ -46,6 +60,14 @@ Why Hadoop? 🤔
4660
데이터를 소비자에게 데이터의 성질을 맡기는 시스템. (데이터로 뭘하기 전까진 데이터로 무엇을 할지 정확히 알 수 없다.)
4761
```
4862

63+
```
64+
Why Java? 🤔
65+
1. Java의 GC가 가장 성능이 좋음 (빅데이터를 다루기에 메모리 관점 중요)
66+
2. Java가 디버깅이 쉬움
67+
3. Hadoop이 Nutch 프로그램에서 발전 되었는데, 그것이 Java 기반
68+
```
69+
70+
4971
#### No SQL
5072
- RDB에 비해 고속의 읽기, 쓰기가 가능하고, 분산 처리에 뛰어남
5173
- 앱에서 온라인으로 접속하는 DB → `NoSQL DB에 기록하고 Hadoop으로 분산처리하자`
@@ -71,9 +93,9 @@ Why Hadoop? 🤔
7193
- 데이터 처리 방법
7294
- 스트림 처리
7395
- 차례차례로 생성되는 데이터를 끊임없이 보냄 (30분간의 데이터를 집계)
74-
- 장기적인 데이터 처리에는 적합하지 않음
96+
- `장기적인 데이터 처리에는 적합하지 않음`
7597
- 배치 처리
76-
- 대량의 데이터를 저장하고, 처리하는 데 적합함
98+
- `대량의 데이터를 저장하고, 처리하는 데 적합함`
7799
- 분산 시스템 활용 (4, 5)
78100

79101
#### 분산 스토리지
@@ -83,7 +105,7 @@ Why Hadoop? 🤔
83105

84106
#### 분산 데이터 처리
85107
- 데이터 분석을 위해 데이터를 가공하여 외부 DB에 저장
86-
- MapReduce가 대표적이며, 많은 컴퓨터 자원을 필요로 한다
108+
- `MapReduce` 대표적이며, 많은 컴퓨터 자원을 필요로 한다
87109
- 빅데이터를 SQL로 집계하기 위한 방법
88110
1. 쿼리엔진 도입 (Hive)
89111
1. 외부 DW를 이용. ETL과정을 거침.
@@ -97,7 +119,7 @@ Why Hadoop? 🤔
97119
- 소량의 데이터를 자주 쓰고 읽는 데는 적합하지 않음
98120
- 하루가 끝날 때 정리하여 쓰고, 야간 시간대에 집계하여 보고서 작성
99121
- 데이터 소스의 형태가 모두 다르기 때문에 `ETL 프로세스`활용
100-
- DW는 중요한 데이터 처리에 사용되기에 과부하를 조심해야함 → 세분화된 니즈에 따라 구성된 `데이터 마트`구축
122+
- DW는 중요한 데이터 처리에 사용되기에 `과부하` 조심해야함 → 세분화된 니즈에 따라 구성된 `데이터 마트`구축
101123
- DW 중심의 파이프라인에서는 테이블 설계와 ETL 프로세스가 중요
102124

103125
### Data Lake

0 commit comments

Comments
 (0)