10
10
<br />
11
11
<br />
12
12
13
- # 빅데이터의 기초 지식
13
+ # 목차
14
+ - [ 빅데이터의 기초 지식] ( #1-빅데이터의-기초-지식 )
15
+ * [ 1. 빅데이터의 정착] ( #1-빅데이터의-정착 )
16
+ + [ 빅데이터 기술의 요구 (Hadoop, No SQL, DW)] ( #빅데이터-기술의-요구-hadoop-no-sql-dw )
17
+ - [ Hadoop] ( #hadoop )
18
+ - [ No SQL] ( #no-sql )
19
+ - [ Data Warehouse(DW)] ( #data-warehousedw )
20
+ * [ 2. 데이터 분석 기반의 빅데이터] ( #2-데이터-분석-기반의-빅데이터 )
21
+ + [ 데이터 파이프라인] ( #데이터-파이프라인 )
22
+ + [ DW와 데이터 마트] ( #dw와-데이터-마트 )
23
+ + [ Data Lake] ( #data-lake )
24
+ + [ ETL vs ELT] ( #etl-vs-elt )
25
+
26
+ <br />
27
+ <br />
28
+ <br />
29
+
30
+ # 1. 빅데이터의 기초 지식
14
31
15
32
## 1. 빅데이터의 정착
16
33
'빅데이터'의 역사에 대해 알아보자
23
40
- 다수의 컴퓨터에서 대량의 데이터 처리
24
41
- 초기 ` MapReduce ` 를 참고하여 제작됨
25
42
- ` Java ` 로 개발되어 SQL에 익숙한 분석가가 활용하기 어려웠음 → Hive 도입
26
- - Java의 GC가 가장 성능이 좋음 (빅데이터를 다루기에 메모리 관점 중요)
27
- - Java가 디버깅이 쉬움
28
- - Hadoop이 Nutch 프로그램에서 발전 되었는데, 그것이 Java 기반
29
43
30
44
```
31
45
Why Hadoop? 🤔
@@ -46,6 +60,14 @@ Why Hadoop? 🤔
46
60
데이터를 소비자에게 데이터의 성질을 맡기는 시스템. (데이터로 뭘하기 전까진 데이터로 무엇을 할지 정확히 알 수 없다.)
47
61
```
48
62
63
+ ```
64
+ Why Java? 🤔
65
+ 1. Java의 GC가 가장 성능이 좋음 (빅데이터를 다루기에 메모리 관점 중요)
66
+ 2. Java가 디버깅이 쉬움
67
+ 3. Hadoop이 Nutch 프로그램에서 발전 되었는데, 그것이 Java 기반
68
+ ```
69
+
70
+
49
71
#### No SQL
50
72
- RDB에 비해 고속의 읽기, 쓰기가 가능하고, 분산 처리에 뛰어남
51
73
- 앱에서 온라인으로 접속하는 DB → ` NoSQL DB에 기록하고 Hadoop으로 분산처리하자 `
@@ -71,9 +93,9 @@ Why Hadoop? 🤔
71
93
- 데이터 처리 방법
72
94
- 스트림 처리
73
95
- 차례차례로 생성되는 데이터를 끊임없이 보냄 (30분간의 데이터를 집계)
74
- - 장기적인 데이터 처리에는 적합하지 않음
96
+ - ` 장기적인 데이터 처리에는 적합하지 않음 `
75
97
- 배치 처리
76
- - 대량의 데이터를 저장하고, 처리하는 데 적합함
98
+ - ` 대량의 데이터를 저장하고, 처리하는 데 적합함 `
77
99
- 분산 시스템 활용 (4, 5)
78
100
79
101
#### 분산 스토리지
@@ -83,7 +105,7 @@ Why Hadoop? 🤔
83
105
84
106
#### 분산 데이터 처리
85
107
- 데이터 분석을 위해 데이터를 가공하여 외부 DB에 저장
86
- - MapReduce가 대표적이며, 많은 컴퓨터 자원을 필요로 한다
108
+ - ` MapReduce ` 가 대표적이며, 많은 컴퓨터 자원을 필요로 한다
87
109
- 빅데이터를 SQL로 집계하기 위한 방법
88
110
1 . 쿼리엔진 도입 (Hive)
89
111
1 . 외부 DW를 이용. ETL과정을 거침.
@@ -97,7 +119,7 @@ Why Hadoop? 🤔
97
119
- 소량의 데이터를 자주 쓰고 읽는 데는 적합하지 않음
98
120
- 하루가 끝날 때 정리하여 쓰고, 야간 시간대에 집계하여 보고서 작성
99
121
- 데이터 소스의 형태가 모두 다르기 때문에 ` ETL 프로세스 ` 활용
100
- - DW는 중요한 데이터 처리에 사용되기에 과부하를 조심해야함 → 세분화된 니즈에 따라 구성된 ` 데이터 마트 ` 구축
122
+ - DW는 중요한 데이터 처리에 사용되기에 ` 과부하 ` 를 조심해야함 → 세분화된 니즈에 따라 구성된 ` 데이터 마트 ` 구축
101
123
- DW 중심의 파이프라인에서는 테이블 설계와 ETL 프로세스가 중요
102
124
103
125
### Data Lake
0 commit comments