課程 : 論文研討(一)
日期 : 2012/09/28
時間 : 13:50 ~ 15:30
地點 : S104
撰寫者 : 資工研一_洪偉庭
講者 : 國立政治大學 陳良弼教授
從演講主題可以很清楚的明白,內容想表達的是一種資料庫技術上的進化介紹,聽完演講後,讓我勾起對於資料庫進化史的興趣,所以我特別去找了一些資料來參考並做出後面的介紹,在講資料庫進化史之前,想當然爾就是為何需要資料庫,在所要記錄的資料越來越多的情況下,我們無法再用紙本做紀錄,以帳本舉例,若一個店家一天有一百個客戶的交易資料,一個月就有三千筆交易,一年下來就是三萬六千筆資料,十年下來就三十六萬筆,總不可能都用紙筆記錄下來,所以只好將其電子化成資料庫,而之後才有所謂的資料庫管理的技術衍生出來。
首先從關聯式資料庫開始介紹,以下為關聯式資料庫的簡介:
•以資料表為集合,表與表之間可以建立很強的資料關聯性
•是現代資料庫的主流
•好處:
1.節省空間
2.提高效率
3.資料的一致性 ( 解決資料的重複性問題 )
下面是我簡化博客來訂購商品的資料關聯圖,訂單這張表格的訂單編號可連結到客戶相關資料,也可藉由商品名稱來連結到商品的相關資料。
接下來介紹分散式資料庫,分散式的資料庫在實體上是分佈各處的資料的集合,以下是分散式資料庫的特徵:
1.資料以及承載資料的硬體都散佈各地
2.資料的傳送必須透過網路
3.資料的處理及控制不再集中在一處
而分散式資料庫的優點:
1.資料庫使用效能的改善
2.可靠度與可用率的提昇
3.資料庫應用系統的分散需求
4.資料的有限度分享
以下我用簡單的示意圖來表現分散式的概念,圖一為多人存取單一集中式資料庫,圖二為多人存取分散式資料庫。
接下來再介紹平行式資料庫[1],平行處理是一種使用多個處理器來強調計算過程中平行事件的有效資訊處理方式。所謂平行處理即是在電腦中有許多程式並行執行(Co-occurrence Execution)。亦即在同一時間單位中有一個以上的程式並行或同時執行,或者對一個以上的操作進行輸入/輸出的處理。其中並行(Co-occurrence)是指:
• 平行化:平行事件可能發生在同一時間間隔(Time Interval)裡。
• 同時化:同時事件(Simultaneous Events)可能發生在同一時間點上。
• 管線化:管線事件(Pipelined Events)發生的時間則是一些重疊的時區。
平行處理在資料倉儲的應用[2] :
平行處理可將一複雜的資料查詢動作分割成幾個小的部分,再將各部分指定給不同的處理器來處理,所有的處理器都是同時運作,不像序列形式的處理器都是依序來處理各個程序的。因此平行處理的作業方式,可以加快像資料倉儲、資料挖掘(Data Mining)這類決策支援系統的工作速度。
平行處理可提供傳統大型資料庫系統中的複雜查詢:如應用於資料庫系統的線上交易處理(Online Transaction Processing, OLTP)中即包含一平行資料庫伺服器(Parallel Server)以提供多個客戶端同時的各別需求。而資料倉儲則是一個以伺服器為基礎,將大型主機上的資料複製儲存的資料庫系統,其中伺服器即根據需求而從主機上接收更新過的資訊,這樣的過程亦牽涉大量的資料,且資料倉儲系統亦包含了資料挖掘(Data Mining)的機制,在資料挖掘中也需要平行處理來進行從大量資料來源中擷取有意義之資訊的工作,因此,在資料倉儲中應用平行處理來促進處理速度是必備的需求。
再來介紹雲端資料庫[3],簡單的說就是把資料庫雲端化,使用者能使用雲端資料或應用程式,此類常見應用程式包括電子郵件及社交網站,Gmail、Facebook 或 LinkedIn 使用者可透過瀏覽器或其他裝置,使用這項應用程式及資料,使用者通常只需記住密碼,其餘資料皆在雲端儲存及管理。以下為使用者與雲端的示意圖。
最後簡單的介紹Big Data[4],Big Data大概是爆紅速度僅次於雲端運算的科技新名詞,過去一年來,雲端運算雖然還是很熱門的話題,但更熱門的是Big Data,情況就像幾年前廠商不約而同在談雲端運算一樣。根據市場調查機構Gartner的分析,目前全球資料量正以每年59%的速度成長,平均每兩年就成長1倍;資料型態也從傳統的結構性資料轉變為非結構資料為主,其中70%~80%都是網頁日誌檔案、圖片、影像、感應設備等所產生的非結構資料。面對如此巨大且快速成長的資料,傳統的資料處理技術顯得不足,Google等網路服務業者不得不尋求其他方法解決,Big Data風潮因此而生。
而近年來,巨量資料的潮流,從國外延伸到台灣,包括高科技製造等各產業龍頭都在積極評估,包括台積電、聯電、中華電信、元大銀行、新光銀行等,都試圖透過概念驗證(POC),領先掌握巨量資料最新技術。目前企業還在摸索當中,不過從概念驗證已經可以看到一些方向,所以由此可見處理Big Data的技術將是往後的重要課題之一。
References
[1] 吳秀蘭,「平行資訊處理」,資訊科學與技術專題論輯(台北:文華,民國86年),頁255-256。
[2] Hallmark, Gary and Corporation, Oracle. “Oracle Parallel Warehouse Server,” International Conference on Data Engineering. IEEE Computer Society(1997): 315-318.
[3] 雲端運算使用案例討論小組,雲端運算使用案例白皮書第三版(2010年)
[4] 楊惠芬 (記者),【封面故事】BIG DATA 在台灣(2012-10-03)
沒有留言:
張貼留言