2010年10月20日 星期三

2010/10/15 論文研討演講 心得報告

課程:論文研討(一)
日期:991015
時間:14:0016:00
地點:S414
作者:顧家源

  本次演講題目是「Discovering RFM Sequential Pattern From Customers’ Purchasing Data」,主講人為中央大學資管系的陳彥良教授。從題目就可以很清楚知道,這次的主題是圍繞在Data Mining領域中很重要的一塊-Sequential Pattern之中,我們知道Sequential Pattern常應用在有會員制的大賣場,因為要記錄同一個顧客在不同次交易中購買了那些商品,由其中某些商品和其他商品的順序關聯性中找到規則,來猜測如果今天某位顧客買了商品A之後,改天他可能會來買商品B。與Data Mining中另一個同樣重要的Association Rule相比,關聯規則只看同一筆交易中那些商品常常一起被購買,而不去關心同一位顧客在之後又買了甚麼。

  而這次的題目算是Sequential Pattern的一個變形,傳統的Sequential Pattern只考慮某一組有順序關係的Item是不是常常出現(Frequent),而RFM Sequential Patten則多考慮了RecencyMonetary兩點,前者是檢查顧客最近的交易有沒有出現這些商品,後者則是去計算購買這些商品所花的金額;除此之外,三個參數除了下界以外還訂了上界,藉以關注在我們想找的範圍內。

  而其演算法也不會說很難懂,大抵流程跟普通的Apriori差不多,採two-step的方式進行,先找出長度為1Candidate,稱為CI1,根據RF兩個條件去篩選,得到長度為1Frequent Patten,稱為LI1,然後再藉由LI1item進行排列組合,得到CI2,依此類推,直到無法找到更長的Frequent Pattern為止;之後,再根據設定的M再進行一次篩選,即可得到想要的Pattern;且由於限制條件比較多,反過來說要處理的Searching Space就會更小,執行速度上自然也較原本的Sequential Pattern的演算法更快。

  除了RFM Sequential Pattern外,陳教授還快速的介紹了幾個同樣是解Sequential Pattern的演算法,每個都有各自不同的新條件:Time-interval SP中,除了關心每個關聯Itemset出現的序列,還要考慮兩兩之間間隔了多久時間,讓我們不只可以預測下一個是甚麼,還可以預測在多久以內會發生;Interval Temporal Patterns則是將每個Item定義成可以持續一段時間,包括其開始與結束,並找出各關聯Item間開始與結束的順序性關係;Hybrid TP則是前者的一種變體,某些Item可以是有持續時間的,也有些是瞬間的事件。

  聽了這麼多東西,除了了解演算法以外,我想這個演講更重要的目的是讓我們了解甚麼是做研究,做研究的方法與目的又是甚麼;像演講中就有提到一點,有時候有些研究在題目與條件的範圍訂定上,脫離了現實社會中可能應用的層次,這就是一種為了研究而研究,雖然也不能否定其價值,不過這個研究也未必能對社會造成重大的影響或改變。這點對在研究領域涉獵未深的我們,實在是有不小的幫助。

提問:RFM Sequential Patterns的演算法中,R的條件只考慮到一組Itemset中最近一筆出現的時間,是否會遇到Item之間間隔很久的問題?

回答:的確在此演算法中並未處理此部分,可以是個拿來考慮的問題,也可以以此方向為發展進行研究。

沒有留言:

張貼留言