以标签为基础之推荐系统以音乐网站为

上传人:wm****3 文档编号:46986640 上传时间:2018-06-29 格式:PDF 页数:10 大小:285.93KB
返回 下载 相关 举报
以标签为基础之推荐系统以音乐网站为_第1页
第1页 / 共10页
以标签为基础之推荐系统以音乐网站为_第2页
第2页 / 共10页
以标签为基础之推荐系统以音乐网站为_第3页
第3页 / 共10页
以标签为基础之推荐系统以音乐网站为_第4页
第4页 / 共10页
以标签为基础之推荐系统以音乐网站为_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《以标签为基础之推荐系统以音乐网站为》由会员分享,可在线阅读,更多相关《以标签为基础之推荐系统以音乐网站为(10页珍藏版)》请在金锄头文库上搜索。

1、 79 以標籤為基礎之推薦系統以標籤為基礎之推薦系統以標籤為基礎之推薦系統以標籤為基礎之推薦系統:以音樂網站為例以音樂網站為例以音樂網站為例以音樂網站為例 網站名稱:MusiG 黃承龍、余秉鴻、洪郁翔、蔡依芩 國立高雄第一科技大學 資訊管理系 80 81 以標籤為基礎之推薦系統以標籤為基礎之推薦系統以標籤為基礎之推薦系統以標籤為基礎之推薦系統:以音樂網站為例以音樂網站為例以音樂網站為例以音樂網站為例 網站名稱:MusiG 黃承龍、余秉鴻、洪郁翔、蔡依芩 國立高雄第一科技大學 資訊管理系 摘要摘要摘要摘要 網際網路(Internet)的出現帶來了方便快速的資訊交換平台,同時網際網路也成為 了現代

2、人的必需品之一,無論是閱讀新聞、醫學資料、影音照片等等,都已能從網路中 獲取所有資訊。在發展許多年,也將現有網站推向未來趨勢 Web2.0 網站,而 Web2.0 中 的特色則是讓所有使用者都能參與並且具有掌控權。故本研究建構以音樂網站平台 為實驗環境,以大眾分類法的機制-標籤的概念為基礎和 TF-IDF 結合作出協同推薦,讓 每位使用者皆能以自己的想法去為每首歌曲做定義,並透過分類將與使用者有相似類型 的標籤做推薦。 關鍵詞關鍵詞關鍵詞關鍵詞:標籤、TF-IDF、推薦系統、音樂網站 一一一一、緒論緒論緒論緒論 研究背景與動機研究背景與動機研究背景與動機研究背景與動機 近年來 Web2.0 蓬

3、勃成長,有許多成功的 Web2.0 典範網站。例如,影音平台 YouTube、網路相簿 Flicker、百科全書 Wikipedia、網路書籤網站 Del.ic.ious 等。Web2.0 網站的可缺因素是使用者的參與和自訂標籤與分眾分類法。在 Web2.0 中自訂標籤的 奧義在於讓龐大且受監督的大使用者替檔案資料(書籍、文章、文件、圖片、影音 等)下註解(Metadata),替檔案進分類,使其他人可以輕的找到資料。 因目前許多使用者都會藉由上網來搜尋時下流音樂或是較新專輯的音樂資訊,故 本研究選定將以音樂網站為主題並結合以標籤為基礎與推薦概念開發出推薦系統。但在 眾多的音樂資訊中使用者卻無法

4、輕的找尋出該使用者所喜愛的或是所想找的音樂資 料,所以此研究希望能透過標籤與推薦功能輕的找出使用者所想要的歌曲。 研究目的與內容研究目的與內容研究目的與內容研究目的與內容 本研究是以標籤為基礎的音樂標籤推薦系統,運用網路上廣大的使用者來對歌曲做 標籤定義,並配合推薦系統找出與使用者相類似的標籤。標籤定義就像是維基百科 (Wikipedia)利用所有人的力共同定義出大家所認為是對的事情。 (1)運用推薦系統讓使用者在大的資訊中,根據使用者的喜好做標籤推薦分享。 (2)本研究目的將會呈現一個擁有標籤與推薦系統的網站,利用使用者自訂的標籤作推 薦。 二二二二、文獻回顧與探討文獻回顧與探討文獻回顧與探

5、討文獻回顧與探討 推薦系統推薦系統推薦系統推薦系統 推薦系統(Recommender System)是一種為了減少使用者在搜尋資訊過程中所附加 的額外成本而提出的資訊過濾( Information Filtering, IF)機制。一般資訊過濾系統也 泛稱為推薦系統,其僅可依據使用者的偏好、興趣、為或需求,推薦出使用者可能82 有所需求的潛在資訊、服務或產品(Rashid et al.,2002),此外若企業將推薦系統整合至營 運架構,更可為企業帶來許多的潛在利益,如商家透過推薦系統,藉由取得顧客過去的 購買或瀏覽記錄,分析判斷顧客的偏好為,以便未來做為推薦預測的參考,進而刺激 顧客進消費,以

6、增加銷售的機會。 推薦技術介紹推薦技術介紹推薦技術介紹推薦技術介紹 推薦系統可以區分為三大類型:(一)內容過濾式(Content-based Filtering)、(二)協同 過濾式(Collaborative)、(三)混合式(Hybrid-based)。 (一)內容過濾式 此法又稱為認知過濾(Cognitive Filtering),其構想來自於資訊擷取(Information Retrieval,IR),主要是分析物件的屬性特徵,再與使用者的檔案做比對,藉此找出使 用者可能感興趣的物件,所以所推薦的物件和過去使用者瀏覽過的物件相似。內容導向 式推薦可用以 Memory-based 為基礎的

7、 TF-IDF (Term frequencyinverse document frequency),TF 表示詞彙在文章當中出現的頻,IDF 表示該字彙出現過的文件的 反轉頻。此法是計算一個詞彙對於一個文件集或一個語料庫中的其中一份文件的重要 程。詞彙重要性隨著在文件中出現次成正比,但在語料庫中成反比下。 , (2-1) . (2-2) 內容導向式推薦有以下先天性的限制: (1) 無法有效處理聲音、圖片、藝術品、影像等多媒體屬性。 (2) Over-specialization problem:使用者僅能收到與過去相類似的推薦項目。 (3) 無法處理物件的品質、風格或觀點。 (4) Shal

8、low-analysis problem:項目內容的特徵(feature)的選擇適當,將導致推薦品質 下。 (二)協同過濾式 協同過濾式是由 Goldberg et al.在 1992 年首先提出,是目前應用最廣泛的推薦技 術。協同過濾是找到為模式相似的使用者,將相似使用者的喜好推薦給某個使用者, 或進產品與資訊過濾。此方法與內容過濾式的最大差在於此法是分析人與人的相似 程,而內容過濾式是分析物件與物件間的相似程。 此方法一開始必須先找出一群具有共同興趣的使用者,形成社群(Community), 也就是在某些為或偏好上有相類似特性的成員之集合,透過分析社群成員共通之興趣 或偏好,來產生相關的關

9、聯推薦。協同過濾主要是利用群體的觀點來產生推薦項目給特 定的個人使用者,故強調的是一種人與人之間的合作,藉由過去的歷史記錄,計算各使 用者間偏好為的相似,找出與自己偏好相接近的鄰近者(Neighbors),並透過這些鄰 近者所組成的鄰近群組之意見或建議,來產生使用者之前未體驗過卻有興趣的推薦資訊 給特定的使用者做為參考。 (三)混合式 由於上述所介紹的推薦技術均有各自的優缺點,故後續有許多學者提出 混合式推薦系統,互補其缺失。此系統的運作方法是使用內容式過濾技術建立的 使用者 profiles,來計算使用者之間的相似,然後再使用協同過濾的技術,將相似的 使用者評比分最高的項目推薦給目標使用者,

10、其推薦之品質亦較內容導向式和協同過83 濾式之個別模式來得較佳,其相關的系統如 Fab。 自訂標籤與大眾分類法自訂標籤與大眾分類法自訂標籤與大眾分類法自訂標籤與大眾分類法 使用者自訂標籤(Tagging)是指使用者可以針對某個主題、物件賦予關鍵字 (Keyword)、自定義資料的為,以標籤(Tag)分類,方便日後的使用與分享,而標籤 可是描述資料的資料,即 Metadata。Flickr 即是第一個使自訂標籤成為重要應用的網 站,根據 Flickr 給予標籤的定義: Tag 是一種可以幫助你找到某種共通性照片的關鍵 字或分類,同時你能夠對每一張相片給予多個 tag 來描述它 。 標籤可以應用的

11、範圍很廣泛,可以被定義的內容只是相片而已,例如 Del.icio.us 用來定義書籤、YouTube 用來定義影音資料、Technorati 用來定義部落格、Google 的 Gmail 電子郵件也使用標籤來讓使用者自定義與分類等。每個人對於事物的看法常會 存在差,因此使用者自訂標籤通常會以極有創意的方式自分類,這可以讓大腦本身 進多面向的重疊關聯,而是毫無彈性的分類方法。 三三三三、研究研究研究研究架構與方法架構與方法架構與方法架構與方法 研究架構研究架構研究架構研究架構 本研究主要以標籤作為分析的基礎,計算出使用者偏好相似,可以很容做速 配 :透過推薦標籤的機制,以達到歌曲的速配、或是類似

12、使用者的速配,本研究期望 能提供更準確的個人化推薦機制 。 系統推薦流程圖與自訂標籤流程圖如圖1與圖2所示 。 3.1.1 系統推薦流程明 一般推薦:當使用者以未登入狀態進入音樂網站時,首先將能透過熱門歌曲排 榜得知目前網站何首歌曲被定義最多次標籤,並依被定義標籤次排列出前五名推薦 給瀏覽者。若瀏覽者進而點選音樂專輯,系統則會在每首歌曲後列出此首歌曲的前三大 熱門標籤。 登入後使用者推薦:當使用者順利登入些音樂網站後,系統將會擷取使用者所定義 過的全部標籤與其他使用者所定義的標籤做配對,並結合 TF-IDF(Term Frequency-Inverse Document Frequency)演

13、算法計算出偏好相似的使用者,進而推薦最符 合使用者偏好的相類似標籤與其他使用者。 3.1.2 自訂標籤流程明 本系統另一項主要功能即為標籤定義,當使用者登入網站後將可點選專輯進入歌曲 畫面,再透過 Radio Button 選定目標歌曲,而在確定輸入標籤後系統將會先判斷這位使 用者是否有針對同首歌曲定義過三次標籤。如尚未輸入到三次,會進而判斷使用者是否 有對同首歌曲定義過相同標籤,假設以上兩點皆未成立,則可順利將標籤輸入資料庫。 反之,系統將會跳出標籤定義失敗之訊息。 84 圖 1-系統推薦流程圖 圖 2-自訂標籤流程圖 85 TDTDTDTD- - - -IDFIDFIDFIDF 演算法演算

14、法演算法演算法 本研究所採用的相似計算方法為 TF-IDF 是一種常用的資訊檢方法,使用 TF-IDF 之前必須針對文件進前置處理,此項作業需花費大電腦運算找出文章中重 要的關鍵字。但是在標籤系統之中,標籤正好就是描述物件的重要關鍵字,這些關鍵字 的產生由使用者自定義,正確性及重要性往往比使用電腦自動關鍵字處理來的準確, 而且也可因應文字以外的物件(例如:圖片、書籍等),因此為本研究採用 TF-IDF 適合 作為使用者相似計算之依據。 本研究採用並改 TF-IDF 演算法,針對標籤進使用者相似性運算。 步驟 1:計算使用者j 的標籤i之權重 ijijiidftfw=,(4) 其中jitf,(T

15、F) (Local weigh)定義為標籤的頻,計算方式:單一使用者的標籤出現頻,再除以個人標籤頻最高的值作為常態化。 jitf,=jllji freqfreq, max(5) iidf (Global weights)是為此標籤在全體標籤中的相對重要性。 iidf= )/log(iinN (6) 其中 N = 所有使用者的使用標籤總;n = 標籤 i 被使用的次。 步驟 2:計算使用者間的相似使用者 q 與使用者 j 的相似計算公式如下: = =2 ,12 ,1,1 ,)()(jim iqim ijiqim i jqwwwwsim(7) 四四四四、實驗結果與討論實驗結果與討論實驗結果與討論實驗結果與討論 軟硬體規格及需求軟硬體規格及需求軟硬體規格及需求軟硬體規格及需求 作業系統:Vista、Windows XP 以上的平台。 瀏覽器:Firefox 2.0 以上、IE6 以上。 系統用到的資源系統用到的資源系統用到的資源系統用到的資源 系統語言:A 3.0 for C#結合 Css、Javascrip 等。 系統環境:使用 Visual Studio2008 結合 sql server2005 完成。 86 系統主畫面系統主畫面系統主畫面系統主畫面 五五五五、結論結論結論結論 本研究將會完成音樂網站系統,讓使用者可自登入並能夠對歌曲進標

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号