加入收藏 | 设为首页 |

港科大KDD 2017录用论文作者详解:基于异构信息网络元结构融合的推荐系统 - 酷辣虫

理财 时间:2019-02-10 浏览:

冯雷网 (公共地址):冯雷网 AI 技术评论紧抱:在KDD 2017上,赵欢,香港综合性大学计算机系博士生 Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks 被 research 后面的收执并企图口头上举报。。冯雷网 AI 技术复习所请求的事物,dafa888下载冯雷网独家供稿,分享把任务交给组研讨的抽象派的岩芯理念。、算法骨架构架与试验产生。

作者引见

本文次要引见 KDD 2017 向王室侍从官体系的论文:「Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks」 本文是KDD。 2017的research 后面的收执并企图口头上举报。(录取率)。作者包孕:

  • 首要的作者赵欢,香港综合性大学计算机科学系博士生,研讨取向是异构方法和王室侍从官体系。;

  • 此外的作者姚泉明,香港科学与技术综合性大学计算机科学博士,研讨取向是机具想出优化组合算法。,2016 Google Fellowship 得利者;

  • 第三作者李建大,香港科学与技术综合性大学硕士学位,卒业于上海交通综合性大学。。

  • 四的作者宋洋秋,香港科学与技术综合性大学有帮忙的愉快宁静的晚年,研讨域名是知舆图。、倒转术最高纪录发掘与自然语言处置;

  • 第五作者李迪琳,香港科学与技术综合性大学愉快宁静的晚年郑,研讨取向是知识检索。,王室侍从官体系,自己谋生最高纪录管理」。

抽象派的岩芯思惟

在这么地知识尖响的使变老,王室侍从官体系不只可以帮忙用户跑到感兴味的知识FAS。,同时,它也可以实现宏大的出售价格。,眼前,全面的各大互联网网络公司城市有专业王室侍从官。,针对筹集他们的经纪业绩。

惯例王室侍从官体系,最经用的方法是联合作业过滤。,类型的案件执意我们家在电商网站看呀的「够支付该商品的用户也够支付了/也在看」。 联合作业过滤普通包孕两种方法。,鉴于用户和鉴于商品的联合作业过滤。,于是矩阵使解体 (矩阵 因式使解体。 鉴于 2007 年 Netflix 自竞赛以后数百万大奖王室侍从官体系,矩阵使解体正开端盛行起来。。然而矩阵使解体可以跑到良好的王室侍从官星力。,但也在着内行的成绩。:

  • 1)变薄性(变薄性)。现实生活说话中肯得分矩阵通常正是变薄。,鉴于单独用户评级正是少。;

  • 2)冷启动(冷) 开端)。新运用者和经商通常缺勤得分。。

前述的两种境遇城市剧烈的星力MA的预测细致的。。

更这两个根本成绩,矩阵使解体有一点钟更剧烈的的成绩。:很难合身的礼物的王室侍从官体系。。鉴于礼物的王室侍从官体系需求处置一点钟,这是杂多的各样的知识。 Side 知识),比方,经商的代表。,图片,用户相干等。。我们家可以音符图片。 1 的案件,这是 Yelp 最大的一家餐厅的特效药。

alt

图 1:Yelp 页码或张数末,Royal House

从图中,我们家可以音符,除大纲知识外,餐厅的地位。,用户向上负载图片,评论及对立的事物知识。显然,在向用户王室侍从官餐厅的处理中,这些知识正是要紧。,但它们难以集成到持续存在的矩阵使解体陶冶中。。这么,我们家需求一点钟完全新的的骨架构架来处理这么地成绩。。这是我们家的使变老。 KDD 把任务交给抽象派的岩芯理念: 「我们家用 HIN 来对 side information 举行建模,同时,设计了一点钟无效的算法骨架构架。,列举如下承受能力更强的的王室侍从官产生。。

算法骨架构架

准备知

异构知识方法 (Hetegeneous Information Network 以下缩写词 欣),是由 UIUC 的 Han Jiawei 和 UCLA 的 Sun Yizhou 在 2011 年的 VLDB 首要的次在纸上 [1]。

复杂担心,HIN 它是有向图。,图中有清楚的类型的结节和边。,列举如下图,它是从上面来的。 Yelp 抽象派的特效药页。 HIN。结节可以表现清楚的类型的物质。,比方 user, review, restaurant 等, 边表现清楚的类型的相干。,比方 Check-in, Write, Mention 等。

alt

应用 HIN,我们家可以创造杂多的各样的东西。 side information 一致起来,接下来我们家将引见以任何方式 HIN 这么地骨架构架抛光了我们家的王室侍从官处理。。

从meta-path到meta-graph

在Sun 2011年宜州VLDB2011论文,更打算欣,同时,还打算了元路。,它用于计算两个结节经过的类似性。。元路是一点钟结节的序列。,结节和结节经过清楚的类型的锋利衔接。,也执意说,清楚的的相干。。

比方,从上面图片说话中肯Hin,我们家可以设计元路。:

alt

这等比中数两个用户在同一家餐厅签到。。

我们家可以抽象派的一点钟元路的案件。:

alt

之后我们家可以测。 alt 和 Bar Louie 经过的确认度,当有更多的元路先例衔接时 alt 和 Bar Louie,它们经过的类似性更大。,我们家可以把它给我们家。 alt 王室侍从官 Bar Louie。我们家可以找到,这条 meta-path 对应于我们家熟识的鉴于用户的联合作业过滤,也执意说常常。 Royal House 民间音乐也会去。 Bar Louie。

我们家可以从这么地案件中音符。,王室侍从官体系,Hin和Meta路有两个优点。:

  • 1) 完成时的杂多的各样的边 知识被集成到一点钟一致的陶冶中。;

  • 2)运用元路,可以设计杂多的王室侍从官战略。,更王室侍从官的细致的改良要责怪,它还可以企图可解说性。。

自然,计算结节确认度的把任务交给,元路有他本人的成绩。:无法处置复杂的相干。比方,在两个用户经过在以下衔接性。。

alt

与图对应的先例, altalt 分离给 Royal House 写了一篇评论,不只为五星级,并且为五星级。,在评论中,我们家也提到了喂的海产食品。,可谓,这两个用户与食堂正是确认。。但这种类似性。,meta-path 它不克不及被建模。。为了处理这么地成绩,有两篇论文。 ( KDD 16 [2] 和 ICDE 16 [3]) 打算了一种更流通、更流通的排列。 元图(也称为元图) 元排列)。比拟 meta-path 提出要求必需是 sequence 的排列,meta-graph 它只需求一点钟集中和一点钟起点。,心爱的排列无极限之危情速递,这大大地筹集了机动性。。这么,在我们家 KDD 论文中,我们家采取了。 meta-graph 这么的排列,计算用户和商品经过的类似性。。在实践中,我们家可以设计 alt 条 meta-graph,列举如下承受多种商品和用户经过的确认度,也执意 alt 个确认度矩阵。

王室侍从官处理 矩阵使解体(MF) + 基因使解体机(使解体) 机具)

经过Hin和Miga图,我们家在杂多的尊敬都很完成时。 知识被一致为一点钟骨架构架。。下一点钟成绩是以任何方式设计能力更强的的王室侍从官算法。。在这么地论文里,我们家用过它。MF。 + 校频骨架构架,复杂来说: 分离对 alt 鉴于确认度矩阵的矩阵使解体,承受 alt 群体用户和经商的隐性现象特点,之后把所若干特点放被拖。,鉴于基因使解体机的锻炼和评分预测。

几乎范本,用户经商对,我们家可以划分买。 alt 组特点,每组的维度是 alt (当矩阵被使解体时),我们家排好队。 alt )。之后我们家可以在上面的图片中拼出一点钟维度。 alt 的特点向量。

alt

Factorization Machine (校频) [4] 是 2010 年在 ICDM 打算了一点钟陶冶。,鉴于特点经过的高阶相干可以被建模。,二阶限制因素的低秩使解体。,这么,在该R的大纲预测中取等等地租的星力。。在实践中,我们家通常运用二阶相干。:

alt

带着, alt 这是一阶限制因素。, alt 二阶限制因素。。为了想出 altalt ,我们家用过它。 Least Squared loss:

alt

特点选择: Group Lasso

普通在 FM 在一系列相关的事情处理中,常加 altalt 防备下试衣的国际公约记入项主词,最经用的是 alt 。还,在我们家把任务交给中,鉴于我们家会设计很多。 meta-graph,责怪每一点钟。 meta-graph 财产有用的,大意是不自觉动作选择有用的的。 meta-graph,我们家废了。 alt ,并选择 alt ,也被称为 group lasso。在我们家算法骨架构架中,我们家是鉴于 meta-graph 为单位来组织用户和商品的隐式特点的,这么,每条 meta-graph 对应一群体用户和经商的隐性现象特点。条目一次 meta-graph 缺勤用,葡萄汁删去呼应的特点集。,这是我们家的像母亲般地照顾。 group lasso 常常记入项主词的动机。

运用 group lasso 按期入场后,目的重大聚会优化组合适宜非凸非滑溜(非凸), 非滑溜成绩,我们家用过它。近似梯度算法(proximal 梯度求解算法。。

很这是我们家的算法。骨架构架。,接下来,我们家将经过若干试验产生。,显示出了该算法的优越。。

试验产生

最高纪录集和评价规范

我们家用过它。 Yelp 和 Amazon 这两个最高纪录集,这两个是正是圣典的王室侍从官体系最高纪录集。,同时,它也储藏着使富有的 side information。详述统计最高纪录,我们家可以涉及我们家的论文。,喂我们家只窗侧我们家运用的东西。 meta-graph,列举如下图。在 Yelp 上,我们家设计了它。它。 9 条 meta-graph,在 amazon 上,我们家设计了它。它。 6 种 meta-graph。

alt

王室侍从官体系中,我们家通常运用它。 alt 评价大纲素养。,速度系数。。

alt

带着, alt 是现实评分, alt 是预测评分, alt 是 test set 的数字。

王室侍从官星力

在试验中,我们家与若干经用的方法举行了有点。,包孕矩阵使解体和鉴于Hin的方法。。详细产生列举如下所示。:

alt

上图,RegSVD 和 FMR 该方法是鉴于矩阵使解体的。,HeteRec [5] 和 SemRec [6] 分离是 WSDM14 和 CIKM15 上的两篇论文,在 HIN 上用 meta-path 供王室侍从官。,FMG 这是我们家的算法。。此外,CIKM-Yelp 和 CIKM-Douban 这两个最高纪录集是 CIKM15 的作者 Shi Chuan 企图给我们家。基准很数字,我们家有以下发觉。:

向财产最高纪录集,FMG 征服每。,王室侍从官星力受胎清楚的同高度的的筹集。,显示出了算法的无效性。。

在 CIKM-Yelp 和 CIKM-Douban 这两个最高纪录集,我们家运用和 CIKM15 同样地的 meta-path,依然承受它。 和 的升起,更多的显示出 HIN 在此骨架构架下,我们家王室侍从官该算法的无效性。。

两个根底 HIN 的方法中,我们家发觉 SemRec 比 HeteRec 星力良好。。删去王室侍从官算法经过的辨别,一点钟要紧的区可能,在 SemRec 中,发起人对此举行了设计。 U→∗←U→B 这种塑造 meta-path,而在 HeteRec,作者曾经用过了。 U→B←∗→B 这种塑造 meta-path。在我们家算法中,最大的的选择是无效的。 meta-graph,他们说话中肯弥撒曲是 U→∗←U→B 这种塑造。这么地发觉很风趣。,产生使知晓,用户合作的产生会能力更强的。。这一发觉相当于现实生活。,我们家承受感兴味的商品或食堂。,更兴味亲手,经常是经过同伴形成环状王室侍从官来发觉的。。它也可以倒地解说。 SemRec 好于 HeteRec。

更王室侍从官产生的有点要责怪,我们家做了数不清的对立的事物试验。,有兴味的讲师可以瞄准我们家的论文。,喂缺勤更多的特效药。。

总结

最大的,对我们家的论文做一点钟简短声明的总结。。近些年,鉴于自己谋生互联网网络和大最高纪录的开展,现时王室侍从官体系正正视着使富有的一面。 知识一场,惯例的鉴于矩阵使解体的方法很难跑到P,而鉴于人工设计的特点工程是正是费力的。。经过Hin和Meta图,我们家企图了一点钟复杂无效的骨架构架。,正面可以很易被说服的地运用。 扶助向上移动王室侍从官星力的知识,同时,还可以运用人工元图来保存命令的义素。,这么,它可认为王室侍从官产生企图可解说性。。经过试验,我们家也显示出了该骨架构架的无效性。。

本文的密码和最高纪录也已在GITHUB上颁发。: 。

涉及文献

  1. Sun Yizhou et.al., PathSim: Meta 鉴于路 Top-K Similarity Search in Heterogeneous Information 方法。 VLDB 2011

  2. Huang Zhipeng et.al., Meta Structure: Computing Relevance in Large Heterogeneous Information 方法。 KDD 2016

  3. Fang Yuan et.al., Semantic Proximity Search on Graphs with Metagraph-based 想出。 ICDE 2016

  4. Rendle et.al., Factorization 机具。 ICDM 2010

  5. Yu Xiao et.al., Personalized Entity Recommendation: A Heterogeneous Information Network 方法。 WSDM 2014

  6. Shi Chuan et.al., Semantic Path based Personalized Recommendation on Weighted Heterogeneous Information 方法。 CIKM 2015

冯雷方法样稿,取缔以为重传。选派参阅。 重印用法说明 。