Advertisement

Deep content-based music recommendation

阅读量:

如今深度学习正逐渐成为机器学习领域的焦点之一,在推荐系统领域应用也愈发广泛。目前关于使用深度学习进行音乐推荐的文章也有一些,如果您想深入了解相关技术细节,请参考Netflix的大神回答:Xavier Amatriain在Quora上分享的相关内容。

该论文致力于解决音乐推荐领域中的冷启动问题。该研究采用隐式因子模型,并对Bag of Words方法和Convolutional Neural Networks技术进行了评估。通常情况下,协同过滤算法在内容推荐方面的表现优于基于内容的方法;然而,在 cold-start 问题面前协同过滤却难以应对这一挑战。

在音乐推荐领域中,在线实时获取并分析不同类型的音频信号特征是实现内容型个性化推荐的关键步骤。

而协同过滤方法主要分为基于邻居的和基于模型的两大类,在基于模型的方法中旨在将用户与物品进行隐式因子分解以实现推荐效果。本文重点探讨的是基于模型的隐性因子模型。

当以音频信号为基础进行音乐内容推荐时

本文运用卷积神经网络(CNN)来预测用户与歌曲之间的潜在因子;即这是一个有监督学习的问题, 其中标签即为所谓的潜在因子. 那么如何获得用于训练的潜在因子?这里采用加权矩阵分解方法.

该数据集包含了每个用户的播放记录,并将其视为一种隐式反馈信息。此外,在处理隐式反馈数据集时使用的矩阵分解方法被称为加权矩阵因子分解(Weighted Matrix Factorization, WMF)。其中r_ui表示用户u对歌曲i的播放次数;偏好变量p_ui则指示用户u是否曾听过歌曲i;置信度c_ui则反映了这种偏好的强度,并且显然地,在这种情况下c_ui与r_ui呈正相关关系。

而WMF的目标函数定义为:

我们称x_u为用户的隐式因子向量,则相应地,则y_i代表歌曲i的隐式特征向量。对于矩阵分解问题而言,在这种情况下两个隐式特征向量之间的点积实际上反映了用户u对歌曲i的喜爱程度和评分情况。其中第一个部分则是以信任度参数作为权重系数计算出预测评分与真实评分之间的平方差;而第二个部分则起到正则化的作用。通过采用交替最小二乘法(ALS)算法进行优化求解,则可以得到该目标函数的最佳参数估计值。这种方法相较于随机梯度下降法(SGD)具有更高的计算效率。

当获得训练数据的标签后

生成MFCC特征序列;
将MFCC序列进行聚类编码;
基于kmeans算法构建bag-of-words模型。

基于bag-of-words表示作为特征之后,从而能够利用线性回归与多层感知机来推断隐含因子向量

而CNN部分的输入来源于从 audio signal 中提取的中间层次时频特征表示法, 即经过对数压缩处理后的 mel 谱图. 该网络架构的目标损失函数可以选择均方误差 (MSE), 也可以采用加权最小二乘法 (WMF) 中的加权预测误差作为损失度量标准.

实验部分中,首先通过音乐标签对问题进行考察以验证潜在因子向量在性能上的优势相对于音频特征表现更为出色。这表明学习潜在因子向量具有重要意义。随后对四种不同的模型进行了分析以评估其在预测潜在因子向量方面的效果。

  1. A linear regressor based on a bag-of-words vectorization.
  2. A commonly used MLP architecture is trained using a standard bag-of-words representation.
  3. A convolutional neural network using log-magnitude Mel-scale spectrograms is optimized to reduce prediction errors as measured by MSE.
  4. The same convolutional neural network is fine-tuned for better performance in tasks involving audio analysis.

观察结果表明,采用均方误差(MSE)作为目标函数的CNN模型表现出更好的预测能力。

目前关于论文的主要内容已基本完成。总结如下:传统的音频信号作为一种低层表示方式,在描述歌曲的艺术风格、音乐流派及情感氛围等高层次特征方面存在一定局限性;因此,在基于音频特征进行音乐推荐时会面临语义鸿沟的问题;为了克服这一挑战,在本文中我们提出了一种高层表达方法即为歌曲所蕴含的潜在因子特征;具体而言首先通过隐反馈数据进行训练学习获取用于表示歌曲潜在因子的基础模型参数;接着将潜在因子预测过程视为回归问题并采用传统向量空间模型(如词袋模型结合线性回归与多层感知机)作为基准方法;随后我们提出了一种新的目标函数形式即基于卷积神经网络(CNN)与均方误差(MSE)相结合的方法以优化潜在因子预测过程从而获得更为有效的 song representation

可见本文的主要创新在于采用 latent factor vector 作为歌曲的 high-level 特征来弥补 semantic gap,并将其建模为一个基于 latent factors 的回归问题通过 CNN 来解决。从而实现了 CNN 与推荐系统中 latent factor 模型的有效结合。表面上看并没有特别出人意料但在思路层面是有逻辑性的,在提出的思路和解决问题的方法上都有一定的新颖性同时也融入了当前非常热门的概念。

★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★

欢迎关注我的微信公众号:面包Paper

主题涵盖机器学习、数据挖掘、计算机视觉,本文也整理自面包Paper。

请扫码:

全部评论 (0)

还没有任何评论哟~