68520
星鱼娱乐主管QQ:
  • 星鱼娱乐注册
  • 星鱼娱乐登陆
  • 联系星鱼娱乐
当前位置:首页 > 新闻中心
运用机器学习神经网络猜测电影利润
来源:星鱼娱乐主管 发布时间:2019-04-15 08:59:22

运用机器学习猜测电影的赢利

运用机器学习神经网络猜测电影赢利

电影业是一个巨大的出资范畴,但较大的商业范畴更加杂乱,而且很难挑选怎么出资。此外,重大出资伴跟着更大的危险。跟着电影职业日益增长,星鱼娱乐现在互联网上有很多的数据可供运用,这使其成为一个令人兴奋的数据剖析范畴。猜测电影的票房成功是一项非常杂乱的任务。

只要预先发布的特征才被认为是猜测一部行将上映的电影的成功。这儿预先发布的特征包含电影预算、电影上映的屏幕数量、美国电影协会(MPAA)的评级、艺人/女艺人的明星影响力、导演的启动力和上映月份。在发布电影一到几周后,发布后的特征将有助于进步猜测的准确性,由于这些特征是可用的。为了更好的分类,我运用了5个类别而不是2个(惨淡/大卖)类别。预先发布的特征将作为输入,它将被分为这5类。

将有两种类型的猜测,一种是准确匹配,它指的是正确的分类,另一种是远离猜测,这意味着从特定类型向上或向下考虑一个类以及彻底匹配。

现在,下一部分将是数据预备。它能够分5个阶段完结,

1.数据收集  - 能够经过抓取IMDb,烂番茄,Metacritic和Box Office Mojo等网站来提取一些猜测特征,一起能够运用python API提取某些特征。

2.数据整理 - 数据会集有很多电影的预算是不可用的。在这些电影中,没有几部不具备大部分特征。这些电影中有许多是我国、俄罗斯或印度电影,因此无法正确地翻译标题,以链接和提取相应的用户谈论和评级。这些影片有必要从数据会集删去。

3.特征提取 - 许多猜测成功的特征有必要运用数据会集供给的原始数据进行核算。例如,评分的倍增值和评分的用户数量被用作单个特征。一个艺人的明星影响力是由他/她主演的所有电影的收入总和来核算的。

预算是另一个预发布的特征。假如一部电影的制作预算较高,它就有更大的时机经过宣传取得更多的人气。所以预算高的电影有更高的时机取得更多的收入。核算所有在两周内上映的电影的数量,包含之前和之后,并将其称为“Competition Score(CS)”。然后依据CS的倒数核算'Competition Factor(CF)',这意味着竞争越剧烈,得分越低。 相同,也提取其他特征。

4.数据整合和转化 - 为此,目标分为5类,从惨淡到大卖。每个特征都分为这5个类。例如,放映数量的分类如下:

  1. - - - 放映数量<= 100;
  2. - - - 100 <放映数量<= 500;
  3. - - - 500 <放映数量<= 2000;
  4. - - - 2000 <放映数量<= 3000;
  5. - - - 放映数量> 3000 。

相同,其他特征也分为5类。为了依据谈论对电影进行分类,将进行情绪剖析,并猜测电影的情绪(规模在5以内)。

5.数据归一化  - 首先将艺人、导演和发布日期等非数值变量转化为数值。然后对数值进行标准化,使数值坐落0和1之间,以避免数值的较大改变。在数据预备完结之后,运用分类算法对电影进行5类分类。赢利猜测将按如下办法核算:

赢利=总计- 预算

依据猜测的类别对电影进行分组。核算组的最大赢利和最小赢利的均匀值。该规模将是电影的猜测赢利规模。

例如:

类 - - - - 赢利规模;

  1. - - - - - 赢利<= 五百万(惨淡);
  2. - - - - - 五百万<赢利<= 1千万;
  3. - - - - - 1千万<赢利<= 4千万;
  4. - - - - - 4千万<赢利<= 1.5亿;
  5. - - - - -赢利> 1.5亿(大卖)。

[2]用于对5类中的电影进行分类的分类算法:

壹.随机森林

它本质上适用于多类问题。它适用于处理数值和分类特征的混合,在这个问题中是一个主要因素。当特征在各种尺度上,它也很好。粗略地说,运用随机森林,您能够按原样运用数据。随机森林算法比支撑向量机(SVM)更容易调整。

优点:

  1. 它经过均匀几棵树来减少过度拟合的或许性。
  2. 它们不需求预备输入数据。您不用缩放数据。

缺陷:

  1. 与其他算法比较,随机森林算法的猜测进程比较耗时。
  2. 它们需求更多的核算资源,也不太直观。当您拥有很多决策树时,很难直观地掌握输入数据中存在的联系。

贰.支撑向量机(SVM)

对于猜测,能够运用几种机器学习算法,例如Naive Bayes,Random Forest和Logistic回归等。这些分类器足以用于二进制分类,其间一些可用于多类分类。但是,当数据形式非常杂乱时,SVM一直产生更好的成果。对于电影赢利猜测,需求健全的特征。对于这种杂乱的数据形式,SVM在机器学习算法中发挥最佳作用。

优点:

  1. 作为一种代价灵敏的分类器,它能够处理数据不平衡的问题。在现实生活中的问题中,或许存在正数据的数量大于负数据的数量的状况。
  2. 与其他非线性分类器比较,该算法降低了核算杂乱度而且进步了分类功率 。

缺陷:

  1. 在SVM中很难挑选最优的内核函数。
  2. 速度,巨细和学习速率都有约束。

叁.神经网络

运用深度神经网络能够在所有方面最好地处理这个问题。它由一组躲藏层组成,借助反向传播技术学习杂乱的数据形式。深度神经网络是迄今为止用于分类的最佳办法。

咱们向网络供给的数据越多,它给出的成果就越准确。咱们知道电影职业是一个快速发展的职业,跟着时刻的推移,咱们能够取得更多的数据集。

优点:

  1. 神经网络是一种非参数模型,即消除了参数估计中的误差 ,而大多数计算办法(MLR等)是需求较高计算布景的参数模型。
  2. 它具有处理不完整常识的才能。

缺陷:

  1. 它需求很多的核算时刻。
  2. 与其他模型(如决策树)比较,由于学习权重背后的未知符号逻辑含义,模型的可解释性较差 。

定论

在运用神经网络的这三种算法中,这是处理此问题的最佳办法。这是由于对神经网络中的猜测的准确性没有约束。跟着数据集的添加,其准确性也会进步。此外,对于杂乱的数据形式,如电影预发布特征,深度神经网络或许比其他机器学习算法非常有用。

星鱼娱乐精选评论

小蜢蚱:转发了

人工智能研究员:转发了

人工智能研究员:转发了

主管QQ:68520
Copyright©星鱼娱乐   XML地图   HTML地图   湘ICP备13004523号-1

免费通话所产生的费用由我们来支付,请放心接听!