今日头条的机器算法推荐,是根据什么计算的?

今日头条的机器算法推荐,是根据什么计算的?
一、发文通过后的2-3小时内,第一次推荐量来源于你的头条指数。在第一次推荐完成后,头条机器会根据推荐给用户反馈的情况,产生一个参数,叫做:临界推荐指数一第二次推荐量,主要看临界推荐指数一第二次推荐给头条认为想看该文章的用户怎么判断的?根据文章标签和用户标签进行匹配。比如你发表的旅游类文章,那么经常浏览旅游类信息的用户将收到推荐。具体来说,则是自动根据自然语言处理处理,进行自动归纳,和打标签。用户标签我们自然看不到的,当然自己喜欢看哪方面的大概也知道吧?文章标签和用户标签匹配度大于80%,才会进行推荐。临界推荐指数一越高,推荐的量就越大。进过前两轮推荐,已经有一定阅读量,缓存端会保存一些数据。按照权重来排序的话则是:关注数>大赞数>评论数>收藏数>转发数>点小赞数。这时候头条主要根据这几个指标生成临界推荐指数二,根据临界推荐指数二,会继续第三次推荐。第三次的推荐量,主要看临界推荐指数二 加 发文时间临界推荐指数二越大,发文时间越短,那么推荐量就越大。相对应的,发文时间越长推荐量就越小,临界推荐指数二越小,文章推荐量就越小。关于前三次推荐,一般在12到24小时内完成,在这之后,就是第四第五次了,这时候的推荐量寥寥无几。第四次推荐是发文通过后的一个星期,有一些推荐量,具体指标不明,跨度太大,无法量化描述。第五次推荐是发表后一个月,属于炸尸性推荐,基本可以无视。

回复
  • 徐力帆用户

    一、发文通过后的2-3小时内,第一次推荐量来源于你的头条指数。

    在第一次推荐完成后,头条机器会根据推荐给用户反馈的情况,产生一个参数,叫做:临界推荐指数一

    第二次推荐量,主要看临界推荐指数一

    第二次推荐给头条认为想看该文章的用户怎么判断的?根据文章标签和用户标签进行匹配。比如你发表的旅游类文章,那么经常浏览旅游类信息的用户将收到推荐。

    未研做争经芝士回答斗允许不则得转载本文内容,否则将视为侵权

    具体来说,则是自动根据自然语言处理处理,进行自动归纳,和打标签。用户标签我们自然看不到的,当然自己喜欢看哪方面的大概也知道吧?文章标签和用户标签匹配度大于80%,才会进行推荐。临界推荐指数一越高,推荐的量就越大。

    进过前两轮推荐,已经有一定阅读量,缓存端会保存一些数据。按照权重来排序的话则是:关注数>大赞数>评论数>收藏数>转发数>点小赞数。这时候头条主要根据这几个指标生成临界推荐指数二,根据临界推荐指数二,会继续第三次推荐。

    第三次的推荐量,主要看临界推荐指数二 加 发文时间

    临界推荐指数二越大,发文时间越短,那么推荐量就越大。相对应的,发文时间越长推荐量就越小,临界推荐指数二越小,文章推荐量就越小。

    关于前三次推荐,一般在12到24小时内完成,在这之后,就是第四第五次了,这时候的推荐量寥寥无几。

    第四次推荐是发文通过后的一个星期,有一些推荐量,具体指标不明,跨度太大,无法量化描述。第五次推荐是发表后一个月,属于炸尸性推荐,基本可以无视。

    2024-05-09
    1楼
    回复
  • 周天怡用户

    头条的推荐算法不完全依赖粉丝数,所以即使你没有粉丝,也有可能在头条平台上创作出10万甚至上百万阅读量的爆款内容,那既然不依赖粉丝数,头条是如何推荐的呢?

    一篇文章发布后会经过一轮推荐周期:初审、冷启动、正常推荐、复审

    初审,一般是机器进行审查,我们在创作完成后也可以使用头条的灵犬进行测试,看看文章是否符合要求,每个平台的要求都不一样,你在头条上过审了,但是百家号不一定过审。那机器审查些什么东西呢,主要是检查文章有没有“触雷”,其次是查重和原创保护检查。

    冷启动,过初审后系统把你的内容推送给一小批可能对你内容感兴趣的人群,然后根据这个人群的反应,比如说读完率、点赞互动评论的整体情况,对你进行下一轮的正常推荐,这一阶段非常重要。

    未经此芝士回答允许不得转目载本文内收般容,否则将取视为侵权

    正常推荐,如果冷启动阶段,文章互动率比较高,点赞,评论都很好,收藏量也很多,那么系统就会给你加大推荐,推荐给更多的用户。

    中全此头边流统较农,确马记容列克快片引。

    复审,当推荐到一定程度后,系统会给用户的反馈情况进行复审,比如说有人举报,或者负面评论过多,如果在复审种,发现你属于标题党或者内容过于负向,将系统将会不再推荐,这一阶段会有人工参与,这是你是否成为爆款的最后一步,很多一开始几万阅读,然后就不推荐了,就是在这一步被终止了。

    可发事平利立农热海志,连消候始。

    以下四类模型会对推荐起重要作用

    第一类是相关性特征,就是评估内容的属性和与用户是否匹配。

    显性的匹配包括关键词匹配、分类匹配、来源匹配、主题匹配等。像算法模型中也有一些隐性匹配,从用户向量与内容向量的距离可以得出。

    第二类是环境特征,包括地理位置、时间。

    这些既是偏置特征,也能以此构建一些匹配特征。

    第三类是热度特征。

    包括全局热度、分类热度,主题热度,以及关键词热度等。内容热度信息在大的推荐系统特别在用户冷启动的时候非常有效。

    第四类是协同特征,它可以在部分程度上帮助解决所谓算法越推越窄的问题。

    协同特征并非考虑用户已有历史。而是通过用户行为分析不同用户间相似性,比如点击相似、兴趣分类相似、主题相似、兴趣词相似,甚至向量相似,从而扩展模型的探索能力。

    总结

    头条推荐算法并没有对外公布具体参数权重,所以想要获取更多的推荐量,还是得创作出高质量的内容,这一点对于所有平台都是最重要的。

    我是非著名攻城狮,希望我的回答对您有用,感谢您的关注与支持!

    2024-05-09
    2楼
    回复
  • 佛佳佳用户

    推荐系统的本质:从巨大的内容池中为用户匹配出感兴趣的内容

    首先要和大家介绍的是今日头条推荐系统的工作原理。

    推荐系统的本质,就是从一个巨大的内容池里,给当前用户匹配出几篇感兴趣的文章。这个内容池有几十万、上百万的内容,涵盖文章、图片、小视频、问答等各种各样的体裁。信息的匹配主要依据三个要素:用户、内容、感兴趣。

    芝规士回养答,版权必究,属未经原许可,等不得转载

    下面我会把这 3 个要素详细地介绍一下。

    首先,用户刻画。

    今日头条怎么给用户提供他们喜欢的内容,或者说怎样更好地去理解一个用户的需求?其实,今日头条平台有很多角度可以去刻画一个用户的画像:年龄、性别、历史浏览的文章、环境特征等等。以环境特征为例,用户浏览某个信息的时间是在平时还是在周末;地点是在外出时,还是在常住的地方。这些都是刻画用户的重要因素。

    小比并常品九给七土,际连红。

    其次,内容刻画。

    今日头条的内容体裁非常丰富,有图文、小视频、视频、问答等各种各样的体裁。这些内容有娱乐、体育、健康等多种分类。平台可以提取文章中的关键词,或者利用AI技术识别音频与视频的具体内容,从而将内容快速分类。

    最后,最重要的一点,感兴趣。

    今日头条不可能直接问用户:你对这个内容感兴趣吗?是否感兴趣,今日头条只能从用户的“动作”中捕获出来。当用户刷新出十几篇文章的时候,如果用户对某篇文章感兴趣,他首先会点击阅读。点击之后,如果确实觉得这一篇文章确实写得很好,他可能会跟身边人分享,还会点赞、评论。假如这篇文章让他对作者产生了兴趣,还会让他有下一步的动作——关注作者。有的人看完这一篇文章,觉得这个文章内容质量太差,就会给这篇文章不喜欢。

    国也气很直位见必转,风花传织照。

    以上种种,都是今日头条用来刻画这个用户是不是喜欢这篇文章的“动作”。这些“动作”在今日头条的推荐系统里,都会作为一个因素被纳入最终的考虑之中。假如你的文章得到很多人的点击,但点击进去,用户看了两眼就走了,不点赞,也不评论,推荐系统就会判定你的文章没那么吸引人。

    推荐算法的实质:拟合一个用户对内容满意度的函数

    前面简单介绍了推荐算法的 3 个要素,那么推荐算法本身是什么呢?它实际上是一个拟合你对内容满意度的函数。它会估算你进入一篇文章后的点击概率,看完后的点赞、评论概率;在此基础上,它还会给出你对这篇内容的正面评论、负面评论与中性评论的概率。

    推荐系统会把这些概率通过融合的方式集成在一起,最后算出用户对这篇文章的兴趣分。当一个用户来到今日头条,推荐系统会从我们几十万、上百万的内容池里面,将所有文章按照兴趣分由高到低排序,前十名的文章会在此时脱颖而出,被推荐到用户的手机上展现。

    一篇文章在推荐系统中的生命周期:初审 - 冷启动 - 正常推荐 - 复审

    前面,我从推荐系统的 3 个要素介绍了推荐系统的本质。下面,我会从创作者比较关心的角度,也就是从一个文章在推荐系统里面的生命周期去介绍一下推荐系统。

    当大家发表完一篇文章,拍完一个视频后,就会生成一个内容。这个内容在整个系统里面经过如下一些步骤。

    初审结束后,今日头条会做一些加权推荐,称之为“冷启动”。“冷启动”完成之后,今日头条会对文章做正常推荐。在这一过程中,今日头条会不断搜集到用户的反馈。一旦文章被展示出来,就会有用户点击它,评论它,甚至举报它。系统就会收集各种各样的用户行为。基于这种行为,进而触发今日头条的复审流程。复审会直接影响到文章的后续推荐。

    内容初审

    首先就是要对这个内容进行审核,也叫初审。

    初审的目的在于判断这篇文章有没有违反国家有关法律的风险。在这一过程中,机器会判断优先级,将内容交给不同的人审核。在机器和人工的共同配合下,内容会以较快的速度通过初审,从而立即展现在读者面前。

    冷启动

    在内容审核之后就是“冷启动”的过程。“冷启动”,是一个推荐上的概念。新的文章发表之后,和之前那些已经在平台上火起来的文章相比,具备一定的劣势。这些现在还是“冷”的文章中的大部分可能是火不起来。这里就存在一个矛盾:如果不把这篇文章展现给用户,就不知道将来会不会火起来。

    因此,对于所有的新信息,今日头条会做一个加权推荐。让所有的用户有一定的概率能够看到新的文章。在加权之后,文章大概会展现几千次。基于这几千次用户的点击、分享、点赞,今日头条可以判断哪些人群会喜欢这篇文章,哪些人群绝对不喜欢。当你的文章在几千次的展现之后,今日头条认为已经给足了冷启动的机会,就会撤销对这一篇文章的加权。这个文章后续能不能推出来,就靠这篇文章创作的实力了。

    正常推荐

    从2017年开始,今日头条加强了社交分发,也就是粉丝触达。所以对于那些有很多粉丝的作者而言,他的文章会在流量上得到粉丝的加持。至少在粉丝推荐列表里,他的文章会经常出现。这个过程就是正常的推荐。

    内容复审

    在正常推荐过程,基于各种各样的用户行为,系统会监测到很多数据上的异常,比如点击率特别高、但与此同时,负面评论与举报又特别多的现象,这时,这篇文章就会再次进入审核流程,即复审。在复审中,如果今日头条发现存在标题党、封面党、低俗、虚假这些问题,系统就会停止这一篇文章推荐。

    以下总结的12段话,可以帮你快速了解今日头条机器算法推荐的秘密:

    1

    资讯推荐系统本质上要解决用户、环境和资讯的匹配。

    今日头条算法推荐系统,主要输入三个维度的变量。

    一是内容特征,图文、视频、UGC小视频、问答、微头条等,每种内容有很多自己的特征,需要分别提取。二是用户特征,包括兴趣标签、职业、年龄、性别、机型等,以及很多模型刻画出的用户隐藏兴趣。三是环境特征,不同的时间不同的地点不同的场景(工作/通勤/旅游等),用户对信息的偏好有所不同。结合这三方面纬度,今日头条的推荐模型做预估,这个内容在这个场景下对这个用户是否合适。

    2

    点击率、阅读时间、点赞、评论、转发,这些都是可以量化的。但一个大体量的推荐系统,服务用户众多,不能完全由指标评估,引入数据以外的要素,也很重要。有些算法可以完成,有些算法还做不到、做的不好,这就需要内容干预。

    3

    没有一套通用的模型架构,适用所有的推荐场景。我们需要一个非常灵活的算法实验平台,这个算法不行,马上试另一个算法,实际上是各种算法的一个复杂组合。西瓜视频、火山小视频、抖音短视频、,都在用头条这一套推荐系统,但具体到每套系统,架构都不一样,需要不断去试。

    4

    算法推荐要达到不错的效果,需要解决好这四类特征:相关性特征、环境特征、热度特征和协同特征。

    相关性特征,解决内容和用户的匹配。环境特征,解决基础特征和匹配。热度特征,在冷启动上很有效。协同特征,考虑相似用户的兴趣,在一定程度上解决所谓算法越推越窄的问题。

    5

    今日头条有一个世界范围内比较大的在线训练推荐模型,包括几百亿特征和几十亿的向量特征。

    完全依赖模型推荐成本过高,因此有了简化策略的召回模型。基于召回策略,把一个海量、无法把握的内容库,变成一个相对小、可以把握的内容库,再进入推荐模型。这样有效平衡了计算成本和效果。

    6

    对于一个重度球迷来讲,比如巴萨的球迷,可能恨不得所有的报道都看一遍。解决这个,实际上需要精确抽取文本特征,比如哪些文章说的是一个事儿,哪些文章基本一样等等。

    文本特征对于推荐的独特价值在于,没有文本特征,推荐引擎无法工作,同时,文本特征颗粒度越细,冷启动能力越强。

    7

    语义标签的效果,是检查一个公司NLP(自然语言处理)的试金石。

    频道、兴趣表达等重要产品功能,需要一个有明确定义、容易理解的文本标签体系。所以,在隐式语义特征已经可以很好地帮助推荐,且做好语义标签需要投入远大于隐式语义特征的情况下,我们仍然需要做好语义标签。

    8

    除了用户的自然标签,推荐还需要考虑很多复杂的情况:

    1)过滤噪声:过滤停留时间短的点击,打击标题党;2)惩罚热点:用户在热门文章上的动作做降权处理;3)时间衰减:随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大;4)惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别、关键词、来源)权重会被惩罚;5)考虑全局背景:考虑给定特征的人均点击比例。

    9

    比起批量计算用户标签,采用流式计算框架,可以大大节省计算机资源,可以准实时完成用户兴趣模型的更新。几十台机器就可以支撑每天数千万用户的兴趣模型更新,99%的用户可以实现发生动作后10分钟模型更新。

    10

    影响推荐效果的因素有很多,我们需要一个完备的评估体系,不能只看单一指标,点击率、留存、收入或是互动,我们需要看很多指标,做综合评估:兼顾短期指标和长期指标,兼顾用户指标和生态指标,注意协同效应的影响,有时候需要做彻底的统计隔离等。

    11

    很多公司的算法做得不好,不是人的问题,是实验平台的问题。

    如果A/B Test,每次数据都是错的,不是这儿错就是那儿错,总上不了线,这个事就废了。而一个强大的实验平台,可以实现每天数百个实验同时在线,高效管理和分配实验流量,降低实验分析成本,提高算法迭代效率。

    12

    头条现在拥有健全的内容安全机制。除了人工审核团队,我们还有技术识别。包括风险内容识别技术,构建千万张图片样本集的鉴黄模型,超过百万样本库的低俗模型和谩骂模型等,以及泛低质内容识别技术。

    2024-05-09
    3楼
    回复
  • 黄敏婷用户

    关键词、关键词、关键词!

    重要的事情说三遍。

    这个问题之前我先问你几个问题:

    版权归芝士回答网系例站价或六原作者须所有

    1.如果一个人迎面向你走来,你是如何判断他是男人还是女人的呢?

    到之二两还外间入管特任处器世周圆细。

    答案是:用眼睛看他的外观,看他的穿着打扮。

    对于一般人来说长头发的就是女人,短头发的就是男人;穿男性服装的就是男生,穿女性服装的就是女人;比如穿裙子的必定是女人。还可以看相貌。

    把前取集段商族始,育调。

    2.如果让你找到你的老公,你去哪里找呢?

    答案是:根据经验,如果他没有在你的身边,那么有很大概率是在家里或者公司。

    3.如何在一群人当中找到你喜欢的?

    答案是:你可能喜欢漂亮的,也可能喜欢个子高的,也可能喜欢肤白貌美的,也可能喜欢水蛇腰的,以至于这些特征,你就能够在一群人当中一眼找到自己所喜欢的那一个人。

    4.如何让一群人同时在人群中找到一个人?

    答案是:把这一个人的外貌特征告诉这一群人。

    根据上面的问题,你有所察觉了吗?

    第1个问题当中,你要判断一个人是男人还是女人,只能是通过他的外貌特征去判断,嗯,他的外貌特征包括了头发,相貌,穿着打扮等等。

    在头条上你喜不喜欢看一篇内容直接看标题基本上就知道了,说白了,这就如同你判断一面走来的这个人是男人还是女人一样,你所关注的只有那几个关键点,这几个关键点就是关键词。

    第2个问题中你知道自己的老公是在哪里,是因为你有过往的经验,这如同在头条当中,我们要想找到自己喜欢的内容,那就直接去相对应的领域寻找,如何确定领域呢?这是一种约定俗成的关键词标注的方法。

    比如你和你的老公约定俗成,他要么是在家里,要么是在公司;你和头条APP约定俗成,你想看的内容只能是在相对应的领域之下。

    第3个问题当中,如何在一群人当中找到你喜欢的?当时你有自己的审美标准,可以一眼就从千千万万的人当中找到自己最喜欢的那一个,所谓的自己的审美标准其实就是一个个的关键词,比如上面所说的肤白貌美、细腰长腿。这和我们在千千万万的头条内容当中,找到自己所喜欢的那一个是完全一样的。

    都是通过一些自己所喜欢的关键词找到自己所喜欢的内容。

    第4个问题当中,如何让一群人同时在人群当中找到一个人,这其实与我们平时在浏览器当中搜索,相对应的内容是一样的,我们需要输入不同的关键词匹配出来的内容,那一定是我们需要的。

    如果没有,那就加大对关键词的搜索。

    明白了这些道理之后,那我们就来回答这个问题的本身,头条是属于机器分发,每一条内容上传之后都要进行机器审核,进而给一篇内容打上各种各样的关键词,再把它推送给喜欢这些关键词的用户。

    说白了就是你所喜欢的这个关键词,正好和这一篇文章的关键词相匹配,所以机器就把它推荐给你了。

    所以说头条的机器推荐说白了就是一个关键词的标注。

    假如你的文章当中有100多个关键词,恰好在头条的用户群当中,有1000个人喜欢这个内容,所以自己会把这一篇内容分发给他1000个人,看他们是否喜欢?

    如果喜欢那就扩大关键词范围,让文章关键词相对应的或者是相关联的关键词用户看到这篇内容,如果他们也喜欢,那么就继续扩大关键词范围,也就是所谓的扩大推荐量。

    如果你的文章当中有100多个关键词,头条的用户当中并没有人喜欢这些关键词,那么你的文章可能阅读量就会很低,因为推荐量很低,最本质的原因是大家都不喜欢这些关键词。

    还有一种可能是把你的内容推荐给1000个用户之后,发现这些用户并不喜欢你的那种,那他就会降权处理,所谓的降权处理指的就是这样的推荐量,因为机器判定你的这篇内容可能是相对来说比较低质量的,或者是没有价值的。

    在这里还有一点比较重要,头条的机器审核当中,本来就嵌入了一些违规的词汇,如果你正好在文章当中使用了这些词汇作为自己文章的关键词,那么你的文章会被头条机器判定为质量差或者违规,他会进行打压处理,甚至有可能直接判定违规。

    严重的可能会封号。

    以上就是我对头条机器审核、算法推荐的理解,希望对你有用!

    2024-05-09
    4楼
    回复
  • 董辛旻用户

    根据一定级别的阅读量,阅读质量,评论量,互动量。。。。

    比如,第一次发文给你推荐1000个标签用户,看看阅读量是百分之几的范围。用户有没有看完,大概阅读了百分之几的内容。然后,再看看有没有评论,点赞,互动情况的占比等,看看是否进入下一轮更多标签用户的推荐。

    如果第一阶段需要达到这此指标通过,则进入下一阶段推荐,再给你10000多的推荐,达到10000推 荐考核的指标,再给你更大的推荐。

    转载或者引用本文什看内容请阶注动明南来源于芝士回答

    机器推荐都达标后,进入人工审核,人工审核没有问题的话,就可以给你加大推荐。

    2024-05-09
    5楼
    回复
  • 樊晋宏用户

    头条不能上传文件,那我就一张张截图给你们看个大概吧,想要文档的还是私信我吧。

    1

    1-1

    版权归芝士被达回答网站年或原是布作者所有

    1-2

    1-31-41-5

    第二篇讲的是头条号指数,就不发了

    能学加从由天看么决走石,拉复维层听。

    2024-05-09
    6楼
    回复
  • 赵俊江用户

    根据文章的质量,还有平时的阅读量

    还有垂直度,还有平时用户的反馈

    转领载个或者引用本文内容表请实注明来源于芝士回造答

    2024-05-09
    7楼
    回复
  • 王飞鹏用户

    (上)

    1.今日头条的双标题功能,标题非常的重要,双标题则可以推荐更多的用户,同样的一篇文章,其中一个标题会比第二个标题的推荐的用户更多。

    2.列举古代敬惜字纸的例子,中国古代对字纸非常崇拜。因为字=内容生产= 传播分发。古代内容生产和内容分发是完全合一的,而现代内容生产和内容分发则是分离的。

    芝士回答,版权必究,保未经许可说,命当不得转更载

    3. 看待咨讯发展的一个特别视角,关键词就是内容生产和内容分发。南方周末黄金时代的三驾马车说法,一个报社最重要的三股力量是采编、经营、发行。

    4.影响内容生产、内容分发的三大因素:受教育人口质量与数量,技术进步和机制。

    现都还社正组西清,查却。

    (中)

    1.互联网技术发展,门户互联网开始诞生,少数网站有内容采编的权力,集纳所有的媒体内容,让全国人民来看,即门户模式。门户网站对资讯的传播非常重要,门户网站的分发能力非常强。

    2.07,08年中国进入内容与分发双轨制时代。报社掌握内容生产和分发,互联网放大分发效果,中心式分发推动乏力。

    和子三家事运压单议太存适红。

    2.非中心分发模式有两种:算法分发和社交分发。

    3.移动互联网推动非中心式分发大爆发:上网人数提升,在线时长提升,人机合一。

    4.非中心式分发推动资讯大爆发。

    5.社交分发有利有弊,粉丝价值,冷启动难,红利消失,不够精准。

    6.重大变量:短视频拉低内容生产和消费门槛。

    (下)

    1.算法推荐的基本流程:消重,审核和推荐。

    2.算法推荐对内容生产的新需求 :数量,质量和丰富性。

    3.算法推荐对内容质量的把控:拦截低质,奖励优质,模型识别,注重反馈。

    2024-05-09
    8楼
    回复
  • 修赛赛用户

    其实头条早就公布了啊,下面是链接,你也可以搜索头条号然后在其发布的历史文章中找到。

    官方发布的,才是最好的,就不在此赘述了,直接上链接:

    https://p5.21863.cn/large/5b020004c7ad8d79ea8f" img_width="1348" img_height="631" fold="0" >

    版强权归今芝便士回答网每站或原作儿者所有

    2024-05-09
    9楼
    回复

参与评论

游客评论不支持回复他人评论内容,如需回复他人评论内容请