“AI技术内参”只是一个起点,希望你能够从这个专栏出发,在人工智能这个领域前行得更好、更高、更远。
今天我就来和你聊一聊作为一个工程团队的负责人,或者一家公司的CEO,该如何招聘并打造自己的数据科学团队。
2017年的SIGKDD时间检验奖授予了美国康奈尔大学信息科学系主任、计算机科学系教授索斯藤·乔基姆斯。
概率统计知识和数据科学家的日常工作,以及一个人工智能项目的正常运作都密切相关,概率统计知识正在人工智能中…
机器学习主要解决的是两类问题:监督学习和无监督学习。掌握机器学习,主要就是学习这两类问题,掌握解决这两类…
对于初学人工智能的工程师或者数据科学家来说,在知识积累的过程中,“系统”往往是一个很容易被忽视的环节。
点击率预估系统是整个广告系统的核心功能之一,分享一篇难得一见的工业界级别的科技论文,来自Google广告团队。
今天我要介绍的是一个叫做LDA的模型,它在过去十年里开启了一个领域叫主题模型。一段时间内,LDA是分析文本信息…
雅虎研究院曾构建了一支世界级的研发团队,发表了一系列有价值的研究成果,但未能摆脱最后衰落的结局,一切辉煌…
站在人工智能工程师和数据科学家的角度,我们如何理解并提升分析产品的能力,学会了解产品的需求。
对于人工智能工程师和数据科学家的工作来说,不管是模型和算法,还是产品迭代,都离不开“指标”和“评估”这两…
人工智能工程师和数据科学家的一个核心任务,就是依靠人工智能、机器学习这样的工具来帮助产品不断提升品质,吸…
KDD历年的最佳研究论文,都会对之后很多领域的研究有开创性的影响。从阅读经典文献和学习最新研究成果的角度,…
2017年KDD最佳应用数据科学论文介绍了如何智能地分析安卓恶意软件,提出了一种新的基于结构性异构信息网络的方…
谷歌DeepMind团队在《自然》杂志上发表了AlphaGo的最新研究成果,AlphaGo Zero,该论文值得精读。
机器学习的研究人员近期发现,数据中可能蕴含着一些社会赋予的偏见,而机器学习算法很有可能会放大这些偏见。这…
如何利用自然语言处理技术来解决一个社会问题,比如在线论坛中的抑郁与自残行为风险评估,正逐渐成为很多社会科…
多个机器人在对话中产生“非自然”的对话,这是如何产生的,有没有什么方式避免这样的结果?
在信息检索、文本挖掘以及自然语言处理领域,TF-IDF作为一个最基础的方法,依然发挥着不可替代的作用。
BM25是“非监督学习”排序算法中的一个典型代表,在很多信息检索的任务中表现优异,是很多工程师首选的算法之一…
“语言模型”的核心思想是利用概率模型来描述查询关键字和目标文档之间的关系,相对于TF-IDF算法和BM25算法而…
单点法排序学习是一类最简单也最实用的机器学习排序算法,在工业界得到广泛应用且效果显著。
配对法排序学习由单点法引申而来,其基本思路是对样本进行两两比较,从比较中学习排序,离真正目标又近了一步。
列表法排序学习的基本思路是尝试直接优化像NDCG这样的指标,从而能够学习到最佳排序结果。
查询关键字理解最基本的一个步骤就是给查询关键字分类。查询关键字从大类上分为信息意图、交易意图以及导航意图…
查询关键字解析是对查询关键字的微观分析,今天将重点介绍查询关键字分割和查询关键字标注两个模块。
查询关键字扩展的主要目的是希望能够补充用户输入的信息,从而达到丰富查询结果的效果,让用户有更好的体验。
现代搜索技术中,如何评价我们构建的系统?首先要掌握这些基础方法,全面了解线下评测的特点和局限,熟悉“二元…
今天重点介绍基于“多程度相关”评价体系的由来和DCG、nDCG的概念,以及如何来比较两个排序的好坏。
如何能够有效地进行在线实验,包括实验设计、实验评测等,都是非常前沿的研究课题,在线评测的很多话题值得深入…
文档理解最基本的一个步骤就是给文档分类,今天我就来和你聊一聊文档分类的一些基本概念和技术,让你对这方面的…
我们可以把文档聚类看作非监督学习的典型代表。今天就和你聊聊文档聚类的类型、应用场景、基本模型以及所面临的…
文档理解中的多模数据建模问题,是一个非常火热的领域,如何理解多媒体数据是现代数据处理的一个重要问题 。
有了对搜索系统各个基本组成部分的把握,今天我们就第一次从整体上来看看大型搜索系统框架的演变和历史发展。
什么是多轮打分系统?为什么搜索系统需要多轮打分?今天我们就来剖析一下搜索系统的这个重要思路:多轮打分系统…
索引系统的基本组成和原理是怎样的?索引相关的技术有哪些?查询关键字处理有什么策略?今天我们就来谈谈索引及…
今天我们一起讨论用图来表达网页与网页之间的关系,并且计算网页重要性的经典算法:PageRank。
HITS是经典的图算法中很重要的一种。HITS的基本原理是什么?有哪些特点?如何把HITS算法用于搜索中呢?
今天我们来看一类完全不一样的网页分析工具,这类分析有时候被称作“社区检测”,我们就重点来分析一下“模块最…
今天和你分享配对法排序中最有价值一个算法,RankSVM,也就是排序支持向量机。这个算法的核心思想是应用支持向…
梯度增强决策树作为一种普适的机器学习排序算法得到广泛应用。今天我们来聊聊这一算法的核心思路与应用。
今天我们来分享本周的最后一个经典模型:LambdaMART。这是微软在Bing中使用了较长时间的模型,也在机器学习排序…
本周我们来看一些关于搜索算法的前沿思考,特别是将深度学习技术应用到改进搜索算法中的各种尝试。
今天分享的论文是周一内容的一个后续工作,主要探讨了深度学习中的卷积神经网络能否应用在搜索中,并取得较好的…
今天我们一起来看搜索专题的最后一篇内容,一个结合了学习完全匹配的局部表征和模糊匹配的分布表征的搜索模型。
数据科学家和人工智能工程师会遇到什么样的职场发展和协作问题?今天我们就聊一聊数据科学家和产品团队的关系这…
今天我们继续讨论数据科学家的职场话题。在面试一家公司时,究竟应该怎么准备?有哪些信息是需要了解的?
我们今天要探讨的不是数据科学家“应该”怎么发展,而是说,有哪些职业发展的“可能性”,希望能够为你规划自己…
今天我们来剖析ICCV 2017年的最佳研究论文“Mask R-CNN”,这篇论文是一个集大成的工作。
今天我们来分享2017年ICCV的最佳学生论文,这篇文章解决的问题也是物体识别和语义分割。
今天和你分享ICCV 2017的一篇有意思的文章。这篇文章介绍了如何利用深度强化学习来搭建一个模型去理解两个机器…
这是我做的一场极客Live,今天和你在专栏里分享,希望其中的某些话题能够对你有所启发,也欢迎你留言和我讨论。
对于一般的非凸优化问题来说,我们往往不能找到一个全局的最优解,甚至找到局部最优解也很困难。这篇文章就是要…
今天我们要分享的这篇NIPS 2017最佳论文,讨论的是如何来衡量一组数据是否来自于某一个分布。
什么是非完美信息博弈问题?如何解决这类问题?今天我们继续分享NIPS 2017的最佳研究论文,看看在这个领域有哪…
今天,我们来聊一聊组建数据科学家团队所必不可少的一个步骤:电话面试。
Onsite面试是招聘流程中的关键点,面试中都需要考察哪些内容呢?今天我们就来聊聊Onsite面试的方方面面。
“数据驱动”和“持续决策”这两点可以看作是数据科学家团队的主要价值体现。那么,如何来评价数据科学家的工作…
今天,我们来聊另一个数据科学家团队的高级话题,那就是数据科学家的培养的问题。
今天我们来讨论数据科学家团队高级话题中的最后一个,也是非常现实的一个问题,那就是对于一个组织来说,究竟应…
在今天这个辞旧迎新的日子里,我们对过去一年的人工智能技术发展做一个简单的盘点,梳理思路,温故知新。
2018年的WSDM大会于2月5日到9日在的美国的洛杉矶举行。今天,我们就来分享WSDM 2018上来自谷歌的一篇文章。
今天我们来介绍WSDM 2018的最佳学生论文,这篇文章来自于京东的数据科学实验室。
今天,我们继续来精读WSDM 2018的一篇来自谷歌团队的论文,其核心思想是希望能够在深度模型的架构上模拟出“交…
今天我们对搜索核心技术模块做一个复盘。在这个模块,我们一起学习了27期内容,你已经阅读了70047字,听了220分…
今天,我们正式进入专栏的另一个比较大的模块,那就是推荐系统,一起来看推荐系统有哪些技术要点。
今天,我们来看另外一种简单但很有效果的推荐模型:基于相似信息的推荐模型。
所谓基于内容信息的推荐系统,其实就是用特征来表示用户、物品以及用户和物品的交互,从而能够把推荐问题转换成…
今天我为你讲解推荐系统的一个重要分支,隐变量模型。我们从矩阵分解这个基本模型讲起。
今天我们来分享基于回归的矩阵分解模型,这是在基本矩阵分解的基础上衍生出来的一类模型。
今天,我们来介绍一种叫作“分解机”的推荐技术。在最近几年的Kaggle比赛中以及一些工业级的应用中,分解机凭借…
今天,我们来聊聊“张量分解”模型,这是一种比较高级的推荐系统模型,看它如何抓住更多的用户和物品之间的关系…
今天我为你讲了推荐系统的另一个高级模型,协同矩阵分解,用来对不同类型的二元信息进行建模。
今天我们来讨论推荐系统的另外一个问题,目标函数。我们为什么要关注目标函数?以评分为基础的目标函数存在什么…
这周,我们来看一个完全不同的话题,那就是Exploitation(利用)和Exploration(探索)的策略,俗称“EE策略”…
今天我们来看EE策略中一种最基本的思路,叫UCB(Upper Confidence Bound)算法。
今天我们来分享汤普森采样算法,看它如何解决确定性算法存在的问题。
这周,我们回归到一个更加传统的话题,那就是如何评测推荐系统。今天,我们先来看一看推荐系统的线下评测。
今天,我们来讨论推荐系统的线上评测。在线上评测的时候需要注意什么呢?
今天,我们来看一个比较高级的话题,那就是如何做到推荐系统的无偏差估计。
本周我们来谈现代推荐系统的架构体系,今天先从基于线下离线计算的推荐架构说起。
今天,我们来看另外一种也很常见的推荐系统架构,那就是基于多层搜索架构的推荐系统。
我们通过两个场景,新用户多和新物品多,来分析推荐架构里面的一些取舍。
这周,我们来讨论如何利用深度学习来提升推荐系统的精度。
今天,我们来看RNN“递归神经网络”在推荐系统中的应用。
今天,我们一起来看还有哪些深度学习的思潮在影响着推荐系统。
今天我们对推荐系统核心技术模块做一个复盘。在这个模块里,我们一起学习了21期内容,阅读了 45397字,听了138…
今天我们就结合几篇经典论文,来看一看LDA的各种扩展模型。
今天我们一起讨论LDA的算法优化问题,看如何能够把LDA真正应用到工业级的场景中。
今天我们一起来讨论一个基础文本分析模型,隐语义分析。
是否能够把概率的语言移植到隐语义分析上呢?今天我们就来讨论“概率隐语义分析”这个模型。
不管是PLSA,还是LDA,其模型的训练过程都依赖或者间接依赖一个算法,即EM算法,今天我们就来聊聊这个算法的一…
今天,我们进入文本分析的另外一个环节,介绍一个最近几年兴起的重要文本模型,Word2Vec。
今天我们继续讨论Word2Vec模型,看其有哪些重要的扩展模型。
今天,我们来看一看Word2Vec算法在自然语言处理领域的一些应用。
为什么需要对文本的序列数据进行建模?一起来看序列建模的深度学习利器RNN。
今天我们就进一步展开RNN这个基本框架,看一看在当下都有哪些流行的RNN模型实现。
今天,我来为你介绍文本序列建模利器RNN的几个应用场景。
今天,我们要来看另外一类和文字相关的人工智能系统,也就是对话系统的一些基础知识。
今天,我们一起来看基于任务的对话系统有哪些技术要点。
今天,我们就来讨论“聊天机器人”,也就是非任务型对话系统的主要技术要点。
今天,我们转入文本分析的另外一个领域:文本“情感分析”。我们首先从最基础的文档情感分类这个问题说起。
今天,我们来看文本情感分析中的另一个关键技术,情感“实体”和“方面”的提取。
今天,我们来看文本情感分析的另外一个主题:意见总结和意见搜索。
“万维网大会”是Google学术“信息系统”排名第一的国际顶级学术会议。今天,我来为你解读今年万维网大会的一篇…
今天,我们来看万维网大会上的一篇优秀短论文,讨论对贝叶斯个性化排序的一种改进。
今天我们来看 The Web 2018的最佳论文,这篇文章介绍了如何从文本中提取高元关系,这是一个比较新的研究领域…
国际顶级会议内容丰富,包括论文、讲座、研讨班等,如何快速学习到这些会议的内容呢?今天我就结合自己的经验来…
今天我们对自然语言处理及文本处理核心技术模块做一个复盘。在这个模块里,我们一起学习了18期内容,阅读了3769…
从今天起,我们来看另一个重要的应用领域:计算广告。我们首先来聊一聊广告系统的概述,看一下这个领域要解决的…
今天,我们来更加细致地看一看广告系统的架构,熟悉各个组件都是怎么运作的。
今天,我们就来看一看整个计算广告领域最核心的一个问题:广告回馈预估。
今天,我们就来看一个广告回馈预估的实例:Facebook的广告点击率预估。
今天,我们来分析另外一个经典的公司实例:雅虎的广告点击率预估模型。
今天,我们继续来分析案例,看看LinkedIn这家公司是怎么来做最基本的广告预估的。
社交广告就是在社交媒体的用户信息流里投放广告。今天我们就来看看Twitter的广告预估是怎么做的。
今天,我们来看阿里巴巴的广告预估又有哪些值得我们学习的地方。
今天我们来讲计算广告中非常重要的广告竞价排名,先来看看被广泛使用的基于第二价位的广告竞拍。
今天我们来看在基于第二价位的广告竞拍的基础上,DSP或者广告商究竟该如何形成自己的竞价策略呢?
今天我们从单个和多个广告推广计划的优化角度,来聊一聊具体的竞价策略方法。
今天,我们来看在广告竞价策略中一个比较重要的问题,如何控制广告预算?
今天,我们来看一个发布商在广告竞价流程中可以参与调优的地方,聊一聊广告竞价中的底价优化。
今天,我们来看关于计算广告竞价的另外两个话题:一个是程序化直接购买,另一个是广告期货。
从今天开始我们来讨论一些计算广告相关的高级话题,就从归因模型聊起。
今天我们来讨论受众扩展技术,也就是如何帮助广告商扩大受众群。
今天我们来聊一聊广告中一个非常棘手,同时也是一个非常实际的问题:欺诈检测。
我们已经讨论了很多模型,但是想要把这些模型得心应手地应用到真实场景中,绝非易事。今天我们就从做搜索产品的…
今天我们来聊聊做推荐产品的一些套路。
讲完了搜索产品和推荐系统的套路,今天我们继续来看数据科学家应该掌握的广告产品的一些套路。
从今天开始,我将精选几篇SIGIR 2018上最有价值的论文,和你一起来读。
今天,我们一起来精读SIGIR 2018的最佳短论文,聊一聊如何利用对抗学习来增强排序模型的普适性。
今天我们继续来精读SIGIR 2018的论文,来聊一聊如何针对用户在搜索页面上的点击行为进行建模。
CVPR(计算机视觉和模式识别大会)人工智能领域的盛会。今天我来和你分享今年大会的最佳论文。
今天我们来分享今年CVPR大会的最佳学生论文,讨论跟踪人体面部表情,手势和身体运动的三维模型。
今天我来分享这次大会的一篇最佳论文提名,这篇论文对于排序学习的算法有重大改进,是一个很重要的贡献。
ICML是机器学习、人工智能领域的顶级会议。今天和你分享ICML 2018的最佳论文,聊一个有趣的话题。
今天,我们来分享ICML 2018的另一篇最佳论文。这篇文章探讨的主题是机器学习的“公平性”问题。
今天我们要分享的是ICML 2018的一篇最佳论文提名,这篇文章从优化目标函数的角度,来讨论机器学习算法的公平性…
ACL 2018,计算语言学协会年会,是自然语言处理和计算语言学领域的顶级会议。今天我和你分享一篇今年的最佳论…
今天,我来和你分享ACL 2018的第二篇最佳论文。这篇论文的背景要从语用学说起。
今天,给你分享一篇ACL 2018的最佳论文提名,聊一聊语义哈希的生成过程。
今天,我们回到数据科学团队养成这个主题,首先跟你聊聊人工智能项目管理这个话题。
一个人工智能项目的发展和成功需要工程流程,那到底什么是工程流程?又有哪些主要的方面?
今天,我们来继续讨论数据科学团队发展这个话题,来看另外两个关键问题:如何选择合作产品以及如何选择项目。
从今天开始,我们来分享专栏里人工智能核心技术模块的最后一部分内容:计算机视觉技术。第一篇,我来和你分享计…
今天,我们来聊一聊计算机视觉的一些最基础的操作和任务,包括像素表达、过滤器和边界探测。
今天,我们来看计算机视觉基础问题中的另一个核心任务,那就是特征提取。
从今天开始,我们将介绍一系列以深度学习为背景的计算机视觉技术。
今天,我们来聊一聊应用到图像上的一些最基本的深度学习模型。
今天,我们从优化的角度来讨论,如何对深度学习模型进行训练。
从今天开始,我们进入一个新的模块,我会结合几篇经典的论文,给你介绍几个专门为计算机视觉而提出来的深度学习…
今天我们就来看看针对AlexNet模型的两个重要改进,分别是VGG和GoogleNet。
今天要跟你分享的这篇论文,获得了CVPR 2016的最佳论文,提出了“残差网络”这个概念。
从今天开始,我们讨论几个相对比较高级的计算机视觉话题。这些话题都不是简单的分类或者回归任务,而是需要在一…
今天,我们继续分享计算机视觉领域的高级话题,聊一聊“视觉问答”这个话题。
今天我们来聊一聊“产生式模型”,针对数据建模的产生式模型的基本思路是怎样的呢?
今天我就来分享一下如何快速入门人工智能领域,帮你找到一些学习的捷径。
人工智能领域的新论文和技术分享层出不穷,在我们自己的工程实践中,该如何去选择呢?
你觉得人工智能研究离自己比较远吗?实际上,我们有必要了解做研究的一些基本原理,而且这些思路能够应用到我们…
微软研究院堪称工业界研究机构的模板,今天我们就一起来梳理一下微软研究院这一具有传奇色彩研究机构的传奇故事…
今天我们来看另外一种“混合型”的工业界研究机构模式,聊一聊谷歌研究院。
今天我准备了 18 张知识卡,和你一起来对广告系统核心技术模块的内容做一个复盘。
今天我准备了12张知识卡,一起来复盘“计算机视觉核心技术”模块。
今天,我准备了24张知识卡,和你一起复盘数据科学家和数据科学团队的养成这两个模块。
今天我准备了 30 张知识卡,和你一起来复盘“人工智能国际顶级会议”模块。
在整整一年的时间里,我们一起学习了156篇文章,阅读了40多万字,收听了20多个小时的音频。结束,是新的开始。