推特买粉丝

推特号

当前位置:首页 > 推特买粉丝

大数据这么牛,出版人怎么用 墙裂推荐(twitter增粉)大数据这么牛,出版人怎么用?,大数据书籍 知乎,

当前栏目:推特买粉丝|更新时间:2022-10-14 15:38:27|浏览:0

点击蓝字关注我们

编者按

今天,大数据和人工智能对各个行业的影响都是革命性的。对新闻出版来讲,尽管我们还依然会去书店,去感知各种我们希望看到的知识和精神食粮,但是整个形态、产业链,已经发生了或者说可能因为大数据和AI发生了根本性的变革。2019年1月11日,第十二届新闻出版业互联网发展大会的主论坛上,中国传媒大学新闻学院教授、中国传媒大学调查统计研究所所长,大数据挖掘与社会计算实验室主任沈浩发表了题为《当阅读遇上大数据》的演讲。

不久前,在一个关于《大数据2025》主题发言中提到:2020年是大数据年,2020年是人工智能年,2020年叫区块链年,2019年是什么年呢?

我经常说这样一句话,这是我给《爆发》写的推荐语:“这是一个令人兴奋的时代,也是一个大数据的时代, 数据科学让我们越来越多地从数据中观察到人类社会的复杂行为模式。以数据为基础的技术决定着人类的未来,但并非是数据本身改变了我们的世界,起决定作用的是我们对可用知识的增加。”

这本书是艾伯特·拉斯洛·巴拉巴西写的,他很早写过一本书叫《连接》,描述的是互联网长什么样,我们是如何连接互联网的。《爆发》一书指的是大数据,有了大数据,我们今天又真的感知到了AI。AI是大数据落地产业化应用的一种重要体现,它的技术方面、应用领域在什么地方?我们来简单地看一下。

上图是完全用人工智能技术生成的一段视频,如果你仔细观察的话,就会发现,他用到了换脸。今天的人工智能新闻主播,不再需要制作这个机器人,我只要把这个形象主播换上我的脸,我说什么,他就会说什么,这就是一个人工智能的主播。

为什么人工智能突然有这样的改进呢?大家知道AlphaGo战胜了李世石,其实一个围棋棋盘就是19×19的一个矩阵。19×19矩阵就相当于一张图片像素。当我们把照片当成像素的时候,通过深度学习,就可以把所有的东西变成数字,把人脸嵌入成一个数字向量,把一张图片嵌入成数字,因为我们知道三个白棋围住一个黑棋的时候,无论在左上角,右上角,在中间其实对局部的策略来讲,都是一样的。换句话说一张图片,我不需要看到全景,其实我只要看到嘴,我大概能判断是一只鸟。所以局部策略加上整体策略,通过滤波等方式,就可以把所有的事情变成人脸识别应用。

从AI角度来讲,这样一个场景可以直观地表现今天的人工智能:一名zhu名的新闻主播在一档非常zhu名的新闻节目中采访一个有名的人形机器人,她叫索非亚。当主播问她你认识大卫吗?她说不认识,其实大卫就坐在她旁边,难道机器人被我们创造出来,就脱离了她的创造者,在自我进化吗?当然主播问她你有灵魂吗?她说我思故我在。有人对她产生质疑,说她可能是假的,可能是事先编好的,无论怎么样,今天我们有一种想法,假如这个不是机器,而是真人,我只要拍他的视频换我的脸,后台我说什么他就在说什么,问题就解决了。

今天我们看到的是一个人形的有表情的机器人,我们不关心她到底是真假,我们只关心怎么出版一个这样的机器人,制作这样一个机器人应该具有什么技术和能力。今天有一种大数据就叫传感器大数据,因为今天我们有风力传感器,有速度传感器,当然我们也有压力传感器,一摁屏幕就出来了。未来我们会不会有香味传感器?5G的出现会不会出现物联网,特别是AI物联网,更多会带来传感器的应用,其实换一个视角,今天每一个手机是我们的社会传感器。

当我们播出一段视频的时候,可以捕捉到这段视频中的对象,这些对象尽管你可能感觉说不准。我们只要慢慢训练,它会变得越来越准,例如对视频的处理、对图像的处理。前段时间我去找了一段视频,启动了实验室计算机,或者叫云计算,通过GPU的方式。这时候我下载的视频,实际上是亚马逊GO,叫无人购物书店,是一种新经济状态。

亚马逊是网络电商。如何把互联网上的那些特征,互联网上具有的经济形态,转移到我们的实体经济中,转移到实体店里面。在这个过程中,我们会发现,我实际上是在对每个视频抓帧,抓到每一帧就可以数人头。比如说我现在拍一张相片,只要达到一定清晰度,就可以数在座的人,这样我就可以捕捉了。将来能不能识别这本书是什么名字呢?在视频里面,我们知道,对视频就是抓帧,所以我们对一个视频来讲我可以一秒钟抓一帧,也可以一秒钟抓20帧,这要根据我的算力以及我希望达到什么目标。从这个过程中你会发现,我是不是能认识抓到这个东西是谁呢?这是我编的程序。在这里面有一段视频,这是一个很简单的5分钟的视频,这样我只要通过处理把视频变成一秒钟一秒钟,我想算一算汤姆跟杰瑞在视频中出现的时长。演员大部分是根据镜头、出镜的时长来支付费用的。如果我能够做到这一点,我们就可以去计算什么,在一段视频中,杰瑞大概出现了22秒,汤姆出现了110秒,我也可以数范冰冰出现了多少,我也可以数某个品牌LOGO出现了多长,当然我也可以数某个足球在这场比赛中出现了多少。所以这些就是训练的深度学习技术问题。但是通过这样的方式,我们实际上不仅可以数出视频,我们也可以数出图像。

现在重要的就是要解决图像问题,实际上是视频问题。如果要解决视频问题,不知道网速够不够快,要试一试。刚才我们看到应用的场景,比如说我现在用AWS。我们要掌握,使用今天的人工智能,首先是算力,所以我们第一个理解的是EC2,EC2是什么意思呢?就相当于今天我想做一个计算,但是我的计算机不够强大,也许他没有更好的操作系统,也许没有更好的软件,也许没有GPU,所以这时候我们想临时开一台按需购买,wei一的问题就是有时候对我们学校来讲,这种云计算不算固定资产,没法支付费用。

从费用来讲,是按需使用的,另外比如说我有10万张相片,可能你APP本身就是云计算,所以你如果是一张图片或视频分享,本身就放到云计算的存储,这个存储可能放在S3上,所以有了S3我们就可以做一些,有很多人说当然我希望做AR、VR出版可视化的东西,云计算也依然提供服务。

除此之外,一般的云计算都有大量的媒体服务,特别是全媒体转码技术,如果把拍的4K转成1080或者720或者270,不光是视频、图像,还有我们的音乐都存在着版权、转码等。

试想一下,其实当我们看到一张图片的时候,光标放到这儿,就可以知道这张图片里面都有什么样的对象,这种对象可能有滑板,可能有人,可能有车,所以放在了这块,其实这件事很简单,你只要把这样一个数据包请求云计算,比如说把这张相片发给云计算,它就可以给你返回这些响应的东西,响应的东西制成表就是这样。

所以这时候我们会发现,如果给出一个面部,当然大家看到我上传一张相片,其实就应用逻辑上来讲,我就可以上传N张相片,这只是算力的问题。不仅识别是一张脸,我们还能识别这张脸的年龄、性别,甚至在百度这样的云计算上,只要上传一张图片,它能算出你穿什么颜色的衣服,甚至能知道你是不是抽、打伞、穿短裤,这个叫百度人体姿势识别。

所以在这里面,我们不仅可以识别一个人,还可以识别N个人,如果我真的能识别N个人,那我就上传。比如说上传一张我的相片,今天上网就在用我的4G,如果将来有5G,我们的宽带传输速度更快,当然最好放在云端。这时候你会发现,它把后面的脸给识别了,这个才是我的脸。识别出来的男性是没有问题,当然它识别的年龄段是错误的,因为沈老师年龄不在这个区间内,当然我也喜欢他这样的判断。

剩下找到这张脸,就要知道这张脸,当然需要事先备份好这份脸,如今人脸识别的准确性已达到了99.7%的准确性。曾经媒体在我的实验室想测试两个双胞胎能不能通过人脸测试,那基本上通不过。但是有一些场景,比如说今天关了灯, iPhoneX是不是也可以刷屏开。但是你要是闭着眼睛就刷不开。为什么?防止太太在您睡觉的时候刷您的脸支付,这不是技术问题,是应用场景的问题。

其实在很多东西上,我们可以用照片来骗过摄像头,但是这个叫静态。所以在重要的场景上,比如说像账户的支付,需要你眨眼睛,需要你摇头,这时候是一种动态识别,动态就需要你的算力更强,今天我们已经知道华为手机,当然包括其他手机,已经有了非常强的算力,因为不联网,也能打开,说明本身的芯片算力能达到。我们既然可以找到鉴别这个人,就可以鉴别他是谁。人工智能不仅能够鉴黄,还能够鉴恐、鉴暴、鉴不雅,甚至可以判断该书不应该出版,能让机器自动识别这些人等。

所以在这里面我们看到,今天除了视频的使用,还有索非亚这样的人工智能,我真的能认识你,所以我知道该跟谁说话,但是索非亚是不是还不知道,还得听得懂你跟我说话,那今天我们的声音处理也基本上相对成熟。

举个例子,如何把你的声音转成文本,也许在这样一个背景下,现在的速记可能90%已经可以被淘汰掉了。当我说出中文的时候,其实它立刻可以把中文变成了英文,您想变成法文,变成日文,这些都是可行的。我们现在的语言到语言的翻译是典型的智能应用,是一种叫LSTM,长短记忆模型。

翻译语言,其实不一定非得懂语言,只要把语言变成数字,转化成另一组数字,然后把数字再还原成语言。所以今天这种语言之间的翻译。国内像科大讯飞,可能更擅长对河南话、闽南话,谷歌更具有全球化,各种语言之间都可以翻译。而且语音可以变成文本,文本可以立刻变成语音,可以语音合成。

有些纪录片,现在有一些博客,当纪录片拍摄以后,可以用已经过世的zhu名主播配音。我如果做了一个博客,写了一篇文章,可以立刻把它转换成为一个语音的表达。今天不仅能做到这一点,还可以通过实体经济通过视频实现新经济的形态,这种新经济的形态,过去我们在互联网上,我们知道有个性化推荐,有各种共享的UGC的评论,大家可以分享。

如果把这样的一些排行榜或者网上的用户的信息转移到我们的线下,这也是一种现在的新的趋势,所以我们可以去捕捉这些对象。

这里面就举个例子,比如说这里面是电影海报,我们可以通过这个海报可以快速地识别这些内容。我可不可以识别电影、图书呢?我曾经跟做出版的市场研究公司合作,他们就可以做到。您看电影假如不懂中文,不懂英文,是不是只能看海报?消费者买书的时候,是根据书里面的内容到网上买,还是就看封面?我完全根据书的封面,就可以看到选这本书的人,一般喜欢看什么书。

我搜第一张相片,看这个人基本上就出现后面这几张,这里面你会发现,在上万张的图片中,你只要插入一张图片,他给你找到相似的那些图书的封面,如果我们把它想象成一个个性化推荐,那就是有人选这本书,还选什么书呢?是丛书呢?还是我们希望给他推荐?这样可以不太需要知道消费者的信息。我们在猜这些书的时候,我们希望能够更好地洞察一本书,一系列书内在的内容,这些内容既包括简介,也可以分析整本书。就像我今天想去分析《红楼梦》,可以通过对《红楼梦》里面的人物,比方说贾宝玉跟林黛玉,自动从这里面自动搜出贾宝玉跟林黛玉,可以通过一个实体命名去理解一部作品,把它拆成语句,把句子补齐了,就是标准的数据了。

我们可以抽取里面的实体,我就知道贾宝玉跟林黛玉有过一次关系,通过这种关系的网络,如果有一篇文章,五千句话,当我把一篇文章变成五千句话的时候,那么每一句话其实都可以通过这种向量,找到每一句话语言之间的相关性,就可以找到相关性最强的那句话,选出前五句,这样就可以自动生成摘要。

从这些技术来讲,除了索非亚能跟你聊天之外,其实今天我们每个消费者都在消费,都有娱乐,都有社交还有位置大数据,当我们把所有的数据都融合在一起、整合的时候,我们就可以洞察。这是我给推荐那本《爆发》里面的核心观点,93%的人类行为是可预知的,您相信这句话吗?

以特朗普作为例子,从数据分析上看,特朗普是一个责任感很强的人,100个人里面排第四位;智力很强,100个人排第三位;独断性很强,100个人排第二位;同情心很强,100位排第一位。但是暴躁没有体现出来,这跟我想象不一样,我并没有听你说什么,而是通过你所写的推特,你写的微博,你感知你是谁,其实你是谁跟你的感觉不重要,就是我怎么看你,你就是谁。

在我们的分析中他的需求结构,结构稳定性占比非常高,这说明什么?中国最大的结构就是人口结构,所以结构的东西往往都难改变,就像人口,需要靠一代人两代人改变,一个人结构稳定,意味着他的行为就具有稳定性和预见性。所以我们有时候经常说,特朗普在当选前和当选后不会这样的,但是我们会发现可能特朗普这样性格的人,他的选前和选后都具有可能的一致性,因为结构具有稳定性。

当然我们还可以看到每天发博的时候,而且我们还可以知道他130多种的消费行为,这不是用户画像呢?当然有人问这种分析对吗?对不对并不重要,重点是分析出你这样的人,我可能就营销你。也许最后把你营销成这样的人,也许消费者他都不知道他是什么样。

什么叫大数据?我既然能够分析推特上一个人,我就能分析推特上的五亿人,我就可以去寻找他们的关系,所以从这个角度来讲,当然从技术的角度,我们完全可以任意去寻找一个技术,就是我做好了系统,那我就可以去敲入一个人,只要敲入这个人的账号,就可以实时抓取这个人的推特,其实我不一定非得抓推特,我可以抓一本书里面作者的简介,只要抓来简介,也可以抓这本书,这本书不是叫自传吗?我就可以对这个人进行性格分析,当然这些只是一个手段,我就可以去实时地获取数据。这就是云计算,这就是大数据的建模,因为我抓来他的语料放在模型中,就可以输出所有效果,而这种可视化,这种展现使得我们的很多人可以看懂。

其实我们看到自动生成这些东西,从这个角度来讲,大数据很重要的特点,就是你现在可能还不会做,但是你会听得懂,甚至有可能对我们所讲的事情结论,你有秒懂的能力,但是我们传统的数据分析,往往你需要更多像硕士、博士论文一样去阐述这些东西。所以从这些角度来讲,我过去曾经说过,你可要好好写微博,将来你的雇主在雇佣你之前,都会仔细看你的微博,由此了解你的性格,消费方式、生活方式、品牌爱好,甚至你的价值观。

从这个角度来讲,任何一本书,中文的特色,我们可以快速地加上空格,只要把中文加上空格,逻辑上来讲就跟英文长得差不多,剩下就把所有的这些文字变成数字,然后让数字进行大量、海量的运算。人们根据上下文就可以理解,可以实现新闻的自动写作,也可以把一个人的画像做出来,这样消费者画像清晰了。我们就可以更好地去给他标签化,有了标签可以个性化推送,就可以去影响他,这是互联网的特性。

在这里面就看到不仅是这些,还有社会关系,还有各种各样算法的推荐。包括在地理空间上感知到这个人只要发了推特,或者发了微博、微信,就知道他在哪儿。

从这些角度我们都可以做大数据很强的应用,但是最直接最直观的感觉,是今天出现了AI,是人脸识别,是计算机视觉,特别是今天我们会发现对于视频、图像、语言、文字、声音、计算机在处理上都有了长足的进步,在很多的判别上,分类上,都已经相当于人或者甚至超过人类的水平,而这些东西都是我们新闻的主要传播介质,当然也是我们新闻出版业的主要传播介质。增强对这些介质的处理能力,可以更好地有助于我们在整个行业的发展。

(本文为第12届新闻出版互联网发展大会上公开演讲速记整理而成。)

数字出版怎么干?

百余位精英和你一起寻找答案!

行至2019年,数字出版行业的变量更多,维度更加复杂,数字出版人多多少少略显困顿。

你的这些问题,都能在2019新闻出版单位数字出版工作交流会上找到答案。

大会重磅发布

2019 年新闻出版单位数字出版工作安排及重点部署

三天干货供应

数字出版产业发展趋势与机遇分析

5G 背景下的数字出版融合

打造行业剧 IP,探索多元化发展

如何升级智库服务,纵深延伸

如何建设数字平台,实现内容升级

移动应用新玩法,创新运营新招数

前沿技术推动,经典案例解析

我是数字出版人,我想到场学习!

我是数字出版企业,我想搭台唱戏!

点击阅读原文,填写报名表。

识别二维码

关注数博荟

长按识别二维码

了解数字出版新风向

长按添加数小妹为好友,行业热点随时交流,数小妹还会不定期发放粉丝福利哦~欢迎来撩~

阅读原文

点一下你会更好看耶

相关推荐