“在社交媒体上,什么会火,什么不会火?
人工智能会不会最终取代人类?
愤怒和高兴何者更容易传播?
大数据在未来到底能为社会做什么?”
对于从事新闻传播研究的人来说,这一系列问题无疑十分熟悉。若是面向一群看上去“不搭界”的理工科学者提问,又将得到什么答案呢?
4月21日,中国人民大学新闻传播学术话语体系创新深研会第2期“数据驱动与学科未来”在新闻学院演播厅举行,来自中国人民大学、清华大学、北京大学、北京航空航天大学、北京邮电大学、北京师范大学、四川大学以及中国科学院、拓尔思公司、中译语通研究院的专家学者展开深入对话。
深研会现场
大家讲坛
“什么样的微博最容易火”
讲述人:
中国科学院计算技术研究所研究员、中国中文信息学会社会媒体处理专委会副主任 沈华伟
讲述主题:
“在线社交媒体中的信息传播预测”
在社交媒体上,“什么会火,什么不会火”,这是新闻传播学科长期关注的重点话题。但如何通过数据分析实现信息传播的预测,却是难以突破的瓶颈。沈华伟尝试通过数学建模来探索社交媒体中信息的传播过程。
他认为,社交媒体有三个明显特征:第一,用户通过潜在的社会网络共享内容;第二,人际关系在社交媒体中发挥着重要作用;第三,群体行为特征突出。基于以上三种特征,他指出社交媒体中信息传播的预测性面临着两大挑战:一是确定性与随机性的冲突;二是理解与预测之间的差异。这决定了常用的基于特征的预测方法只能最大程度地提取内容、用户、结构特征,然后通过分类或回归模型预测量级,对于结果预测尚且有效,对于原因解释就略显乏力了。因此,从信息传播的过程入手,利用数学建模去解释信息是如何获得用户的广泛关注就显得尤为必要。
沈华伟教授发现,在这一过程中信息自身的有效性、“马太效应”、时效性三者起着至关重要的作用。重复测试后,这一过程模型可以被应用到更广泛的扩展性、混合型建模中,从而实现信息预测的更优化。他也指出,信息流行度的预测仍是一个开放的问题,多元学科的介入对于解决这一问题仍大有裨益。
“大数据与AI能给新闻业带来什么”
讲述人:
拓尔思公司大数据应用事业部总经理 杨建武
讲述主题:
“大数据+AI助力新闻传播”
作为业界较早接触并运用大数据为企业提供服务的先行者,杨建武重点谈及了新闻传播领域热度较高的两个词“大数据”和“AI”。他指出,随着互联网行业的迅速发展,基于统计学的“大数据”与基于生物科学、机器学习的“人工智能”技术逐渐跨越学科壁垒,被引入到新闻传播领域。同时,传统的新闻生产、传播方式发生巨大变化,广播式的、单向的线性传播逐渐为基于社交关系的、互动的方式所替代。
在这样的大背景下,如何提高内容生产效率、增强传播效果成为摆在新闻传播行业面前的一道必答题。“大数据”与“AI”在其中扮演的角色就是帮助传播主体实现从“达到”向“认知”、“认同”转变,并为其提供效果分析。例如《人民日报》打造的“中央厨房”就是根植于大数据技术,以实现内容集中生产、多样化制作、统一分发为目的的综合系统。
“‘图计算’有什么用?”
讲述人:
清华大学计算机系副主任、教授、博士生导师 武永卫
讲述主题:
“大规模图计算系统”
“图是什么”,对于学习新闻传播的人来说,可能首先想到的是一张照片,一幅画面,但在计算机领域,“图”可能是由网页之间的链接、社交媒体中不同的用户、不同论文中的参考文献所构成。武永卫从学科间的认知差异入手,试图揭示在信息社会中图数据的广泛存在与迅速增长。
而所谓的“图计算”就是在大规模的“图数据”之间寻找固定模式,并建立相关联系的一种计算模式。无论是在计算机领域还是新闻传播领域、金融领域,图计算都能在不同的“点”和“边”中发现并确定其关系或属性。这对大数据时代的消费者画像、交互式用户洞察分析、个性化内容生成等都有很大帮助,但其同时也面临着数据海量、动态变化、关联计算弱等挑战。
“‘政务微博’可不可以卖萌?”
讲述人:
四川大学文学与新闻学院副院长、教授、博士生导师 张放
讲述主题:
“政务微博拟人化互动效果的实验研究”
在新媒体时代,“政务微博”已经成为公众了解政府、获取信息、增强沟通的一条重要渠道,而越来越多的政务官微转变话语方式、使用“拟人化”方式改善表达风格与交流内容也成为一种普遍现象。张放从这一“线索”出发,采用控制实验的方法,试图探索政务微博拟人化传播策略对互动效果的影响。
研究发现,从账号资料到表达风格再到交流内容,拟人化的互动效果逐渐减弱。有鉴于此,在运营政务微博时,要从写好政务名片、管好软性内容、讲好政务故事三个层次优化对策、提升效果。
讲述人:
北京航空航天大学计算机学院软件开发环境国家重点实验室教授、博导 许可
讲述主题:
“网络情绪与信息传播研究”
“好事不出门,恶事传千里”,流传久远的这句俗话说明,负面信息比正面信息更容易传播已经成为一种共识。而在信息社会,基于不同情绪的信息,其传播效果也呈现出较大差异。
许可在研究中将信息包含的情绪分为高兴、愤怒、悲伤和厌恶,通过大量的文本数据分析得出,愤怒是网络上最容易传播的情绪,并基于情绪快速分类算法的成果开发了国际上第一个在线情绪分析系统。此外,他关注到了网络传播中存在的“双峰现象”,且第二次传播的峰值远大于第一次传播。通过对传播参与者的粉丝数、传播参与者的认证类型、地理空间进行比对,他认为在信息传播过程中“大众参与很重要,但早期加入更关键”。
“你的朋友圈,决定着你的水平”
讲述人:
北京邮电大学计算机学院教授、博士生导师智能通信软件与多媒体重点实验室副主任 石川
讲述主题:
Social Network Analysis-A Heterogeneous Information NetworkPerspective
“你的朋友圈,决定着你的水平”,这本是一句网络流行语。但在石川教授看来,这正是“同质信息网络”在人际传播中的重要体现。
而在“同质信息网络”之外,基于不同类型与属性的“异质信息网络”在信息社会中的应用则更为普遍,其在遍在性、综合性、语义丰富性上具有明显优势,这使得“异质信息网络”在当前的应用主要集中在相似性搜索、智能推荐、网络映射三个方面。一旦未来技术成熟,异质信息网络在大数据挖掘、建构、呈现、分析上的重大作用将得以充分发挥。
“计算机科学和与‘5W’模式的对话”
讲述人:
北京师范大学新闻与传播学院教授 吴晔
讲述主题:
计算时代的虚假信息传播
“谁(Who)说了什么(Says What)通过什么渠道(in Which Channel)对谁(to Whom)取得了什么效果(with what effect)”,这是传播领域中人尽皆知的“5W”模式,但以此为理论框架,从计算机领域进行的相关研究并不多。吴晔试图以计算机领域的方法来解决传播学领域的问题。
以互联网时代的虚假信息传播为例,利用大数据为传播主体与受众进行精细化的用户画像,再通过文本分析确定虚假信息的语言特征,然后分析网络拓扑结构对传播的影响,最后从计算科学的角度来多维度测量信息传播的范围、广度、深度及时空分布。这一过程融合了传播学的研究路径,同时运用了用户画像、文本分析、网络分析、数理统计等计算科学的方法,实现了跨学科的研究合作。
“人工智能还是个学生”
讲述人:
中译语通研究院院长助理 李世奇
讲述主题:
人工智能时代的新闻大数据
作为业界代表,李世奇重点介绍了中译语通在人工智能快速发展的大背景下对新闻大数据的挖掘和应用。
在新闻大数据平台的构建上,中译语通通过全网数据采集、数据挖掘,推动实现多样化的数据呈现,进而提供优质的数据服务。
在人工智能语义分析方面,中译语通致力于建设开放式的云服务平台,提供下一代跨语言深度信息处理服务解决方案,实现一站式全球信息处理。
在知识图谱自动构建上,中译语通试图在实体和属性抽取、知识规则表示和加工维护的前提下,实现图谱的可视化。
“大数据不只是淘宝在用”
讲述人:
中国人民大学信息学院副教授 柴云鹏
讲述主题:
“Diving into Big Data Systems”
“大数据”本是产生于统计学领域的专业名词,指称海量数据,但现在其意境被泛化为新型计算机技术。在柴云鹏看来,“大数据”的概念虽然存在被滥用之嫌,但“大数据”的技术却正在切实地改变生活。
他从公众日常熟知的PC机平台、电商平台、手机平台、流行音乐行业、新闻信息平台入手,详细阐释了“大数据”技术对应用带来的服务价值。而基于大数据系统在“AI”、“Big Data”、“Cloud”三大方面的发展现状,他认为未来当硬件摩尔定律达到极限,新型硬件技术与云计算定制结构与系统必须加以升级,才能满足技术迭代的需求。
圆桌对谈
“数据驱动与新闻业未来”
主持人:中国人民大学新闻学院副教授 李彪
对谈人:武永卫、杨建武、李世奇、石川、许可
焦点:
新闻传播学科的学生需要学习编程技术吗?
李世奇表示:
人工智能与机器学习技术已经成为当今社会发展的未来趋势之一,而人文学科和计算机学科也渐渐有了内容上的交叉,交叉学科是未来学科的重要发展之一。因此,新闻传播院校的学生应该要培养基本的计算机思维及掌握编程技能。对于学生个人而言,学习基本的编程语言对其未来求职会有一定的优势。
焦点:
多维数据的拟合发展到了怎样的程度?
石川认为:
跨平台的多元数据能更好地理解用户。他以广告投放中的量化金融为例解释了多元数据应用的变现情况。因为情绪会对金融产生直接影响,如何利用社交平台的情绪分析,把它融合到分析中,对未来走势做出有效的分析,这是一种从结果导向的方式。但从研究来说是不易进行的,这种反方向的导向虽然效果明显,但在量化层面上并不好作出解释,在社会科学下难以解释清楚,这也是此类研究的难点。
焦点:
渠道失灵后,传统新闻业发展中人工智能所扮演的角色?
许可点出了一直以来都受到关注的深度学习人工智能的话题。他认为,人工智能在一些新闻报道上也许能得到惊艳的结果,但实际上所产生的文本没有思想、浅显,没有办法独立完成深度报道,而这种技术在短期内难以突破。他提出,未来比较接近现实的新闻写作模式可能会是人机协同模式,也就是机器能自动收集素材、资料,作为一种辅助性工具去协助人类产出有价值、有深度的新闻文章。
现场提问
提问:
当人工智能发展成强人工智能时,是否还能如此乐观的认为人类不可被替代,甚至人工智能是否会产生有自我意识?
回答:
杨建武表示,按现阶段的发展来说还是相对乐观的,所谓的强人工智能在未来30-50年内应该是无法实现的。李世奇认为,我们无需太过忧虑,毕竟好莱坞式幻想的人工智能跟现实中的人工智能不一样,除非是针对人脑的研究有很大的突破,否则电影中的情节难以在短时间内实现。
大数据与社交媒体研究
主持人:中国人民大学新闻学院讲师 计算机博士 塔娜
焦点:
除了验证已有理论,大数据在方法论上有何突破?
武永卫指出:
大数据的研究方法在计算机科学理论上并没有本质上的变化,但是由于数据量基数变大,传输、载入和处理的平衡被打破,出现了变化,研究的占比和时间都有很大的变化及瓶颈。虽然在理论上并没有实现突破,但在当前的背景下赋予了不一样的意义。利用大数据的思维,把不同学科交叉融合在一起发展,能解决更多的问题。
“大数据与情感计算、社会关系”
主持人:新加坡国立大学传播学博士 赵小曼
对谈人:吴晔、张放、沈华伟、许可
焦点:
跨学科研究的最大难点是什么?
吴晔表示:
真正的跨界研究是很困难的,他的老师曾经历过学术研究的转型,中间用了3-5年的时间作出调整,而他本人也曾尝试以一己之力进行跨学科的研究,但重新研究一个学科以赶上他人的进度是很困难的。最终他选择了合作研究的模式,两个专业不同,但对对方专业有一定认知的学者一起合作,能达到一加一大于二的效果。
焦点:
大数据研究,有哪些途径来获取数据?
沈华伟指出:
数据挖掘之所以不缺数据,是因为数据挖掘本身不挑数据,充分利用数据。可是其他领域是先选题再找数据,这样就存在很大困难。获得大数据研究的数据来源是很困难的,即使不涉及隐私,数据的获取也充满不确定性。例如,曾有研究者希望通过谷歌图书的资料库进行词频分析,这些数据本身并不涉及到个人隐私或者版权利益,但仍然受到谷歌拒绝。最后,研究者通过社会人际关系在中间游说,才成功获取了信息,足见数据的获得是充满不确定性的。
现场观众
召集人
中国人民大学新闻学院执行院长 胡百精
“从对技术的赞叹与反思到拥抱技术、实现融合,新闻传播学科未来的发展不仅要继续深耕理论土壤、发挥传统优势,更要积极汲取“他山之石”的精华,在不断变动的时代中找寻思想、意义与技术的平衡点。”
主持人
中国人民大学新闻学院副教授 李彪
“深研会就新闻传播领域热度较高的“人工智能”、“大数据”、“计算传播学”等话题展开对谈,为实现多学科交流融合、跨学科研究、学术创新奠定了坚实基础。”
中国人民大学新闻传播学术话语体系创新深研会是中国人民大学新闻传播学科“双一流”建设科研项目之一,目的在于聚焦新闻传播教育界和学术界发展中的关键性问题,发扬科研“钉钉子”精神,集中相关领域权威专家的集体智慧,攻坚突破,期待通过每个具体问题的研讨带动某个领域教学科研的改革创新。2018年,人大新闻学院将持续推出系列小型深度研讨会,每次一个主题,几人深谈。
文字/ 徐雷鹏、方嘉颐
图片/傅磊
编辑/王涵