一、新聞的自動選編
就新聞行業的這種自動化浪潮而言,影響最大的早期實踐大概要算“Google News”了。Google新聞是一個由計算機生成的新聞網站。它匯集了來自中國大陸超過1000多個中文新聞源的新聞資源,并將相似的報道組合在一起,根據讀者的個人喜好進行顯示。
Google新聞所開創的是新聞的機器選編,還不是本文所要著重探討的新聞的機器寫作。但寫作和編輯同為新聞內容生產的兩個關鍵環節。在“Google新聞”的自動選編推薦中,關鍵是以下幾點:
1.新聞來源:來自我國大陸1000多個中文新聞源。新聞來源的選擇和把關,在很大程度上決定了聚合推薦的新聞的豐富和多樣性程度;這實際上是“Google新聞”選擇和推薦的樣本框,決定了哪些新聞有機會被推薦。
2.推薦邏輯:即其算法(algorithm)。值得指出的是,StoryRank和PageRank類似,其對一篇報道的推薦和選擇,并不是僅僅通過分析報道本身的內容,而是著重分析報道在網上的受關注程度:被哪些網站發布、轉發的多少和頻率、在網站的什么位置發布等,以此來“計算”有關新聞的價值或重要程度。
3.推薦而不提供:從新聞作品版權等角度考慮,“Google新聞”只是提供各種新聞不同的新聞來源,有點“述而不作”的味道,具體的新聞則仍需要到各來源網站去閱讀。Google新聞的這一做法最大限度地讓它避免了各種版權糾紛,換言之,它把自己定位為自己所定義的眾多新聞源的精華索引頁。
作為機器編輯肇始的“Google News”,其所開創的基于所選擇的樣本框進行新聞自動選擇和推薦、排序的方法,對各大新聞網站、新聞門戶和其他搜索引擎帶來了很大的沖擊和影響,包括百度新聞等跟風者不少。值得指出的是,在“Google News”最初推出之時,還是Web1.0時代。10年過去,互聯網特別是移動互聯的發展,使得新聞生產和消費的格局又有了很大的變化。這其中最大的變化就是社會化媒體的興起,以及基于消費端的用戶偏好,被納入到新聞推薦的算法考慮中,從而可以為用戶推薦更加個性化、定制化、動態化的新聞產品和內容。事實上,以“今日頭條”等為代表的新聞客戶端,都是當初“Google News”所開創的機器新聞編輯產品的變種和升級。
無論是“Google News”也好,“今日頭條”也好,這類產品的出現和風行,揭示了這樣一種趨勢,即機器學習、深度學習正在改變包括新聞生產在內的諸多之前依賴人力、腦力密集的產業和行業的生態和業態。從工業革命開始,人類的自動化夢想就一直在加速膨脹,試圖在一切有可能把人力解放出來的領域,代之以無論是硬件還是軟件意義上的“機器”的協助甚至完全自動化。
二、機器新聞寫作:基于算法的新聞內容生產
編輯和寫作,就其所需要的人工智能程度而言,顯然寫作更具挑戰性。在機器新聞生產的語境中,機器編輯通常主要指對已有新聞作品的選擇和推薦、聚合,很少涉及對成稿的修改;而機器新聞寫作,則仍是不折不扣的從無到有的“創作”。
把機器或者程序能做的交給機器和程序,從而把人力解放出來,去從事具有創新要求和需要發揮想象力的工作,這是自工業革命以來自動化革命的基本理念。關于機器新聞寫作,美聯社的看法是,這將讓記者“能做回新聞的本職工作,而不是忙于數據處理”,因此,機器新聞寫作的引入,并不意味著記者編輯工種的消亡。
但顯然并非所有類型的新聞都適合機器寫作,至少目前來看是如此。就美聯社的實踐而言,其此前已經在用自動化手段提供各種數據式的體育“報道”,但此前主要是整合、綜合關于運動員、賽事的各種實時數據,而此次的企業季度經營狀況報道則是不折不扣的新聞報道了。盡管如此,可以看出,適合通過機器或算法進行的新聞寫作,一般是以各種數據、圖表的引用和分析為基礎的硬新聞,新聞的主體來源于對數據的引用、解釋和分析,具有明顯的“數據處理”色彩,可看作是目前方興未艾的“數據新聞學”的一個分支。
三、機器自動寫作的工作機理
下面以前述Automated Insights公司開發并已經被諸多品牌公司,包括像美聯社這樣的通訊社采用的自動寫作平臺Wordsmith為例,簡單介紹一下其工作原理與過程。
Wordsmith平臺的任何一篇“自動生成”的作品的寫作流程分以下幾個步驟:
1.獲取數據。首先需要消化關于所服務的客戶,即報道對象的各種形式的數據和資料,包括以APIs、XML、CSVs以及各種字處理圖表等形式的數據,以及第三方(如Google Analytics)提供的相關客戶的各種數據(運營、業績、報道、評價、引述等)。作為一個以數據處理為基礎工作的寫作平臺,Wordsmith可以處理“幾乎任何形式或格式的數據”。
2.分析數據。這里涉及到對各種數據的解析以及內在關聯的勾勒,并把它們放在歷時性的演變背景中來進行解讀。
3.提煉觀點(identify insights)。通過對目標客戶各種數據中所呈現的模式和趨勢的揭示,并把它們納入到更大的行業或社會、國家的背景中來解讀其意義,從而通過這樣的參考和比對,得出一些具有可操作性的意見和建議。
4.結構和格式(structure & format)。Wordsmith平臺需要用其自然語言生成功能對此前的分析和提煉得到的觀點進行故事化敘述,并按照需要生成各種形式的文本:長文、短新聞、可視化圖表為主的內容、推文、標題導語等等。
5.出版。Wordsmith平臺能夠將所生成的文章,通過多種方式,實時發布到客戶指定的平臺上。
綜合我們對機器新聞各種軟件和平臺的了解,迄今為止,機器新聞或內容寫作,使用最廣泛的四大領域是財經、體育、氣象地質和健康。支撐諸如Wordsmith這樣的自動寫作平臺有效工作的基礎性系統,就是直接來自所報道的組織或個體的各種監測資料、第三方提供的各種監測資料,以及連接到動態更新的云端數據庫。沒有大數據采集和挖掘、分析系統的支撐,機器自動新聞寫作就成了無源之水、無本之木。社會的信息傳播基礎設施和環境發展到今天,隨著各種隨身通訊設備,如智能手機和各種可穿戴式健康監測設備的普及,加上無處不在的上網條件和實時定位系統,使得我們可以對所關注的個體、群組、組織、行業等,進行多角度的信息收集和描述。社會正變得越來越透明,這是機器自動內容寫作風行的前提。
四、機器新聞與新聞業的重新定義
機器稿件生產系統的出現,將對新聞傳播行業帶來深刻而長遠的變化,這種影響首先體現在對新聞傳播行業的重新定義。新聞傳播行業的核心是內容的生產與傳播。機器內容生產的出現和興起,對于新聞傳播行業的影響,主要是內容的生產和編輯、出版或發布、推送方面。
首先,在一些綜合性通訊社或媒體中,一線內容生產的總體格局可能會發生重大變化。在前述財經、氣象/地質、體育、健康等領域的常規稿件的生產中,傳統的記者寫稿環節,可能會解構為記者“指導”下的機器寫稿和記者/編輯進行人工修改把關兩個環節。記者或編輯將主要通過基于算法的內容管理系統(即CMS)進行審核把關和稿件推薦。
其次,稿件生產會越來越依賴于媒體自己建設的數據庫以及實時的基于大數據的數據挖掘工作,這意味著在常規新聞寫作中,傳統的記者現場采訪的重要性和必要性可能會有所降低,而中介化在場感的獲得和營造將成為關鍵。
第三,稿件內容的發布和推送將會更加個性化、定制化,不同新聞終端消費者收到的內容可能會有不同的版本。基于對內容消費者消費偏好和方式的分析,在新聞發布和推送時作相應的個性化裁剪,是完全可以做到的。
可以看出,新聞傳播行業正在快速演變中,行業的信息技術含量會越來越重;與此同時,以往從事軟硬件平臺設計和開發的一些技術公司,將不可避免地“跨界”涉足內容服務行業,新聞傳播中信息服務業的比重會進一步加大。由于大量內容都加上了“時間戳”和地理位置信息,新聞和非新聞類內容的界限,也將更加模糊。
行業內涵和外延的變化,必然帶來新聞傳播學科的內涵和外延的變化,這直接體現在其學科的課程體系設置中。近年來,國內外不少新聞傳播院校,在“大傳播”理念下,紛紛加強了新媒體方面的課程內容比重,包括大量的信息和數據處理技術和信息藝術設計方面的課程。傳統的新聞傳播、信息科學、藝術設計學科日益交融。
由此也必然帶來新聞傳播從業者核心素養要求的變化。自動新聞生產的不斷改進和復雜化,將不斷擠壓新聞業中那些勞動密集型的工作或新聞生產環節,讓這些工作或生產環節,就工作量和所花費的時間而言,主要通過機器即可完成,人工的干預和關鍵決策,本質上仍會起到主導作用,但從工作量上而言,不再需要在創造性要求高度不均的各個環節都同等付出,而只需在一些關鍵環節上介入即可。
記者和編輯,由此需要重新定位自己工作的核心價值到底在哪里,時時考慮自己所從事的工作,是否具有一定智能的軟件或機器人也能勝任。新聞從業者的不可替代性,從長遠來看,必然來自其個性化特色的內容創作和創新編排、設計、內容傳播和推送策略的制定等,而不是其他。
金兼斌 作者是清華大學新聞與傳播學院教授、博士生導師