人工智能文生視頻大模型在新聞傳播領(lǐng)域的應(yīng)用探析
摘?要:發(fā)展新質(zhì)生產(chǎn)力是推動(dòng)高質(zhì)量發(fā)展的內(nèi)在要求和重要著力點(diǎn)。作為新質(zhì)生產(chǎn)力的人工智能文生視頻大模型,Sora的誕生吸引著全球目光。本文從Sora的技術(shù)突破入手,深入探討其在新聞傳播領(lǐng)域的潛在應(yīng)用價(jià)值,并進(jìn)一步展望Sora在軍事信息傳播領(lǐng)域的廣闊應(yīng)用前景。
關(guān)鍵詞:人工智能;文生視頻大模型;新聞傳播
2024年2月16日,繼ChatGPT發(fā)布1年左右,OpenAI推出文生視頻大模型Sora,迅速刷屏整個(gè)AI圈。這一創(chuàng)新性的技術(shù)突破,不僅將人工智能的應(yīng)用范圍推向了新的高度,更在新聞傳播和軍事領(lǐng)域展現(xiàn)出巨大的潛力。發(fā)展新質(zhì)生產(chǎn)力是推動(dòng)高質(zhì)量發(fā)展的內(nèi)在要求和重要著力點(diǎn)。作為新質(zhì)生產(chǎn)力的人工智能文生視頻大模型,Sora的誕生吸引著全球目光。本文從Sora的技術(shù)突破入手,深入探討其在新聞傳播領(lǐng)域的潛在應(yīng)用價(jià)值,并進(jìn)一步展望Sora在軍事信息傳播領(lǐng)域的廣闊應(yīng)用前景。
一、人工智能文生視頻大模型Sora的技術(shù)突破
事實(shí)上,Sora并非首個(gè)文生視頻大模型,在此之前,Runway、Pika、Stable Video Diffusion 已經(jīng)掀起過一波 AI 視頻浪潮。Sora 的橫空出世之所以還能引起如此大的震撼,關(guān)鍵在于它將擴(kuò)散模型(Diffusion Models)與 ChatGPT 所用的大型語言模型(LLM)相融合,使 OpenAI 在人工智能視頻領(lǐng)域?qū)崿F(xiàn)了三個(gè)方面的技術(shù)突破。
長(zhǎng)時(shí)連貫性和高清分辨率。在視頻生成領(lǐng)域,維持長(zhǎng)視頻的時(shí)間連貫性是一個(gè)挑戰(zhàn)。對(duì)比其他文生視頻模型,如Pika僅支持生成一段3秒的視頻,Runway公測(cè)版本視頻時(shí)長(zhǎng)僅為4秒,網(wǎng)頁版最長(zhǎng)也僅支持18秒的視頻生成,Sora可以根據(jù)用戶的文本提示(Prompt)創(chuàng)建最長(zhǎng)60秒1080P高清分辨率的連貫視頻,在時(shí)長(zhǎng)上實(shí)現(xiàn)數(shù)量級(jí)飛躍。Sora的突破得益于NaViT(Native Resolution Vision Transformer)技術(shù),NaViT 可高效處理任何長(zhǎng)寬比或分辨率的圖像,允許它們直接輸入模型而無需事先調(diào)整?;诖思夹g(shù),Sora能夠生成寬屏的1920×1080p視頻、豎屏的1080×1920p視頻以及它們之間的各種格式,通過無縫處理各種尺寸和形狀的視頻和圖像,大大提高了Sora的靈活性和適應(yīng)性。
三維一致性和物體同一性。相比 Pika、Runway等只能生成較為單一的鏡頭語言,Sora的一個(gè)顯著特點(diǎn)是能夠?qū)崿F(xiàn)“運(yùn)鏡”,即在一段視頻中圍繞同一主體實(shí)現(xiàn)遠(yuǎn)景、中景、近景、特寫等不同鏡頭的切換。這意味著在生成的視頻中,攝像機(jī)可以模擬真實(shí)的移動(dòng)和旋轉(zhuǎn)效果,使得人物和場(chǎng)景元素在三維空間中以一種連貫和一致的方式移動(dòng)。此外,Sora還能較好地處理物體和畫面的依賴關(guān)系,這意味著它能夠在視頻中保持人物、動(dòng)物和物體的一致性,即使它們?cè)诋嬅嬷斜徽趽趸螂x開。Sora還能在視頻的不同鏡頭中生成同一角色,并確保角色的外觀在整個(gè)視頻播放過程中保持一致。這些能力顯著提高了視頻內(nèi)容的質(zhì)量和觀看體驗(yàn),盡管在某些情況下,模型仍需改進(jìn)以確保完全的時(shí)間連貫性。
物理世界模擬器。以往的AI生成視頻大部分是基于“大模型+大數(shù)據(jù)”架構(gòu),難以突破AI幻覺問題。OpenAI 宣稱,Sora已經(jīng)具有了“世界模型”的雛形,其生成的視頻是基于對(duì)真實(shí)物理世界的理解和重建,它能準(zhǔn)確解釋道具并生成引人注目的角色來表達(dá)充滿活力的情感。從OpenAI公開的視頻來看,它可以根據(jù)文字描述“一名時(shí)髦女士穿梭在充滿溫暖霓虹燈光和動(dòng)感城市標(biāo)志的街道上”,生成一段包含有多鏡頭的高清晰視頻,包括從大街景切入對(duì)女士臉部表情的特寫,以及潮濕的街道地面反射霓虹燈的光影效果。又如,Sora生成的雪地里打滾玩耍的小狗的視頻,狗的毛發(fā)、神態(tài),以及用鼻子拱雪時(shí)飛濺的雪粒子,所有的效果都讓人感覺非常真實(shí)。
二、人工智能文生視頻大模型在新聞傳播領(lǐng)域的應(yīng)用潛力與價(jià)值
以Sora為代表的人工智能文生視頻大模型作為一種新質(zhì)生產(chǎn)力,其應(yīng)用領(lǐng)域極為廣泛,涵蓋所有需要高效處理文本、圖像和視頻信息的領(lǐng)域,如影視、廣告、教育、醫(yī)療等行業(yè),同時(shí)也展現(xiàn)出在新聞傳播領(lǐng)域廣闊的應(yīng)用前景。
提高新聞質(zhì)效。傳統(tǒng)的新聞制作流程相對(duì)繁瑣復(fù)雜,需要大量人力和時(shí)間投入。而Sora強(qiáng)大的文本到視頻生成能力,使得新聞工作者能夠迅速將文字描述轉(zhuǎn)化為視頻內(nèi)容。這不僅大大縮短了新聞制作周期,提高了時(shí)效性,同時(shí)也可保證新聞內(nèi)容的準(zhǔn)確性和完整性。特別是在地震、火災(zāi)等突發(fā)事件報(bào)道中,文生視頻大模型可以根據(jù)現(xiàn)場(chǎng)傳來的文字描述和少量圖片,快速生成現(xiàn)場(chǎng)模擬視頻,使用戶能夠第一時(shí)間了解事件概況。此外,隨著技術(shù)的不斷進(jìn)步,文生視頻大模型生成的視頻質(zhì)量也在不斷提升,畫面更加清晰、逼真,為用戶帶來了更加優(yōu)質(zhì)的視覺體驗(yàn)。
創(chuàng)新報(bào)道方式。對(duì)于一些復(fù)雜的科學(xué)原理或技術(shù)進(jìn)展,傳統(tǒng)的文字和圖片報(bào)道往往難以直觀地傳達(dá)給用戶。而文生視頻大模型可以通過模擬動(dòng)畫、3D建模等方式,將這些抽象的概念具象化,生成生動(dòng)有趣的視頻內(nèi)容。此外,文生視頻大模型還可以應(yīng)用于一些特殊場(chǎng)景的報(bào)道中。比如,在報(bào)道一些歷史事件或文化遺產(chǎn)時(shí),由于時(shí)間久遠(yuǎn)或保護(hù)限制,無法獲取現(xiàn)場(chǎng)畫面。這時(shí),文生視頻大模型可以通過模擬重建歷史場(chǎng)景,讓用戶穿越時(shí)空,親身體驗(yàn)歷史文化的魅力。這種創(chuàng)新的報(bào)道方式不僅可豐富新聞報(bào)道的內(nèi)容形式,也可提升用戶對(duì)歷史和文化的認(rèn)識(shí)和興趣。
豐富多媒體生產(chǎn)。在新聞傳播領(lǐng)域,多媒體內(nèi)容的創(chuàng)作和呈現(xiàn)已經(jīng)成為一種趨勢(shì)。文生視頻大模型可以將文字、圖片、音頻和視頻等多種媒體形式融合在一起,生成多媒體新聞報(bào)道,提高信息的傳達(dá)效率,優(yōu)化用戶的閱讀體驗(yàn)。新聞機(jī)構(gòu)可以利用文生視頻大模型來制作更加豐富多樣的新聞報(bào)道,如生成虛擬主播進(jìn)行新聞播報(bào),為用戶帶來新穎的視聽體驗(yàn);報(bào)道涉及多個(gè)地點(diǎn)的新聞事件時(shí),根據(jù)文本描述生成交互式新聞地圖,在地圖上標(biāo)注事件發(fā)生地、相關(guān)地點(diǎn)以及人員流動(dòng)等信息,用戶可以通過點(diǎn)擊或拖動(dòng)來查看更多細(xì)節(jié),獲得更直觀的空間感知。
推動(dòng)個(gè)性化生產(chǎn)。隨著互聯(lián)網(wǎng)的飛速發(fā)展和個(gè)性化需求的日益增長(zhǎng),用戶對(duì)于新聞內(nèi)容的需求愈發(fā)多樣化和精細(xì)化,文生視頻大模型以其獨(dú)特的優(yōu)勢(shì)可滿足這一迫切需求。對(duì)于新聞機(jī)構(gòu)而言,文生視頻大模型的引入為其提供了訂制專屬新聞報(bào)道內(nèi)容的能力。他們可以根據(jù)用戶的興趣和偏好,將文生視頻大模型與大數(shù)據(jù)算法相結(jié)合,生成符合不同用戶口味的新聞報(bào)道,大大提高針對(duì)性和可讀性。對(duì)用戶而言,文生視頻大模型具有極大的吸引力,他們可以根據(jù)自己的需求,輕松生成個(gè)性化的新聞視頻。這種個(gè)性化的內(nèi)容生成方式,不僅滿足了用戶的信息獲取需求,還帶來了全新的沉浸式體驗(yàn)。
三、人工智能文生視頻大模型在軍事信息傳播領(lǐng)域中的應(yīng)用思考
人工智能文生視頻大模型在軍事信息傳播領(lǐng)域中的應(yīng)用,既要用于平時(shí),更要用于戰(zhàn)時(shí)。
(一)平時(shí)應(yīng)用
人工智能文生視頻大模型憑借其強(qiáng)大的文本到視頻轉(zhuǎn)換能力、個(gè)性化內(nèi)容生成功能以及高效的數(shù)據(jù)處理能力,拓寬了平時(shí)軍事知識(shí)普及、黨史軍史傳播創(chuàng)新、軍事教學(xué)傳播優(yōu)化等路徑。
軍事知識(shí)普及。普及軍事知識(shí)是維護(hù)國(guó)家安全、提升民眾國(guó)防意識(shí)的基礎(chǔ)。傳統(tǒng)的軍事知識(shí)傳播往往受限于文字和圖片,難以充分展示軍事領(lǐng)域的復(fù)雜性和深刻性。而文生視頻大模型通過文字轉(zhuǎn)視頻的方式,將軍事知識(shí)以生動(dòng)、直觀的形式呈現(xiàn)出來,使公眾能夠更容易理解和接受。例如,可以通過制作軍事科普動(dòng)畫和短視頻,將復(fù)雜的軍事知識(shí)以簡(jiǎn)潔易懂的方式呈現(xiàn)給官兵。這些動(dòng)畫和短視頻采用生動(dòng)的畫面和有趣的解說,讓官兵在輕松愉快的氛圍中學(xué)習(xí),提高軍事知識(shí)的普及率和影響力。文生視頻大模型還可以通過構(gòu)建高清晰度的武器裝備三維模型,結(jié)合線上云展廳,打破時(shí)間和空間的局限,為官兵呈現(xiàn)武器裝備的結(jié)構(gòu)及工作原理。這種立體化呈現(xiàn)可以讓官兵對(duì)武器裝備有更加深入、直觀的認(rèn)識(shí),進(jìn)而激發(fā)官兵愛裝管裝的主動(dòng)意識(shí)。
黨史軍史傳播創(chuàng)新。黨史軍史傳播,是軍事新聞傳播中不可或缺的一環(huán)。文生視頻大模型的應(yīng)用,不僅可以將這些珍貴的歷史資料以更加鮮活的方式呈現(xiàn)在受眾面前,更能通過其先進(jìn)的數(shù)據(jù)分析和可視化手段,深入挖掘這些資料背后的深層含義和故事。例如,在軍史館中,可以將文生視頻技術(shù)與虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)技術(shù)相融合,重現(xiàn)那些驚心動(dòng)魄的戰(zhàn)爭(zhēng)場(chǎng)面,讓官兵仿佛置身于戰(zhàn)火紛飛的年代,親身感受先輩們的英勇無畏;在旅、團(tuán)史館中,可以運(yùn)用文生視頻技術(shù)帶來的數(shù)據(jù)可視化功能,展示部隊(duì)的發(fā)展歷程和重大成就,讓官兵深入了解本單位歷史及傳承;在營(yíng)、連榮譽(yù)室中,文生視頻技術(shù)則可以將那些值得銘記的時(shí)刻和事件永久地記錄下來,激勵(lì)官兵崇尚榮譽(yù)、創(chuàng)先爭(zhēng)優(yōu),提高部隊(duì)?wèi)?zhàn)斗力。
軍事教學(xué)傳播優(yōu)化。在軍事訓(xùn)練教學(xué)中,文生視頻大模型的應(yīng)用遠(yuǎn)不止實(shí)時(shí)視頻生成和高效處理。它的功能強(qiáng)大且多樣,可以深入訓(xùn)練的各個(gè)環(huán)節(jié),為提升部隊(duì)?wèi)?zhàn)斗力和官兵綜合素質(zhì)提供有力支持。例如,文生視頻技術(shù)可以應(yīng)用于戰(zhàn)術(shù)演練和協(xié)同作戰(zhàn)訓(xùn)練。通過模擬復(fù)雜的戰(zhàn)術(shù)場(chǎng)景和多兵種協(xié)同作戰(zhàn)的虛擬環(huán)境,讓官兵在推演中掌握各種戰(zhàn)術(shù)技巧,提高協(xié)同作戰(zhàn)能力。文生視頻技術(shù)還可以用于心理抗壓訓(xùn)練?,F(xiàn)代戰(zhàn)爭(zhēng)對(duì)官兵的心理素質(zhì)要求極高,文生視頻大模型能夠模擬出緊張、激烈的戰(zhàn)場(chǎng)環(huán)境,讓官兵在訓(xùn)練中體驗(yàn)到真實(shí)的壓力和挑戰(zhàn),逐漸適應(yīng)戰(zhàn)場(chǎng),提高抗壓能力。
(二)戰(zhàn)時(shí)應(yīng)用
人工智能文生視頻大模型的特殊功能,在戰(zhàn)時(shí)軍事信息傳播方面具有廣闊的應(yīng)用前景。
快速生成戰(zhàn)況報(bào)道。文生視頻大模型能夠顯著提高戰(zhàn)況報(bào)道的時(shí)效性。傳統(tǒng)的戰(zhàn)況報(bào)道往往需要依賴現(xiàn)場(chǎng)拍攝和后期編輯,過程繁瑣且耗時(shí)較長(zhǎng)。而文生視頻技術(shù)能夠迅速將戰(zhàn)況信息轉(zhuǎn)化為直觀的視頻內(nèi)容,實(shí)現(xiàn)即時(shí)播報(bào)。通過輸入詳細(xì)的文本描述,不僅可以快速生成包含多種元素和場(chǎng)景的戰(zhàn)況視頻,如戰(zhàn)場(chǎng)環(huán)境、人員行動(dòng)、武器裝備等,還可以生成不同角度、不同景別的視頻內(nèi)容,使戰(zhàn)況報(bào)道更加全面。此外,文生視頻技術(shù)還可以提高戰(zhàn)況報(bào)道的準(zhǔn)確性和可靠性。衛(wèi)星圖像通常具有較廣的覆蓋范圍和高分辨率,能夠提供戰(zhàn)場(chǎng)的宏觀視圖和關(guān)鍵細(xì)節(jié),無人機(jī)偵察數(shù)據(jù)則具有實(shí)時(shí)性和靈活性,能夠迅速獲取特定區(qū)域的高清視頻和圖像,當(dāng)文生視頻大模型與這些信息源結(jié)合時(shí),可以形成互補(bǔ)和增強(qiáng)的效果,提供更準(zhǔn)確、可靠的戰(zhàn)場(chǎng)信息。
戰(zhàn)場(chǎng)決策直觀呈現(xiàn)。對(duì)于指揮員來說,快速、準(zhǔn)確地作出決策至關(guān)重要。一方面,通過輸入相關(guān)的文本描述或圖像,文生視頻大模型能夠迅速生成高清視頻,展示戰(zhàn)場(chǎng)的整體布局、敵我力量對(duì)比、火力分布等關(guān)鍵信息,為指揮員提供直觀、全面的戰(zhàn)場(chǎng)態(tài)勢(shì)。另一方面,在戰(zhàn)場(chǎng)決策中,指揮員往往需要考慮多種可能性和方案,以便在復(fù)雜多變的戰(zhàn)場(chǎng)環(huán)境中靈活應(yīng)對(duì)。文生視頻大模型可以根據(jù)指揮員的指令,迅速生成不同方案下的戰(zhàn)場(chǎng)模擬視頻,幫助指揮員更全面地了解各種方案的效果和潛在風(fēng)險(xiǎn),作出最優(yōu)決策。此外,當(dāng)指揮部需要向前線部隊(duì)傳達(dá)作戰(zhàn)指令或調(diào)整作戰(zhàn)計(jì)劃時(shí),可以利用文生視頻大模型生成視頻形式的指令內(nèi)容,并通過加密通道進(jìn)行傳輸。前線部隊(duì)在接收指令后,可以迅速理解并執(zhí)行,確保作戰(zhàn)行動(dòng)的順利進(jìn)行。
輿情引導(dǎo)信息攻防。戰(zhàn)爭(zhēng)期間,輿情的變化對(duì)于戰(zhàn)爭(zhēng)的走向具有重要影響。文生視頻大模型可以利用大數(shù)據(jù)分析技術(shù),對(duì)公眾的情緒、態(tài)度和行為進(jìn)行深入研究,生成針對(duì)性內(nèi)容,精準(zhǔn)投送至目標(biāo)用戶,提高輿論引導(dǎo)的效率。文生視頻大模型還可以創(chuàng)建虛擬意見領(lǐng)袖,為特定的觀點(diǎn)或立場(chǎng)發(fā)聲。這些虛擬人物可以設(shè)計(jì)得具有高度的真實(shí)感和可信度,能夠在社交媒體上吸引大量的粉絲和關(guān)注者,從而影響和引導(dǎo)公眾的觀點(diǎn)。此外,結(jié)合深度偽造技術(shù),文生視頻大模型還可以生成大量的虛假新聞、謠言等,通過網(wǎng)絡(luò)水軍、機(jī)器人賬號(hào)等方式在對(duì)方境內(nèi)廣泛傳播,造成敵方的信息混亂和信任危機(jī)。
(作者單位:國(guó)防大學(xué)軍事文化學(xué)院)
責(zé)任編輯:姜興華