教人工智慧看電影,然後猜猜這齣電影花了多少錢~~~這可是物理界的大事!

#話都給我講就好系列-119-20190831

教 #人工智慧看電影,然後猜猜這齣電影花了多少錢~~~這可是物理界的大事!

最近有個叫Keaton Patti的傢伙,強迫一支AI機器人看了1000小時的 #蝙蝠俠電影,然後叫AI生出一個蝙蝠俠劇本,內容大概長這樣:

------------------------------------分隔線---------------------------------------
小丑:「我從來就不守規則,這就是我的規則。你遵守嗎?我可不遵守。」

蝙蝠俠:「阿福!快去生一個羅賓」

阿福就開始去生羅賓,因為這是他的工作。這時小丑手上出現一個禮物,他把禮物拋向蝙蝠俠。

小丑:「蝙蝠日快樂!生日俠」

因為蝙蝠俠是好人,所以他打開了禮物。裡面有著一張新父母兌換卷,但已經過期了,這就是個小丑式的玩笑。
------------------------------------分隔線---------------------------------------

(以上譯文引用自「#電影神搜」,全文請見:https://news.agentm.tw/…/ai-%E5%89%B5%E4%BD%9C-%E8%9D%99%E…/

看起來有各種 #神展開,令人期待(?)

不過今天真正要講的是,維吉尼亞大學與微軟合作的一個研究,建立了一個由4927部電影組成的資料庫,要試試AI為 #電影分類 的本事。

電影根據電影資料庫 #IMDB 的標記,總共分成13大類:動作、動畫、傳記、喜劇、犯罪、劇情、家庭、奇幻、恐怖、懸疑、浪漫、科幻、驚悚。不過有些電影會分在不只一類。

這個研究比較特別的地方是,它採用了包括「影像」、「聲音」、「劇情文字簡介」、「海報」、「metadata」這幾個不同屬性的資料來進行分別以及各種組合的綜合研究。

由於整部電影資料量太大,所以影像與聲音的部分只採用預告片,劇情簡介則是擷取維基百科中的資料。Metadata(可以翻做元資料、中繼資料、後設資料…可以用「拿來標記資料用的資料」)主要來自IMDB上的導演、語言、評價,此外還有海報上人臉的數目、評論數、臉書上的讚數等。

將這4927部電影中的70%作為「訓練資料集」餵給電腦然後告訴它答案,10%做交叉驗證(validation)、20%作為最後測試(考試)的資料。

最後的結果顯示,把影像、聲音、文字、海報、metadata全部都用上去,電腦的學習效果最好(不意外),平均的正確率是68.6%。其中命中率最高的是「喜劇」,達到91.5%,其次為「動畫」88.5%;最差的是「傳記」的36.6%以及「懸疑」的39.7%。

有趣的是,如果把五項要素分開來比,表現最好的不是影音,而是「劇情文字介紹」,光靠它正確率就可以達到67.7%,其他四個要素加上去也只提升了1%左右。最差的是海報,如果光從海報來猜電影的分類,正確率只有43.3%。此外,雖然「劇情文字介紹」在大部分的類型中奪冠,但是「影像」在「動畫」類的正確率高達95.7%,碾壓其他對手,不過這也不意外,動畫的影像特質跟真人電影本來就應該有明顯的差異。

研究團隊順便看看AI能不能猜出每部電影花了多少錢,他們把成本分為五個等級,最低的第一級是21.8萬~89萬鎂,最高的第五級是7200萬到3億鎂,結果表現最好的是matadata,正確率達到91.0%,其他幾樣都在40%以下。不過研究團隊認為這個結果不怎麼有趣,因為製作成本與「評論數」、「臉書讚數」的關連性太過明顯了。

其實我相信他們一定有做「#票房預估」這件事,但是按槓起來不發表…

什麼,這跟物理無關?想 #本超中二物理系主任 六年前寫 #科技部 的「#百人拓荒計畫」,標榜的是歡迎任何天馬行空、荒誕不羈的計畫,我就寫了跟這個研究幾乎一樣的計畫(不過是用統計而不是用AI來做,因為我那時根本還不知AI是啥鬼),只是不是拿來看電影,而是拿來看漫畫,不過科技部沒給我過…所以怎麼會跟物理無關,我說有關就是有關!

techxplore報導:
https://techxplore.com/ne…/2019-08-features-movie-genre.html

arXiv論文:https://arxiv.org/abs/1908.03180

#超中二物理系主任雜記
#等我征服世界就把深度學習列為全人類必修
#生命宇宙與萬事萬物什麼都馬跟物理有關
#話都給我講就好其之119

圖一:Keaton Patti(作家兼喜劇演員)強迫AI寫出來的蝙蝠俠劇本。(來源:Keaton Patti的Twitter)
圖二:本研究所用的電影資料庫樣本。(來源:arXiv)
圖三:利用「文字」、「影像」、「聲音」、「海報」、「Metadata」來對「劇情」、「動畫」、「傳記」、「奇幻」、「科幻」電影分類的正確率,可以看到除了動畫類是由影像奪冠以外,其他都是文字表現最好。(來源:arXiv)
圖四:最近臉書流傳的梗圖:你能從片頭畫面分辨何者是好片嗎?與本研究有異曲同工之妙,才怪(來源:臉書亂傳。至於答案是什麼?不知道的不要問,知道的不要講,以免被 #查水表

教 #人工智慧看電影,然後猜猜這齣電影花了多少錢~~~這可是物理界的大事!最近有個叫Keaton Patti的傢伙,強迫一支AI機器人看了1000小時的...

東海大學應用物理系發佈於 2019年8月31日 星期六

分類: 動漫和電影之中的物理學, 話都給我講就好, 資料訊息和機械科學,標籤: , , , 。這篇內容的永久連結

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *