王选所研究生参加MMM 2020

第26届国际多媒体建模会议(International Conference on Multimedia Modeling,简称MMM)于2020年1月5日至8日在韩国大田广域市举行。王选所硕士研究生王文光、田从州、张彤以及博士研究生黄志杰参加了此次会议。

MMM是面向研究人員和行業從業人員的國際領先會議,目的在于分享多媒體所有相關領域的新想法,原始研究結果和實際開發經驗。會議接受報告原始調查結果的研究性論文以及報告新穎的應用的演示。

參會人員合影(左起:王文光、田從州、黃志傑、張彤)

王選所師生在本次會議上共發表7篇文章,包括6篇oral長文和1篇poster,並在會議上做了口頭報告。論文具體信息如下:

1. Zhang T, Li X, Qi W, et al. Prediction-Error Value Ordering for High-Fidelity Reversible Data Hiding[C]//International Conference on Multimedia Modeling. Springer, Cham, 2020: 317-328.

该论文提出了一种新的可逆信息隐藏方法,称为预测误差值排序(PEVO)。 PEVO的主要思想是通过将预测误差扩展(PEE)与最新的像素值排序技术(PVO)相结合,来利用预测误差的相互关系。具体而言,首先对图像块内的预测误差进行排序,然后预测并修改该块的最大和最小预测误差以进行数据嵌入。通过所提出的方案,更好地利用了图像冗余,并实现了良好的嵌入性能。

張彤同學做報告

2. Yunchang Li, Zhijie Huang, Jun Sun. An Efficient Encoding Method for Video Compositing in HEVC.

該論文提出了一種有效的視頻融合方法,即使用傳入的原始碼流信息對融合視頻的編碼進行加速。根據視頻幀是否被插入的視頻所覆蓋,我們將其分爲了插入區域和非插入區域。針對插入區域,由于縮小視頻並不會改變視頻的時域與空域相關性,我們提出了能夠克服網格非對齊問題的基于原始分辨率視頻統計信息的預測模式決策算法。進一步地,我們利用了運動矢量信息來決策預測塊的劃分。針對非插入區域,視頻內容保持完全一致。考慮到插入區域的編碼可能會對非插入區域産生影響,我們對信息複用進行了充分地討論,保證了信息重用後的編碼質量。所提出的方法與傳統方法相比,編碼速度得到了有效提升

黃志傑同學代表李雲暢同學做報告

3. Wenguang Wang, Zhouhui Lian, Yingmin Tang, Jianguo Xiao. DeepStroke: Understanding Glyph Structure with Semantic Segmentation and Tabu Search

該論文提出一種新的筆畫提取框架,通過改進的語義分割模型DeepStroke分割筆畫,通過禁忌搜索獲取筆順信息。論文提出的方法在精度提高的同時,大大減少了筆畫拆解時間(每張圖20-30s降低到120ms)。

王文光同學做口頭報告

4. Zhijie Huang, Yunchang Li, Jun Sun. Efficient HEVC Downscale Transcoding Based on Coding Unit Information Mapping.

該論文提出了利用CU信息重用的下采樣轉碼方法,通過利用原分辨率編碼的CU深度信息和模式信息來加速當前分辨率視頻編碼,當前編碼速度得到了極大提升,且質量損失不大。

黃志傑同學poster展示

5. Yafeng Zhou, Yongtao Wang, Zheqi He, Zhi Tang, Ching Y. Suen:Towards Accurate Panel Detection in Manga: A Combined Effort of CNN and Heuristics. MMM (1) 2020: 215-226.

分鏡是漫畫頁面的基本元素,因此,分鏡的檢測是高級漫畫內容理解的基礎。現有的分鏡檢測方法可以分爲基于啓發式的方法和基于CNN(基于卷積神經網絡)的方法。盡管前者可以准確地定位分鏡,但是他們無法處理精巧的分鏡,並且需要爲每個新的困難案例花費大量精力來制定手工規則。相比之下,基于CNN的方法的檢測結果可能是粗糙且不准確的。該論文利用CNN目標檢測器來提出粗略的指導分鏡,然後使用啓發式方法來提出分鏡候選對象,最後優化能量函數以選擇最合理的候選對象。CNN可以確保對幾乎所有類型的分鏡進行大致的局部檢測,而後續程序可以完善檢測結果,並借助啓發式方法和能量最小化功能,將檢測到的分鏡與地面真相之間的余量最小化。實驗結果表明,所提出的方法在分鏡檢測F1得分和頁面准確性方面優于以前的方法。

6. Congzhou Tian, Deshun Yang, and Xiaoou Chen. A Distinct Synthesizer Convolutional TasNet for Singing Voice Separation

該論文將時域分離網絡conv-tasnet首次應用于人聲伴奏分離任務上,並提出了不同的合成器的conv-tasnet進行人聲伴奏分離,取得了更好的效果。

7. Congzhou Tian, Hangyu Li, Deshun Yang, and Xiaoou Chen. Gen-Res-Net: a Novel Generative Model for Singing Voice Separation

該論文提出了基于聲譜圖的人聲伴奏分離網絡Gen-Res-Net,在相同任務上擊敗了同樣基于聲譜圖的分離網絡U-Net。

CLOSE

上一篇 下一篇