近日,團隊2023級研究生陳泉霖、陸德華、馮偉森等在李景聰副教授、的悉心指導下,在中科院二區期刊《IEEE Transactions on Instrumentation and Measurement》成功錄用學術論文“HARFormer: A Masked Self-supervised Transformer-base Model for Human Activity Recognition with Predicting Somatosensory Tokens”。該論文自2025年3月提交,于2025年6月18日被正式接收。
人類活動識別是一種常見的任務,與物聯網緊密結合,傳統方法通過攝像頭、雷達或者3d骨架進行獲取。隨著智能手機和手表等穿戴設備的普及,通過傳感器獲取的加速度和角速度來判斷人類活動是一個更輕便的選擇。這種數據可以很廉價地獲得,但標注成本較高,這導致難以利用。為了更好的利用無標簽數據,我們提出了一種自監督框架。
該論文的主要亮點包括:
HARFormer的主要架構以及自監督預訓練的實現方法:
HARFormer由四部分組成:空間編碼器、時間編碼器、離散化切片與嵌入模塊以及Transformer全局建模器。
空間編碼器通過注意力機制為不同傳感器通道分配權重,時間編碼器使用深度卷積提取時間特征。
輸入的多通道時間序列被劃分為多個“感知補丁”,再通過位置嵌入加入時間和空間信息。
圖1 主要架構圖
2. 自監督預訓練
首先,通過向量量化技術構建“感知詞典”,通過vq-vae的方法將連續信號離散化為有限數量的“感知詞”,以獲得穩健、緊湊的特征。重建任務在頻譜域中完成,以便忽略低級的信息,防止模型過于擬合低級細節,提高了對噪聲和個體差異的魯棒性。
然后,采用掩碼預測任務:在無監督條件下遮蔽部分“token”,訓練模型預測被遮蔽內容,從而學習穩健的表示。為了更好地利用每個樣本,我們采取對稱掩碼的方式,將每個樣本利用兩次。我們方法的偽代碼如下:
圖2 預訓練架構圖
我們在三個數據集上和多種baseline進行對比,并提供了三種參數量的模型,結果表明我們的方法在少標簽的環境下不是第一就是第二,這證明了我們方法的有效性
表1 在三個數據集上與baseline相比
結論
該方法提出了一個統一、高效的HAR建??蚣堋Mㄟ^patch統一建模,使得我們的框架能適應多種數據類型。我們通過預測重構任務來學習穩健的特征。我們的方法在少標簽的場景下表現良好。我們期望該方法能推進人類活動識別以及物聯網的發展。
撰稿人:陳泉霖
審稿人:李景聰