2019 第三屆中山大學“計算社會科學講習班”

發布人:蔣文涵
活動時間
-
活動地址
中山大學南校園(廣州市海珠區新港西路135号)

 

2019 第三屆中山大學計算社會科學講習班

 

 

 

    時間:2019721731

地點中山大學南校園(廣州市海珠區新港西路135

主辦單位中山大學社會學與人類學學中山大學社會科學調查中心,

          中山大學國家治理研究

報名方式:請點擊報名鍊接https://www.wjx.cn/jq/41604778.aspx 或掃描  

          方二維碼填寫報名表

無

 

報名截止時間:2019712400

 

大數據時代的到來使得社會科學研究發生了重大變革。一方面大數據的出現為社會科學研究提供了傳統社會調查方法無法獲取的海量的新的數據,這些數據呈現規模大、時空跨度大、來源多範圍廣、多元化等特征,使得社會科學的分析對象由傳統的截面數據主導,變為截面數據、時間序列、面闆數據、空間數據、文本數據、網絡數據并存的格局。另一方面,大數據時代的到來也促進了數據提取、挖掘和分析技術的迅速發展,也給社會科學帶來了方法論革新機遇。在大數據時代背景下,計算社會科學這一新的社會科學研究範式(或者說新的交叉學科)應運而生為推動計算社會科學在中國的發展,培養計算社會科學的研究者,太阳集团1088vip将于2019年暑期舉辦第三屆“計算社會科學講習班”

講習班采用教員授課與學生實踐相結合的形式進行。課程将以密集教學形式,通過四個專題課程和一個主題講座對計算社會科學中重要的數據來源、分析工具、研究方法和研究實例進行介紹,讓學員在短時間内掌握實用的大數據分析理論和工具。在實踐環節,我們将組織學生通過組隊比賽的方式對教學内容進行實踐,評選出優勝隊伍,頒發榮譽證書。

講習班不收取任何課程費用,所有學員食宿需自理。我們熱誠歡迎國内各高等院校和科研院所的青年老師、博士、碩士研究生報名參加

 

 

 

課程安排

專題

主題

時間

專題一

機器學習:理論與實踐

7.21

7.22

7.23

專題二

文本數據處理與建模

7.24

7.25

比賽 1

分小組針對專題一、二進行比賽

7.26

專題三

大數據、機器學習的人文社科應用

7.27

7.28

專題四

社會科學家的人工智能工具箱

7.29

主題講座

大規模在線社交網絡上的計算傳播學

7.30 上午

比賽 2

分小組針對專題三、四進行比賽

7.30 下午

7.31 上午

結業

頒獎儀式暨散學典禮

7.31下午

 

 

課程内容介紹

 

專題一機器學習:理論與實踐

    傳統的社會科學的量化實證研究主要基于理論驅動,研究者提出研究假設,通過數據分析來對研究假設進行驗證。而在大數據時代,這種依靠人的智能理論驅動的研究範式無法處理維度、動态變化的數據,因而存在很大的局限性。而随着人工智能的發展,機器學習方法以數據驅動的範式,憑借計算機強大的計算能力可以複雜的數據進行分析,成為學術研究中不可或缺重要工具和驅動力。

    本專題将結合具體的研究實例機器學習的重要概念方法原理進行介紹,并結合Stata軟件學員最快的速度上手機器學習。本課程将結合案例講解以下内容: (1) 機器學習的基本概念;(2) 各類有監督和無監督學習;(3)集成學習(4)神經網絡;(5)基于機器學習的因果推斷前沿技術。

 

專題二文本數據處理與建模 

    大數據時代,海量關于人們所做、所知、所想以及所感覺的信息被保存于數字化文本之中,這些數字化文本類型豐富,不僅包括網站和社交媒體的信息,同樣包括數字化書籍、政府或公司政策文件、訪談文本等文本數據,數字化文本數據的積累使社會科學學者可以從更細的顆粒度、更大的樣本規模上持續性的捕捉所感興趣内容的長期變化。海量文本數據,在為社會科學帶來研究機會的同時,也為如何基于特定研究目的選擇合适的文本數據并使用合适的文本建模方法加以分析提供了新的需求。

針對不同來源的非結構化的文本數據,本專題嘗試梳理文本挖掘技術的發展及其stata實現,并結合研究實例探讨其在社會科學中的适用性和具體應用場景,主要内容包括:(1)文本數據預處理與描述性分析;(2)語義網絡分析;(3)基于LSA的文本相似度計算;(4)無監督模型原理介紹與stata實現。

 

專題三:大數據、機器學習的人文社科應用  

    在當代人文社科研究的前沿,出現了新型的重要數據來源和研究範式。其中,大數據的出現為人文社科定量研究提供了新的資料,使得人文社科定量分析的對象,由傳統的截面數據主導變為多元數據并存的格局,使得社會分析的層次從個體微觀主導向宏觀群體層面拓展,有力推進了定量分析的深度、廣度和理論高度。而機器學習等新方法的引入則使得社會科學定量分析的學科宗旨出現了全新的拓展:從傳統的關聯分析、因果分析,走向基于數據資料的社會預測。預測範式的産生,是社會科學的内在必然要求。基于機器學習的社會預測,具有重要的學術和政策價值,将成為人文社科定量分析的重要新型範式。

    利用近千萬書籍的文本語料庫、新聞數據庫和各類互聯網搜索引擎、自媒體平台資料等大數據,利用監督學習、無監督學習等機器學習方法和思路,當下人文社科和社會治理研究的深度與廣度得到快速拓展。無論是階層階級、意識形态、社會信念、社會網絡、社會行為等經典社會科學概念和理論,還是城市發展、社會治理、輿情傳播、量化曆史、流空間體系、文化軟實力等跨學科領域,陳雲松教授及其團隊近年來的一系列研究,初步展示了海量數據和機器學習方法對于推動人文社科發展和助力社會治理的重要價值。本專題将通過案例解讀、思維梳理、案例展示,以及具體實戰方法、編程演練的結合,詳細講授如何進行大數據分析與基于機器學習的社會預測,充分展示如何理解大數據背後的關鍵信息、如何利用大數據提取出傳統方法難以企及的信息資料、如何用大數據思維和機器學習方法來助力社會治理和拓展人文社會研究新疆域。

 

專題社會科學家的人工智能工具箱 

    互聯網技術以一種“元驅動力”的結構定位不斷推動着社會形态的變革,逐漸走向鼎盛。人工智能作為“後互聯網時代”的顯著技術特征,也已經開始顯露端倪。2017年,國務院發布《新一代人工智能發展規劃》,提出“到2030年,使中國成為世界主要人工智能創新中心”,意味着人工智能正式上升為國家戰略。事實上,近年來,中國在人工智能領域密集出台相關政策,更是在20172018以及2019年連續三年的政府工作報告中提及人工智能。無庸置疑,人工智能時代已來。

從技術的角度來看,人工智能借助标注數據和先驗知識獲得快速發展,突出體現于感知智能和認知智能,分别對應以機器學習尤其是深度學習為代表的聯結主義和以知識圖譜中邏輯表示和推理為代表的符号主義。此外,人工智能引發的倫理讨論日益進入社會責任的議程,這同樣需要在技術層面考量和落實倫理的要求。為推動人工智能在社會科學領域中的理解和應用,發展計算社會科學,開拓大數據與社會科學研究結合的策略視野,最終提高研究的創新水平和工作效率,本課程結合具體案例講解以下内容:(1)基于深度學習的自然語言處理和圖像理解,零算法基礎定制高精度AI模型;(2)知識圖譜在社會計算中的應用;(3)機器學習中與公平性相關的技術措施,降低出現負面後果的風險。

 

專題講座大規模在線社交網絡上的計算傳播學  

    Online social networks have emerged as an important medium for the spread of information and influence, and have been used in political campaign, marketing, disaster relief, social sensing, etc. All these important applications rely on how information spreads in social media networks. Most studies assume that information spreading is a percolation process and large cascades occur only when the retweet probability of information items exceeds the percolation critical point, also known as the tipping point. However, whether this widely used hypothesis is valid in current large-scale social media remains unclear. Here we continuously observe 192 thousand usersretweeting behaviors in Weibo, the biggest microblog social medium in China, for half a year, crawl 99 million usersfriendship data, almost the whole network, and collect a large number of information tracks in the same period of time. We find that the cascading threshold is only one tenth of that theoretically obtained previously, and 98.4% of the information items that have led to outbreaks in real social media could be incorrectly predicted to be at non-outbreak states by the existing theories, meaning that the capacity of social media to spread information has been seriously underestimated. Through systematic analyses we discover a positive-feedback coevolution phenomenon between user retweet activity and network structure, which is driven by individualsimmersion in using social media. We also detect this immersion behavior in a large sub-network of Twitter. Incorporating the coevolution mechanism into network percolation theory, we offer a novel model that is able to predict the tipping point and the cascading size in good agreement with empirical data. Our findings unveil the extra-structural capacity of social media to spread information, applicable to a wide range of problems pertaining to information cascades on networks.