<video id="71low"></video>

            ITPub博客

            首頁 > IT職業 > IT職場 > 讓 AI 無處不在:滴滴與螞蟻金服開源共建 SQLFlow

            讓 AI 無處不在:滴滴與螞蟻金服開源共建 SQLFlow

            原創 IT職場 作者:支付寶技術團隊 時間:2019-10-23 09:53:30 0 刪除 編輯

            2018 年 1 月,Oracle 的官方博客上發表了一篇文章,標題是“It's Pervasive:AI Is Everywhere”。作為全球最著名的商業數據庫系統提供商,Oracle 在這篇文章里歷數了 AI 在企業信息系統中的發展空間。在面向最終用戶的互聯網行業,巨頭們招募 AI 專家,用 Python 和 C++ 打造服務大眾的特定 AI 能力——搜索、推薦、以及精準定向的互聯網廣告系統。在企業業務中,使用 SQL 的分析師是大多數。

            滴滴首席數據科學家謝梁(左)與螞蟻金服研究員王益開啟共建SQLFlow之旅

            2019 年 7 月,滴滴的數據科學(Data Science)團隊的幾名數據科學家在北京新澄海大廈見到了來自螞蟻金服的幾位工程師。在那之前兩個月,螞蟻金服從事 AI 基礎架構研發的王益團隊開源了一款機器學習工具 SQLFLow,將 SQL 程序翻譯成 Python 程序,調用數據庫和 AI 引擎,實現端到端的 AI。滴滴首席數據科學家謝梁敏銳地關注到這個項目。這次拜訪雙方一拍即合,開啟了共建 SQLFlow 之旅。

            用 SQLFlow 構建 AI 的訓練和預測任務

            數據分析師的普適 AI 

            數據驅動決策是很多公司的追求,在國內很多業務人員都了解 SQL,但是對于 AI、深度學習模型的訓練,需要長時間系統性的學習,有一定的門檻。SQLFLow 的出現讓包括數據分析師在內的業務人員通過寫簡單的 SQL 去調用 AI 模型成為了可能。滴滴數據科學團隊長期地直面一線業務,了解業務需求,也沉淀了很多常用模型。本次合作雙方希望優勢互補共同助力 AI 的落地,據悉合作分為三步,第一步滴滴為螞蟻金服貢獻更多針對于業務產品的理解和洞見;第二步滴滴將公司自身業務場景最有價值用的最好的模型貢獻到 SQLFLow;第三步滴滴加入到建設到整個 SQLFLow 開源社區的建設,雙方要在模型、社區、文化等全方位共建。

            SQLFlow的技術架構

            一個多月的時間,滴滴已經為 SQLFLow 貢獻了基于 DNN 分類預測模型、可解釋模型和無監督聚類模型三個高價值模型。這三個模型覆蓋的場景非常廣泛,對于滴滴內部來說,包括網約車、單車、金融等在內的諸多業務場景都可應用起來,于外部而言,“因為整個模型它是一種基礎能力,其實它不會局限于某一個公司或某一個行業,它具有普適性。”滴滴高級數據科學家高梓堯強調。

            SQLFlow 和滴滴數據的整合邏輯

            比如分類預測模型,適用于做產品增長的場景,對特定人群進行定向推薦。而無監督聚類模型,也就是模式識別,在滴滴的產品的應用非常廣,比如會根據司機出車時長分布,去整合歸納司機出車的偏好,更好地為司機提供調度建議,進而幫助緩解出行供需。

            滴滴首席數據科學家謝梁認為在共建 SQLFlow 過程中,充分體現了算法和數據科學在對數據的理解和應用上的兩個不同,以及雙方優勢互補形成 1+1 大于 2 的合力效果。因為對于傳統的算法來講主要強調對于預測一個給定事件的預測精準性。但是數據科學在預測精準性之上,還強調預測的可解釋性。實際上在更廣泛的商業層面上,比如運營、營銷等更需要了解為什么會這這樣發生,這對于業務戰略制定、營銷方案的確定,以及整個產品序列的設計都有非常大的幫助。

            滴滴數據科學團隊在過去不到兩個月的共建工作中顯著擴大了 SQLFlow 的應用場景。根據螞蟻金服 SQLFlow 項目的產品負責人劉勇峰介紹,滴滴的同事們建議并且參與研發了 SQLFlow 對接 XGBoost 的功能,從而在深度學習模型之外支持樹模型;以及對接 unsupervised learning 的能力,支持聚類分析。此外,SQLFlow 基于 SHAP 支持了深度學習模型和樹模型的圖示化解釋。SQLFlow 也支持了滴滴常用的 Hive 數據庫系統。

            基于 XGBoost 的汽車價格預測模型(數據來自 Kaggle)的 SHAP 解釋圖(注:SHAP 值表征了每個特征對模型輸出的影響,如圖中,較小的 engine_hp“引擎馬力”值會降低汽車的預測價格)

            “我們是希望通過 SQLFlow 真正能夠把數據驅動業務、科學決策的思想,能夠在中國傳播得更好更遠,也希望就是能夠通過我們自己的努力,真正讓 AI 模型能力大眾化和普及化,然后使得我們整個國內的數據分析的科學性、合理性和洞察性,能夠逐步提升,甚至達到國際領先。”高梓堯說。

            而所有參與項目的同事們對 SQLFlow 的未來都有更大的期待,這是對于開源社區作為一種高效率的工作模式的信任。

            打造一個 SQL 花園生態

            在強調數據驅動的滴滴其實一直積極參與到開源建設中,截至目前,滴滴和螞蟻金服分別開源了數十個項目。SQLFlow 是雙方開源共建的首秀。

            對于雙方僅一個多月的時間就能夠共建三個高價值的模型,謝梁認為很重要的原因是 SQLFlow 已經給滴滴搭建好了底層能力,滴滴相當于做了一個交通領域的幾個核心插件,并且通過滴滴插件能力,對整個 SQLFlow 覆蓋面和深度方面的底層能力進行了驗證和提升,“那么再把這個基礎打好之后,我們就相當于造了一個大的花園,我們把土都鋪好了,需要什么營養的土,要種什么類型的花,都給他做好了,之后就需要有更多的農民伯伯一起來種田,他們要去種向日葵,我們畢竟精力有限可能就是以種小麥和種主糧為主,更多的經濟作物就需要其他開源社區的同學一起來貢獻。”

            在整個 SQLFlow 開源社區建設方面雙方都有更大的愿景,滴滴的分析團隊總結的很多模型在 BI 領域具備普適性,而 SQLFlow 在螞蟻的場景使用模型在金融領域頗有普適性,未來要讓更多的人去用上普適的 AI 能力,在 SQLFlow 社區之上會形成一個開源貨架式的交易市場,更多懂業務的人把更多商業場景抽象成模型打造成模型庫,模型庫是 SQLFlow 生態中的重要一環,雙方正在討論如何共建。“你就像走進一個超市,里面有 10萬個 SQL,每一個 SQL 就是一個實現了你商業邏輯的模型,你就拿來用就行了,這是終極的一個目標”,謝梁興奮地談到。

            當然現在的 SQLFlow 還是一個非常年輕的開源項目,需要更多的呵護。雖然目前在開源合作方面中國相比美國還有不少差距,但正是因為越來越多的公司和個人去投身其中為之貢獻,差距正在縮小。實際上,幾乎所有的 SQLFlow 項目成員都是利用業余時間參與到開源項目中。比如滴滴資深算法工程師陳祥,他平時負責數據治理和應用方向上數據、應用與算法的結合和落地, 在 8 月初聽到 SQLFlow 項目就決定參與進來,未來他也會號召很多的人參與到開源建設中。

            “開源社區所說的構建大生態,其實大生態還包含著另外一層,就是大家互相學習,然后行業內的所有從業人員進行知識交流。所以當各行各業的同學都在里面貢獻自己的經驗、技能時,我們其實也能從其他的同學那學習到很多處理數據,或者解決實際問題的方法。”高梓堯所言恰如其分地詮釋了開源社區眾人拾柴火焰高的魅力。

            Gartner 預測“到 2020 年,AI 技術將普遍出現在幾乎每一個新的軟件產品和服務中。”這其中有螞蟻金服與滴滴 DS 團隊的一份力。

            項目地址

            歡迎感興趣的同學加入社區討論:

            項目官網: https://sqlflow.org

            GitHub地址: https://github.com/sql-machine-learning/sqlflow

            您也可以使用docker,運行文章中的汽車價格預測模型: docker run -p 8888:8888 sqlflow/sqlflow:didi?


            來自 “ ITPUB博客 ” ,鏈接:http://www.ep4tq.com/69904796/viewspace-2661064/,如需轉載,請注明出處,否則將追究法律責任。

            請登錄后發表評論 登錄
            全部評論

            注冊時間:2019-01-21

            • 博文量
              77
            • 訪問量
              52434
            妹子图每日分享