MSCBSC 移動通信論壇
搜索
登錄注冊
網(wǎng)絡優(yōu)化工程師招聘專欄 4G/LTE通信工程師最新職位列表 通信實習生/應屆生招聘職位

  • 閱讀:7341
  • 回復:13
python使用pyspark大數(shù)據(jù)技術解決大量數(shù)據(jù)迭代分組取TOPN的問題
huming
論壇元老
鎵嬫満鍙風爜宸查獙璇? style=


 發(fā)短消息    關注Ta 

積分 27659
帖子 260
威望 19169 個
禮品券 18 個
專家指數(shù) 16
注冊 2007-6-27
專業(yè)方向  LTE
回答問題數(shù) 0
回答被采納數(shù) 0
回答采納率 0%
 
發(fā)表于 2019-03-08 20:06:14  只看樓主 

探討的場景:

1、數(shù)據(jù)源:取出大量指標或其他需要計算統(tǒng)計的原始數(shù)據(jù)文件(txt、csv等類型),幾十或幾百個甚至更多,當前這個例子為小時級的小區(qū)指標文件;
2、存在的問題,很難再短時間內(nèi)對大量的數(shù)據(jù)計算出需要需要的結果;
需求:取出每個月,每個小區(qū)<最大RRC連接數(shù)>的最大的三天數(shù)據(jù)和其對應的其他指標;(迭代分組取TOPN的問題)
即:
第一次分組計算:取出每個小區(qū)每天24小時中,哪個時段的<最大RRC連接數(shù)>的值最大,并記錄下這個時段(即自忙時);
第二次分組計算:以第一次分組結算的結果,作為數(shù)據(jù)源,取每個月中,每個小區(qū)<最大RRC連接數(shù)>最大的前三天對應的指標數(shù)據(jù);
3、解決方案:
1.png

對于數(shù)據(jù)量比較大的場景,使用單機關系型數(shù)據(jù)庫實現(xiàn)迭代分組的功能,耗時較長,有興趣的朋友可以嘗試一下,oracle里面的開窗函數(shù)可以解決此類場景的問題,但是具體性能如何,沒有嘗試過。單機mysql貌似沒有能夠有高性能的解決方案,我自己嘗試過好幾種寫法,都無法避免索引失效導致的全表掃描問題;但無論如何,文件導入數(shù)據(jù)庫的過程必然耗費大量時間。

4、業(yè)務流程:

2.png5、代碼過程落地:

3.png


4.png

6、源碼:

源碼.rar

源碼.rar


7、視頻說明:

鏈接:[url]https://pan.baidu.com/s/1cer_qm6I2AC_69AgLZuotA&nbsp[/url];

提取碼:2aqj 






查看積分策略說明
附件下載列表:
2019-3-8 20:05:50  下載次數(shù): 55
源碼.rar (183.82 KB)
2019-3-8 23:10:02  下載次數(shù): 27
源碼.rar (183.12 KB)
2019-3-9 13:51:38  下載次數(shù): 36
源碼.rar (183.12 KB)
掃碼關注5G通信官方公眾號,免費領取以下5G精品資料
  • 1、回復“YD5GAI”免費領取《中國移動:5G網(wǎng)絡AI應用典型場景技術解決方案白皮書
  • 2、回復“5G6G”免費領取《5G_6G毫米波測試技術白皮書-2022_03-21
  • 3、回復“YD6G”免費領取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復“LTBPS”免費領取《《中國聯(lián)通5G終端白皮書》
  • 5、回復“ZGDX”免費領取《中國電信5G NTN技術白皮書
  • 6、回復“TXSB”免費領取《通信設備安裝工程施工工藝圖解
  • 7、回復“YDSL”免費領取《中國移動算力并網(wǎng)白皮書
  • 8、回復“5GX3”免費領取《 R16 23501-g60 5G的系統(tǒng)架構1
  • 共獲得 1 次點評 我要點評

     
    [充值威望,立即自動到帳] [VIP貴賓權限+威望套餐] 另有大量優(yōu)惠贈送活動,請光臨充值中心
    充值擁有大量的威望和最高的下載權限,下載站內(nèi)資料無憂
    bikerboy
    論壇元老
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    紀念勛章·十周年  
    積分 20148
    帖子 548
    威望 201696 個
    禮品券 115 個
    專家指數(shù) -1553
    注冊 2008-11-11
    專業(yè)方向  無線
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2019-03-09 10:29:51 

    支持原創(chuàng)

    對本帖內(nèi)容的看法? 我要點評

     
    [立即成為VIP會員,百萬通信專業(yè)資料立即下載,支付寶、微信付款,簡單、快速!]
    大灰熊
    新手上路
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    積分 -176
    帖子 91
    威望 9522 個
    禮品券 8 個
    專家指數(shù) -631
    注冊 2012-8-27
    專業(yè)方向  WCDMA
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2019-03-09 11:05:11 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 發(fā)表
    探討的場景:1、數(shù)據(jù)源:取出大量指標或其他需要計算統(tǒng)計的原始數(shù)據(jù)文件(txt、csv等類型),幾十或幾百個甚至更多,當前這個例子為小時級的小區(qū)指標文件;2、存在的問題,很難再短時間內(nèi)對大量的數(shù)據(jù)計算出需要 ...

    源碼沒法下載啊

    對本帖內(nèi)容的看法? 我要點評

     
    [2分鐘擁有VIP權限和充足威望,可下載站內(nèi)任何資料] [快速找到一份高薪的通信行業(yè)職位]
    shujunjie
    銀牌會員
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    積分 2921
    帖子 857
    威望 19152 個
    禮品券 205 個
    專家指數(shù) -1364
    注冊 2010-1-14
    專業(yè)方向  網(wǎng)優(yōu)
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2019-03-09 23:00:13 

    太牛逼了;謝謝

    對本帖內(nèi)容的看法? 我要點評

     
    最新通信職位:廣東通信人才網(wǎng) | 北京通信人才網(wǎng) | 上海通信人才網(wǎng) | 南京通信人才網(wǎng) | 西安通信人才網(wǎng) | 重慶通信人才網(wǎng) | 中國通信人才網(wǎng)
    JOHNY
    VIP會員
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    紀念勛章·七周年   財富勛章·神秘富豪   紀念勛章·八周年   紀念勛章·九周年   紀念勛章·十周年  
    積分 4170
    帖子 840
    威望 320382 個
    禮品券 54 個
    專家指數(shù) -30
    注冊 2010-1-18
    專業(yè)方向  無線網(wǎng)絡優(yōu)化
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2019-03-10 13:27:00 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 發(fā)表
    探討的場景:1、數(shù)據(jù)源:取出大量指標或其他需要計算統(tǒng)計的原始數(shù)據(jù)文件(txt、csv等類型),幾十或幾百個甚至更多,當前這個例子為小時級的小區(qū)指標文件;2、存在的問題,很難再短時間內(nèi)對大量的數(shù)據(jù)計算出需要 ...

    牛逼不是一般般的

    對本帖內(nèi)容的看法? 我要點評

     
    [2分鐘擁有VIP權限和充足威望,可下載站內(nèi)任何資料] [快速找到一份高薪的通信行業(yè)職位]
    horizon2
    VIP會員
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    積分 28229
    帖子 1102
    威望 19312 個
    禮品券 66 個
    專家指數(shù) -399
    注冊 2007-5-5
    專業(yè)方向  無線
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2019-03-11 11:03:27 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 發(fā)表
    探討的場景:1、數(shù)據(jù)源:取出大量指標或其他需要計算統(tǒng)計的原始數(shù)據(jù)文件(txt、csv等類型),幾十或幾百個甚至更多,當前這個例子為小時級的小區(qū)指標文件;2、存在的問題,很難再短時間內(nèi)對大量的數(shù)據(jù)計算出需要 ...

    請問這個軟件是您編寫的嗎?

    我也在學python,想向您學習一下方法和方向,請幫忙加一下微信號,謝謝!

    我的微信號是:horizon2

    對本帖內(nèi)容的看法? 我要點評

     
    熱點: 通信招聘職位 | 網(wǎng)絡優(yōu)化全集 | WCDMA精品 | TD-SCDMA學習資料 | EVDO | MGW媒體網(wǎng)關資料
    horizon668
    鉆石會員
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    公益·慈善勛章   財富勛章·神秘富豪   財富勛章·鉆石王老五  
    積分 13695
    帖子 729
    威望 217316 個
    禮品券 60 個
    專家指數(shù) -890
    注冊 2009-1-9
    專業(yè)方向  無線網(wǎng)優(yōu)
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2019-03-11 20:20:38 


    QUOTE:
    原帖由 horizon2 于 2019-3-11 11:03:27 發(fā)表

    請問這個軟件是您編寫的嗎?我也在學python,想向您學習一下方法和方向,請幫忙加一下微信號,謝謝!我的微信號是:horizon2

    用pandas貌似也簡單


    data結構如下:

    date_id cell a b c

    0 2019-01-01 cella 39 17 786

    1 2019-01-02 cella 66 569 882

    2 2019-01-03 cella 16 850 960

    3 2019-01-01 cellb 40 427 742

    4 2019-01-02 cellb 9 578 78

    5 2019-01-03 cellb 14 620 831

    6 2019-01-01 cellc 67 333 831

    7 2019-01-02 cellc 68 289 92

    8 2019-01-03 cellc 59 508 264


    取每個cell的a列top2時對應行的數(shù)據(jù):


    df = pd.read_csv('data.csv')

    df['num'] = df['a'].groupby(df['cell']).rank(ascending=0,method='first')

    df[df.num <=2]


    共獲得 1 次點評 我要點評

     
    [2分鐘擁有VIP權限和充足威望,可下載站內(nèi)任何資料] [快速找到一份高薪的通信行業(yè)職位]
    菜單欄
    銀牌會員
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    紀念勛章·七周年   紀念勛章·九周年  
    積分 4632
    帖子 850
    威望 559213 個
    禮品券 169 個
    專家指數(shù) 382
    注冊 2012-3-9
    專業(yè)方向  LTE/優(yōu)化分析/VBA
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2019-03-14 19:07:23 


    QUOTE:
    原帖由 horizon668 于 2019-3-11 20:20:38 發(fā)表
    用pandas貌似也簡單data結構如下:date_idcellabc02019-01-01cella391778612019-01-02cella6656988222019-01-03cella1685096032019-01-01cellb4042774242019-01-02cellb95787852 ...

    pandas可以搞定

    對本帖內(nèi)容的看法? 我要點評

     
    熱點: 通信招聘職位 | 網(wǎng)絡優(yōu)化全集 | WCDMA精品 | TD-SCDMA學習資料 | EVDO | MGW媒體網(wǎng)關資料
    huming
    論壇元老
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    積分 27659
    帖子 260
    威望 19169 個
    禮品券 18 個
    專家指數(shù) 16
    注冊 2007-6-27
    專業(yè)方向  LTE
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2019-03-14 22:12:30  只看樓主 


    QUOTE:
    原帖由 FridayCai 于 2019-3-14 19:07:23 發(fā)表


    pandas可以搞定

    是的

    對本帖內(nèi)容的看法? 我要點評

     
    熱點: 通信招聘職位 | 網(wǎng)絡優(yōu)化全集 | WCDMA精品 | TD-SCDMA學習資料 | EVDO | MGW媒體網(wǎng)關資料
    shujunjie
    銀牌會員
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    積分 2921
    帖子 857
    威望 19152 個
    禮品券 205 個
    專家指數(shù) -1364
    注冊 2010-1-14
    專業(yè)方向  網(wǎng)優(yōu)
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2019-03-15 14:32:44 

    會編程的不搞網(wǎng)優(yōu),搞網(wǎng)優(yōu)的都沒有會編程的 ,你懂這個,你就是高手中的高手.........

    對本帖內(nèi)容的看法? 我要點評

     
    熱點: 通信招聘職位 | 網(wǎng)絡優(yōu)化全集 | WCDMA精品 | TD-SCDMA學習資料 | EVDO | MGW媒體網(wǎng)關資料
    xiaoduwudi
    初級會員
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    積分 365
    帖子 73
    威望 282 個
    禮品券 8 個
    專家指數(shù) 0
    注冊 2014-2-26
    專業(yè)方向  移動通信
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2019-03-21 14:23:06 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 發(fā)表
    探討的場景:1、數(shù)據(jù)源:取出大量指標或其他需要計算統(tǒng)計的原始數(shù)據(jù)文件(txt、csv等類型),幾十或幾百個甚至更多,當前這個例子為小時級的小區(qū)指標文件;2、存在的問題,很難再短時間內(nèi)對大量的數(shù)據(jù)計算出需要 ...

    利用新起的編程語言,厲害!

    對本帖內(nèi)容的看法? 我要點評

     
    熱點: 通信招聘職位 | 網(wǎng)絡優(yōu)化全集 | WCDMA精品 | TD-SCDMA學習資料 | EVDO | MGW媒體網(wǎng)關資料
    相思雨312
    初級會員
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    積分 325
    帖子 65
    威望 73889 個
    禮品券 0 個
    專家指數(shù) 0
    注冊 2014-7-10
    專業(yè)方向  通信
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2019-04-22 17:35:14 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 發(fā)表
    探討的場景:1、數(shù)據(jù)源:取出大量指標或其他需要計算統(tǒng)計的原始數(shù)據(jù)文件(txt、csv等類型),幾十或幾百個甚至更多,當前這個例子為小時級的小區(qū)指標文件;2、存在的問題,很難再短時間內(nèi)對大量的數(shù)據(jù)計算出需要 ...

     厲害,學習一下

    對本帖內(nèi)容的看法? 我要點評

     
    熱點: 通信招聘職位 | 網(wǎng)絡優(yōu)化全集 | WCDMA精品 | TD-SCDMA學習資料 | EVDO | MGW媒體網(wǎng)關資料
    憤怒的菊花
    高級會員
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    積分 1255
    帖子 238
    威望 66698 個
    禮品券 0 個
    專家指數(shù) -36
    注冊 2007-7-23
    專業(yè)方向  11
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2021-04-23 10:16:00 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 發(fā)表
    探討的場景:1、數(shù)據(jù)源:取出大量指標或其他需要計算統(tǒng)計的原始數(shù)據(jù)文件(txt、csv等類型),幾十或幾百個甚至更多,當前這個例子為小時級的小區(qū)指標文件;2、存在的問題,很難再短時間內(nèi)對大量的數(shù)據(jù)計算出需要 ...

    牛人啊,這玩應也能整出來;

    對本帖內(nèi)容的看法? 我要點評

     
    [2分鐘擁有VIP權限和充足威望,可下載站內(nèi)任何資料] [快速找到一份高薪的通信行業(yè)職位]

    快速回復主題    
    標題
    內(nèi)容
     上傳資料請點左側【添加附件】

    (勾選中文件為要刪除文件)


    當前時區(qū) GMT+8, 現(xiàn)在時間是 2025-02-23 10:14:40
    渝ICP備11001752號  Copyright @ 2006-2016 mscbsc.com  本站統(tǒng)一服務郵箱:mscbsc@163.com

    Processed in 1.251996 second(s), 50 queries , Gzip enabled
    TOP
    清除 Cookies - 聯(lián)系我們 - 移動通信網(wǎng) - 移動通信論壇 - 通信招聘網(wǎng) - Archiver