<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    Feeling

        三人行,必有我師焉

       ::  :: 新隨筆 :: 聯系 ::  :: 管理 ::
      185 隨筆 :: 0 文章 :: 392 評論 :: 0 Trackbacks

    spark中有partition的概念(和slice是同一個概念,在spark1.2中官網已經做出了說明),一般每個partition對應一個task。在我的測試過程中,如果沒有設置spark.default.parallelism參數,spark計算出來的partition非常巨大,與我的cores非常不搭。我在兩臺機器上(8cores *2 +6g * 2)上,spark計算出來的partition達到2.8萬個,也就是2.9萬個tasks,每個task完成時間都是幾毫秒或者零點幾毫秒,執行起來非常緩慢。在我嘗試設置了 spark.default.parallelism 后,任務數減少到10,執行一次計算過程從minute降到20second。

    參數可以通過spark_home/conf/spark-default.conf配置文件設置。

    eg.

    spark.master  spark://master:7077 

    spark.default.parallelism  10 

    spark.driver.memory  2g 

    spark.serializer  org.apache.spark.serializer.KryoSerializer 

    spark.sql.shuffle.partitions  50

     

    下面是官網的相關描述:

    from:http://spark.apache.org/docs/latest/configuration.html

    Property NameDefaultMeaning
    spark.default.parallelism For distributed shuffle operations like reduceByKey and join, the largest number of partitions in a parent RDD. For operations likeparallelize with no parent RDDs, it depends on the cluster manager:
    • Local mode: number of cores on the local machine
    • Mesos fine grained mode: 8
    • Others: total number of cores on all executor nodes or 2, whichever is larger
    Default number of partitions in RDDs returned by transformations like joinreduceByKey, and parallelize when not set by user.

    from:http://spark.apache.org/docs/latest/tuning.html

    Level of Parallelism

    Clusters will not be fully utilized unless you set the level of parallelism for each operation high enough. Spark automatically sets the number of “map” tasks to run on each file according to its size (though you can control it through optional parameters to SparkContext.textFile, etc), and for distributed “reduce” operations, such as groupByKey and reduceByKey, it uses the largest parent RDD’s number of partitions. You can pass the level of parallelism as a second argument (see the spark.PairRDDFunctions documentation), or set the config propertyspark.default.parallelism to change the default. In general, we recommend 2-3 tasks per CPU core in your cluster.


    原文地址:http://www.cnblogs.com/wrencai/p/4231966.html

    posted on 2016-09-08 13:07 三人行,必有我師焉 閱讀(2205) 評論(0)  編輯  收藏

    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    GitHub |  開源中國社區 |  maven倉庫 |  文件格式轉換 
    主站蜘蛛池模板: 亚洲无人区一区二区三区| 亚洲а∨天堂久久精品| 亚洲av之男人的天堂网站 | 成年大片免费视频播放一级| 女人18一级毛片免费观看| 精品亚洲国产成人| 最近中文字幕免费mv视频7| 国产v亚洲v天堂a无| 成人免费视频小说| 毛片亚洲AV无码精品国产午夜| 国产一卡二卡≡卡四卡免费乱码| 天天综合亚洲色在线精品| 亚洲成人高清在线| 成人久久免费网站| 78成人精品电影在线播放日韩精品电影一区亚洲 | 亚洲精品国产国语| 午夜视频免费观看| 爱情岛论坛免费视频| 亚洲人精品午夜射精日韩| 97免费人妻在线视频| ASS亚洲熟妇毛茸茸PICS| 午夜国产大片免费观看| 中文字幕不卡高清免费| 亚洲男女性高爱潮网站| 国产美女精品视频免费观看| 春意影院午夜爽爽爽免费| 亚洲久本草在线中文字幕| 免费下载成人电影| 免费看美女午夜大片| 国产亚洲美女精品久久久久狼| 最近中文字幕免费mv在线视频| 亚洲欧美乱色情图片| 成人午夜亚洲精品无码网站| 91免费在线播放| 美女视频黄.免费网址| 久久久久久亚洲AV无码专区| 免费观看理论片毛片| 中文成人久久久久影院免费观看 | 国产精品亚洲片在线| 成人免费毛片内射美女APP | 99视频在线免费观看|