?Scala是基于JVM的編程語言。Java是運行在jvm上的編程語言,java源代碼通過jvm被編譯成class文件,然后在os上運行class文件。Scala是運行在jvm上的編程語言,scala源代碼通過jvm被編譯成class文件,然后在os上運行class文件
Hadoop分享: 1、云計算概念 2、Google的云計算 3、Hadoop 4、HDFS 5、Map/Reduce 6、日志框架的Hadoop嘗試 7、路在何方
提綱電子商務推薦系統簡介電子商務推薦系統技術介紹基于關聯規則的推薦算法基于最近鄰居的協同過濾算法基于項目的協同過濾算法電子商務推薦系統簡介Harvard商學院的JoePing在大規模定制一文中認為現代企業應該從大規模生產(以標準化的產品和均勻的市場為特征)向大規模定制(為不同客戶的不同需求提供不同的商品)轉化電子商務推薦系統(RecommendationSystem)向客戶提供商品信息和建議,模擬銷售人員幫助客戶完成購買過程電子商務推薦系統簡介電子商務推薦系統的作用:將電子商務網站的瀏覽者轉變為購買者(Converting Browsersinto Buyers)提高電子商務網站的交叉銷售能力(Cross-Sell)提高客戶對電子商務網站的忠誠度(Building Loyalty)電子商務推薦系統簡介電子商務推薦系統的界面表現形式分類:Browsing:客戶提出對特定商品的查詢要求,推薦系統根據查詢要求返回高質量的推薦
Thanks for coming – today will talk about Docker based Hadoop provisioning. Quick introduction of who we are - Young startup, from Budapest, Hungary. Janos Matyas – CTO, open source contributor, Hadoop YARN evangelist. Ease Hadoop provisioning – everywhere Automate and unify the process Arbitrary cluster size Same process through a cluster lifecycle (Dev, QA, UAT, Prod) (Auto) scaling Hadoop
scala介紹Scala完全面向對象相對于Java而言,Scala的代碼更為精簡(減低犯錯),而且功能更為廣泛(Scala其實是ScalableLanguage的簡稱,意為可擴展的語言),許多Scala的特性和語法都是針對Java的不足和弱點來設計的。Scala的特點是有很多函數程式語言的特性(例如ML,Miranda,Scheme,Haskell),譬如惰性求值,listcomprehension,typeinference,anonymousfunction,patternmatching等等,同時也包含Object-Oriented的特性(OO能與FP混合使用是Scala的亮點)。此外,許多相似于高級編程語言的語法也滲入其中(例如Python),不僅提高了Scala代碼的可讀性,維護、修改起來也較為省時省力。Scala與Java語法上的明顯差異有:不需要分號結尾類型定義開頭需大寫(與Haskell相同)函數定義需?def?開頭(與Python、Ruby相同)return?可以省略scala安裝解壓設置PATH即可,前提是需要先安裝JDK,不在過多描述。
第七章:分類和預測7.1什么是分類?什么是預測7.2關于分類和預測的一些問題7.3使用決策樹進行分類7.4貝葉斯分類7.5(向后傳播分類)帶回饋的分類7.6基于關聯規則的分類7.7其他分類方法7.8預測7.9分類法的準確性7.10總結DataMining:ConceptsandTechniques分類和預測分類:預測種類字段基于訓練集形成一個模型,訓練集中的類標簽是已知的。使用該模型對新的數據進行分類預測:對連續性字段進行建模和預測。
第七章:分類和預測什么是分類?什么是預測關于分類和預測的一些問題使用決策樹進行分類貝葉斯分類帶回饋的分類基于關聯規則的分類其他分類方法預測分類的準確率總結
Effective Scala格式化代碼格式化的規范并不重要,只要它們實用。它的定義形式沒有先天的好與壞,幾乎每個人都有自己的偏好。然而,對于一貫地采用同一格式化規則的總會增加可讀性。已經熟悉某種特定風格的讀者不必非要去掌握另一套當地習慣,或譯解另一個角落里的語言語法。這對Scala來說也特別重要,因為它的語法高度的重疊。一個例子是方法調用:方法調用可以用“.”后邊跟圓括號,或不使用“.”,后邊用空格加不帶圓括號(針對空元或一元方法)方式調用。此外,不同風格的方法調用揭露了它們在語法上不同的分歧(ambiguities)。
MySQL學習筆記數據庫比較數據庫需求1)可伸縮性(Scalability),當服務的負載增長時,系統能被擴展來滿足需求,且不降低服務質量。2)高可用性(Availability),盡管部分硬件和軟件會發生故障,整個系統的服務必須是每天24小時每星期7天可用的。3)可管理性(Manageability),整個系統可能在物理上很大,但應該容易管理。4)價格有效性(Cost-effectiveness),整個系統實現是經濟的、易支付的。MySQL數據庫系統的優缺點優點1.源碼公開,免費2.跨平臺3.為多種開發語言和包提供了API4.支持多線程5.小巧、靈活、速度較快6.支持各種字符集7.提供各種連接、優化的工具包缺點1.不完善,很多數據庫特性不支持
Extends Spark for doing large scale stream processing。 Scales to 100s of nodes and achieves second scale latencies。 Efficient and fault-tolerant stateful stream processing。 Integrates with Spark’s batch and interactive processing。 Provides a simple batch-like API for implementing complex algorithms
Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有著高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上。而且它提供高傳輸率(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以流的形式訪問(streaming access)文件系統中的數據。
Spark 是Scala寫的, 運行在JVM上。所以運行環境是Java6或者以上。 如果想要使用 Python API,需要安裝Python 解釋器2.6版本或者以上。 目前Spark(1.2.0版本) 與Python 3不兼容。
Spark維護著RDDs之間的依賴關系和創建關系, 叫做 血統關系圖(lineage graph)。 Spark使用血統關系圖來計算每個RDD的需求和恢復丟失的數據(當一些存儲的RDD丟失的時候)。
RDDs Resilient distributed datasets(彈性分布式數據集,簡寫RDDs)。 一個RDD就是一個不可改變的分布式集合對象,內部由許多partitions(分片)組成,每個partition都包括一部分數據,這些partitions可以在集群的不同節點上計算 Partitions是Spark中的并行處理的單元。Spark順序的,并行的處理partitions。 RDDs 是 Spark的分發數據和計算的基礎抽象類,是Spark的核心概念。 RDD可以包含 Python, Java, 或者 Scala中的任何數據類型,包括用戶自定義的類。 在Spark中,所有的計算都是通過RDDs的創建,轉換,操作完成的。 RDD具有lineage graph(血統關系圖)。
Spark程序的開發和運行。創建SparkContext、WordCount程序。
使用Scala+IntelliJ IDEA+Sbt搭建開發環境