scala maven 版本冲突问题解决

Posted by 夏泽民

scalatest_2.10-1.9.1.jar of core build path is cross-compiled with an incompatible version of Scala (2.10.0)



Eclipse中操作Hive、HDFS、spark时的jar包列表

Posted by 夏泽民
<img src="https://xiazemin.github.io/MyBlog/img/hivejar.pnghdfsjar"/>

	<img src="https://xiazemin.github.io/MyBlog/img/hdfsjar.png"/> 右击“SaprkScala”工程,选择“Properties”,在弹出的框中,按照下图所示,依次选择“Java Build Path” –>“Libraties” –>“Add External JARs…”,导入文章“Apache Spark:将Spark部署到Hadoop 2.2.0上”中给出的 assembly/target/scala-2.9.3/目录下的spark-assembly-0.8.1-incubating- hadoop2.2.0.jar


Eclipse+maven+scala+spark环境搭建

Posted by 夏泽民

1.安装Scala-IDE 在Eclipse中开发Scala程序需要有scala插件,我们现在安装scala插件 2.安装m2e-scala插件 m2e-scala用来支持scala开发中对maven的一些定制功能。通过eclipse的Install New Software安装。 安装过程 1.Help->Install New Software 2.输入m2e-scala下载的url 具体URL为http://alchim31.free.fr/m2e-scala/update-site/ 3.安装完成后,可在Help->Installation Details中查看 4.添加远程的原型或模板目录 Catalog file:http://repo1.maven.org/maven2/archetype-catalog.xml Description:Remote Catalog Scala 5、出现过mvn连不上公共库的问题; 解决方法:vi eclipse.ini add : -vmargs -Djava.net.preferIPv4Stack=true



maven

Posted by 夏泽民

1.1 常用的mvn命令 mvn archetype:create 创建 Maven 项目 mvn compile 编译主程序源代码,不会编译test目录的源代码。第一次运行时,会下载相关的依赖包,可能会比较费时 mvn test-compile 编译测试代码,compile之后会生成target文件夹,主程序编译在classes下面,测试程序放在test-classes下 mvn test 运行应用程序中的单元测试 mvn site 生成项目相关信息的网站 mvn clean 清除目标目录中的生成结果 mvn package 依据项目生成 jar 文件,打包之前会进行编译,测试 mvn install在本地 Repository 中安装 jar。 mvn eclipse:eclipse 生成 Eclipse 项目文件及包引用定义 mvn deploy 在整合或者发布环境下执行,将最终版本的包拷贝到远程 的repository,使得其他的开发者或者工程可以共享。 一些高级功能命令 跳过测试类 : -Dmaven.test.skip=true 下载jar包源码: -DdownloadSource=true 下载javadocs: -DdownloadJavadocs=true 2.1 编写POM 就像Make的Makefile、Ant的build.xml一样,Maven项目的核心是pom.xml。POM(Project Object Model),项目对象模型定义了项目的基本信息,用于描述项目如何构建,声明项目依赖,等等。现在先为HelloWorld项目编写一个最简单的pom. xml, XML头



随机森林

Posted by 夏泽民

1 什么是随机森林?   作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最初,我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛,参赛者对随机森林的使用占有相当高的比例。此外,据我的个人了解来看,一大部分成功进入答辩的队伍也都选择了Random Forest 或者 GBDT 算法。所以可以看出,Random Forest在准确率方面还是相当有优势的。



Search

Popular posts

Anything in here will be replaced on browsers that support the canvas element

Recent posts

This blog is maintained by 夏泽民

Get in touch with me at 465474307@qq.com

Subscribe to our mailing list

* indicates required