设为首页 收藏本站
查看: 687|回复: 0

[经验分享] ubuntu14.04机器学习搭建——python、R、spark

[复制链接]

尚未签到

发表于 2015-11-30 10:01:50 | 显示全部楼层 |阅读模式
  主要记录了最近工作要用到的一些测试环境的搭建,记下来以后随时随地都可以搭建这样一个环境。没什么太多技术含量,主要是为了方便,大神请绕道。
  
  一.操作系统安装
  1.下载操作系统镜像(博主实在虚拟机中安装的,毕竟只是测试用),虚拟机安装镜像 http://pan.baidu.com/s/1gdCXrGZ
    2.修改软件源,博主用的是aliyun的,亲测可用
    3.禁止guest登录(博主轻微强迫症)
  首先安装vim :sudo apt-get install vim-gnome
  sudo vim /usr/share/lightdm/lightdm.conf.d/50-unity-greeter.conf
  添加 allow-guest=false
  4.sudo无密码登录
  sudo chmod 770 /etc/sudoers
  sudo vim /etc/sudoers
  修改为  
  root ALL=(ALL:ALL) NOPASSWD: NOPASSWD: ALL
  # Members of the admin group may gain root privileges
%admin ALL=(ALL) NOPASSWD: NOPASSWD: ALL
  # Allow members of group sudo to execute any command
%sudo   ALL=(ALL:ALL) NOPASSWD: NOPASSWD: ALL
  sudo chmod 0440 /etc/sudoers
  5.增加源(为了安装最新版本的R语言)
  sudo vim /etc/apt/sources.list    添加以下信息:

deb http://mirror.bjtu.edu.cn/cran/bin/linux/ubuntu trusty/            
deb http://mirror.neu.edu.cn/ubuntu/ trusty-backports main restricted universe  
  二.python机器学习环境
  1.python系统默认是2.7,博主就用的默认版本。
  2.机器学习常见包的安装(numpy,scipy,pandas,matplotlib,sklearn)
  sudo apt-get install python-pip
  sudo apt-get install python-dev
  修改pip的源(默认源下载太慢)
  sudo vim ~/.pip/pip.conf (说明:随便安装一个错误的包,~/.pip就会自动生成)   添加
  [global]
trusted-host=mirrors.aliyun.com
index-url=http://mirrors.aliyun.com/pypi/simple/
  这里我们有两种方式安装python包:(1) apt-get直接安装    (2) pip install 安装   (推荐第一种方式安装,pip安装会出现某些包找不到资源)
  sudo apt-get install python-numpy
sudo apt-get install python-scipy
sudo apt-get install python-matplotlib
  sudo apt-get install python-sklearn
  sudo pip install pandas
  或者
  sudo apt-get build-dep python-numpy(安装相关编译环境,可选)
sudo apt-get build-dep python-scipy
  sudo pip install numpy
sudo pip install scipy(会有两个包找不到资源,推荐第一种方式安装)
  sudo pip install numpy
sudo pip install pandas
  另外博主也安装了scrapy等常用库
  3.开发工具
  由于博主不需要开发大型的工程,所以多数时候都不会用到集成环境。当然,由于沿用java的习惯,博主同样在eclipse安装了python插件,计划以后用来写python爬虫等等,这里不再详述
  博主日常写代码用的是ipython notebook环境
  sudo apt-get install ipython
  sudo pip install notebook
  输入 ipython notebook 就进入了代码界面
  网上也有提到需要安装  sudo apt-get install libzmq-dev  ,博主没安装照样跑的飞起。不过能装就装了吧
  
  三.R环境
  1.先来个全面升级吧  
  sudo apt-get update   
  可能会遇到错误:
  Reading package lists... Done
W: GPG error: http://mirror.bjtu.edu.cn trusty/ Release: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY 51716619E084DAB9
  输入:
  sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 51716619E084DAB9  
  
  sudo apt-get upgrade   可能要花一段时间
  2.安装R语言
  sudo apt-get install r-base
  3.R语言开发工具RStudio
  http://pan.baidu.com/s/1jG93zwE
  sudo apt-get install gdebi-core
  sudo gdebi rstudio-0.99.484-amd64.deb
  4.R包换国内的源
  输入: rstudio
  tools-->global option-->package 换成国内的源
  
  四.spark环境
  1.java安装   
  直接安装open-jdk(没什么好说的)
  安装oraclejdk:
  原来系统有的可以先删除
  sudo apt-get autoremove **
  sudo add-apt-repository ppa:webupd8team/java

sudo apt-get update
sudo apt-get upgrade
sudo apt-get install oracle-java7-installer
sudo apt-get install oracle-java7-set-default  2.源码编译环境
  http://pan.baidu.com/s/1jG3xLNS   直接解压安装
  http://pan.baidu.com/s/1c0iBqTU   未编译的源码包
  MAVEN和scala以及sbt,在源码包的build目录下都有,添加环境变量就行了。
  maven编译官方有文档,照着写就OK了
  3.hadoop的编译环境
  在做balancer优化的时候对源代码进行了一些更改,尝试了首次编译(以前都是直接解压安装的)。
  在这里稍微提一下,编译需要java, c++,各种lib、devel(autoconf, automake, libtool, ncurses-devel, openssl-devel, gcc,g++, lzo-devel, zlib-devel), ant, maven, protobuf(容易忽略), cmake
  
  五.eclipse集成python,scala
  sudo apt-get install eclipse-platform   应该是3.8.1版本的
  http://www.pydev.org/updates/     python插件在线安装地址
  http://download.scala-ide.org/sdk/helium/e38/scala210/stable/site    scala2.10插件在线安装
  
  
  
  新开博客,以后会不定时更新机器学习与数据挖掘相关的算法实现以及spark MLlib相关的算法与应用。
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-145239-1-1.html 上篇帖子: 【C++实现python字符串函数库】一:分割函数:split、rsplit 下篇帖子: Python的单元测试(二)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表