使用BULK INSERT高效导入大量数据到SQL Server数据库

lujiguo115 发表于 2015-6-30 11:35:56

源数据 (文本文件)
　　下载了大量的股票历史数据, 都是文本格式的:

　　每个文件第一行包含股票代码, 股票名称, 数据类型. 第二行是数据列的名称:

数据表
　　在数据库中新建了一个数据表TestStock, 并设置以下字段, 但没有关于"成交额"的字段, 因为以后的计算不会用到这个数据. 另外这里关于价格的字段没有使用money数据类型, decimal足矣.

编写格式化文件
　　编写格式化文件请参考:

　　1. XML 格式化文件的架构语法
　　2. XML 格式化文件示例

　　当前数据的格式化文件为:

　　暂且先保存在C盘目录下吧, 文件名叫BCPFORMAT.xml.

编写BULK INSERT语句
　　关于BULK INSERT的语法请参考这篇文档, 这里用到的参数主要为FORMATFILE, FIELDTERMINATOR和ROWTERMINATOR.

　　BULK INSERT TestStock
　　FROM 'C:\SH600475.txt'
　　WITH (
　　FORMATFILE = 'C:\BCPFORMAT.xml',
　　FIELDTERMINATOR = ',',
　　ROWTERMINATOR = '\r\n' )

　　本来也应该用到 FIRSTROW 这个属性的, 因为我想跳过文本的前两行, 毕竟第三行开始才是真正的数据. 但我遇到了和这个帖子一样的问题, 就是设置 FIRSTROW 为3的时候, 实际上却从文本第5行的数据开始录入, 当我设置 FIRSTROW 为1(本想这次应该是从第文本3行开始录入吧), 结果报错, 说一行数据格式有问题, 后来我处理了一下数据: 在BULK INSERT语句执行前, 先删除文本的前两行, 并且在BULK INSERT语句中不指定 FIRSTROW 属性, 希望有人能告诉我这边最好应该怎么做...

执行
　　BULK INSERT的速度很快, 我这个例子几乎就不花时间, 而且达到了我想要的效果:

　　同样的效果, 如果从文本中读一行记录, 执行一次 INSERT INTO 语句的话, 需要10秒左右, 由此可见 BULK INSERT的高效.

参考
　　1. http://msdn.microsoft.com/zh-cn/library/ms188365.aspx
　　2. http://msdn.microsoft.com/zh-cn/library/ms189327.aspx
　　3. http://msdn.microsoft.com/zh-cn/library/ms191234.aspx
　　4. http://stackoverflow.com/questions/1029384/sql-bulk-insert-with-firstrow-parameter-skips-the-following-line
　　本文链接: http://www.iyunv.com/technology/archive/2011/08/10/2133734.html

页: [1]

运维网's Archiver

使用BULK INSERT高效导入大量数据到SQL Server数据库