实例:利用 L-BFGS 方法求解逻辑回归问题
考虑逻辑回归问题
其中 为已知的待分类的数据集。这里利用 L-BFGS 方法对其进行求解。
目录
逻辑回归问题
设定随机种子。
clear; seed = 97006855; ss = RandStream('mt19937ar','Seed',seed); RandStream.setGlobalStream(ss);
在不同的数据集上进行实验。导入 LIBSVM 数据集 a9a 进行实验, libsvmread 为另外运行的读入程序。
dataset = 'a9a.test';
[b,A] = libsvmread(dataset);
[m,n] = size(A);
mu = 1e-2/m;
fun = @(x) lr_loss(A,b,m,x,mu);
参数值的设定,|opts.m| 为 L-BFGS 算法的记忆对存储数目。
opts = struct(); opts.xtol = 1e-6; opts.gtol = 1e-6; opts.ftol = 1e-16; opts.maxit = 2000; opts.record = 0; opts.m = 5;
以 为迭代初始点,调用 L-BFGS 算法求解。
x0 = zeros(n,1); [x1,~,~,out1] = fminLBFGS_Loop(x0,fun,opts);
在 CINA 上的实验。
seed = 97006855; ss = RandStream('mt19937ar','Seed',seed); RandStream.setGlobalStream(ss); dataset = 'CINA.test'; [b,A] = libsvmread(dataset); Atran = A'; [m,n] = size(A); fun = @(x) lr_loss(x,mu); x0 = zeros(n,1); fun = @(x) lr_loss(A,b,m,x,mu); [x2,~,~,out2] = fminLBFGS_Loop(x0,fun,opts);
在 ijcnn1 上的实验。
seed = 97006855; ss = RandStream('mt19937ar','Seed',seed); RandStream.setGlobalStream(ss); dataset = 'ijcnn1.test'; [b,A] = libsvmread(dataset); Atran = A'; [m,n] = size(A); mu = 1e-2/m; fun = @(x) lr_loss(A,b,m,x,mu); x0 = zeros(n,1); [x3,~,~,out3] = fminLBFGS_Loop(x0,fun,opts);
结果可视化
对于不同数据集,展示目标函数的梯度范数随着迭代步的变化。
fig = figure; k1 = 1:10:out1.iter; semilogy(k1-1, out1.nrmG(k1), '-', 'Color',[0.2 0.1 0.99], 'LineWidth',2); hold on k2 = 1:10:out2.iter; semilogy(k2-1, out2.nrmG(k2), '-.', 'Color',[0.99 0.1 0.2], 'LineWidth',1.8); hold on k3 = 1:10:out3.iter; semilogy(k3-1, out3.nrmG(k3), '--', 'Color',[0.99 0.1 0.99], 'LineWidth',1.5); legend('a9a','CINA','ijcnn1'); ylabel('$\|\nabla \ell (x^k)\|_2$', 'fontsize', 14, 'interpreter', 'latex'); xlabel('迭代步'); print(fig, '-depsc','lr_lbfgs.eps');
辅助函数
逻辑回归的目标函数 。
function [f,g] = lr_loss(A,b,m,x,mu)
Ax = A*x;
Atran = A';
expba = exp(- b.*Ax);
f = sum(log(1 + expba))/m + mu*norm(x,2)^2;
当前点处的梯度 。 ( nargout 表示当前函数在被调用时,需要的输出的个数。当输出个数大于1时,计算目标函数的梯度。)
if nargout > 1 g = Atran*(b./(1+expba) - b)/m + 2*mu*x; end end
结果分析
上图展示了在 LIBSVM 的三个数据集上的结果。L-BFGS 算法相较牛顿法需要的迭代步数更多,但是不需要在每一步计算海瑟矩阵。 另外,在不同的数据集上该算法的表现呈现出较大差异,这与数据集本身的特点有关。
参考页面
L-BFGS 算法,参见 L-BFGS 求解优化问题。 该算法的另一个应用参考页面 实例:L-BFGS 求解基追踪问题。
此页面使用了 LIBSVM 数据集,关于数据集,请参考 LIBSVM 数据集。
此页面的源代码请见: demo_lr_lbfgs.m。
版权声明
此页面为《最优化:建模、算法与理论》、《最优化计算方法》配套代码。 代码作者:文再文、刘浩洋、户将,代码整理与页面制作:杨昊桐。
著作权所有 (C) 2020 文再文、刘浩洋、户将